使用轻量级库经济地生成高质量的合成数据集
大型语言模型 (LLMs) 是功能强大的通用工具,但它们通常缺乏特定于领域的知识,这些知识通常存储在企业存储库中。
使用您自己的数据微调自定义LLM可以弥合这一差距,而数据准备是此过程的第一步。这也是一个关键的步骤,可以显着影响微调模型的性能。
但是,手动创建数据集可能既昂贵又耗时。另一种方法是利用 来LLM生成合成数据集,通常使用 GPT-4 等高性能模型,这可能会非常昂贵。
在本文中,我旨在提请您注意一种经济高效的替代方案,用于自动从各种文档创建指令数据集。该解决方案涉及使用名为 Bonito 的轻量级开源库。

图像由作者使用由 DALL 提供支持的 Bing 聊天生成。E 3
开始使用 Bonito,开源解决方案
了解说明
在我们深入研究库鲣鱼及其工作原理之前,我们需要首先了解指令是什么。
指令是给 LLMLlama、GPT-4 等的文本或提示。它指示模型生成特定类型的答案。通过说明,人们可以引导讨论,确保模型的回复是相关的、有用的,并且符合用户的需求。创建清晰准确的说明对于实现预期结果非常重要。
介绍 Bonito,一种用于条件任务生成的开源模型
Bonito 是一个开源模型,专为条件任务生成而设计。它可用于创建合成指令调优数据集,使大型语言模型适应用户的专用私有数据。

Bonito 工作流程。来源:学习生成用于零样本任务适应的指令调整数据集
Bonito开发背后的研究论文说明了如何有效地使用它来使预训练和指令调整的模型适应各种任务,而无需任何文本注释。
该模型本身是使用 mistralai/Mistral-7B-v0.1 包含1.65M示例的新大规模数据集进行微调的。
Bonito 还支持多种任务类型,包括多项选择题解答、是-否问答、自然语言推理、主题分类等。

本文介绍了一种经济有效的技术,利用开源库Bonito自动生成高质量的合成数据集,以微调大型语言模型,使其适应特定领域知识,如银行治理。通过实例展示了如何从PDF文档创建问答数据集,与昂贵的GPT-4相比,Bonito提供了更具成本效益的解决方案。
269

被折叠的 条评论
为什么被折叠?



