Intel实验室开源RAG优化工具RAG-FiT,获得769 Star
Intel实验室开源的RAG优化工具RAG-FiT,目前在GitHub获得769 Star:


RAG-FiT是一个用于提升大语言模型使用外部信息能力的工具库,通过在特制的RAG增强数据集上微调模型实现优化。该工具库支持创建训练所需数据,使用参数高效微调方法训练模型,还可通过多种RAG专用指标衡量性能提升效果。工具库采用模块化设计,工作流可通过配置文件自定义。该项目前称RAG Foundry。
RAG-FiT框架支持快速原型设计和多种RAG设置的实验,包括数据选择过滤、处理、检索、排序、查询操作、提示生成、训练、推理、输出处理和评估。工具库包含四个模块:数据集创建、训练、推理和评估。
数据集创建模块生成数据集,存储RAG交互信息,用于RAG训练和推理。RAG交互信息包括数据集加载、列标准化、数据聚合、外部工具信息检索、API集成、基于模板的提示创建等预处理操作。数据以独立于模型的统一输入输出格式保存,附带所有字段和元数据。
训练模块使用参数高效微调方法和TRL,用户可在增强数据集上训练任意模型。训练针对补全内容进行,训练后的模型可推送至HF Hub。
推理模块使用增强数据集,通过训练或未训练的大语言模型生成预测结果。
评估模块对推理模块生成的输出运行评估。用户可提供要运行的指标列表,可轻松实现自定义指标。当前支持的指标包括EM、F1、ROUGE、BERTScore、Deepeval、RAGAS、HF evaluate和分类。指标分为本地和全局两种,本地指标在每个示例上运行,全局指标在整个数据集上运行。指标可利用数据集中的任意特征,不限于输入和输出文本。
四个模块对应顶层脚本:processing.py、training.py、inference.py和evaluation.py。调用格式为python SCRIPT options…。
工具库使用Hydra配置工具,支持分层配置,可通过CLI轻松覆盖数值,支持远程运行多个任务。采用配置即代码的方法,可根据配置实例化Python类。
每个模块在configs文件夹下都有默认配置。可通过参数覆盖配置文件,也可单独覆盖特定关键字。
开源地址:https://github.com/IntelLabs/RAGFoundry
安装方法
克隆仓库后运行:
pip install -e .
可选包可通过以下命令安装:
pip install -e .[haystack]
pip install -e .[deepeval]
快速开始
完整的端到端示例可参考PubmedQA教程,路径为./docs/pubmed.md。
如需复现论文中使用ASQA数据集的实验,可参考configs/paper文件夹中的配置。
d。
如需复现论文中使用ASQA数据集的实验,可参考configs/paper文件夹中的配置。
470

被折叠的 条评论
为什么被折叠?



