Datawhale AI夏令营(多模态RAG方向,task2)

RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合信息检索和文本生成的技术,先检索(Retrieval)外挂知识,再交给大模型生成(Generation),旨在提升生成式AI模型的准确性和可靠性。

本次任务准备的外挂知识是财报数据库(结合图文的一大串pdf文件),也就是说大模型生成前需要先检索财报数据库,再根据数据库生成回答。所以我们首先需要根据用户提问,从财报数据库中筛选出最合适的数据,再将其交给大模型。

这其中又涉及一个问题,就是如何处理图文并存的多模态数据。一般有三种方法,第一种是直接把图片以文字的形式描述出来,直接用语言模型处理,这是最简单,也是baseline的方法;第二种是把图片和文本一起输入向量空间,离得近的关系就相近;第三种是直接用多模态大模型处理文本token和图片token。

在跑baseline的过程中还遇到一些问题,baseline默认是跑完所有才生成最后结果,但有时候遇到api限流可能导致程序未执行完,最后结果就一点没有,所以可以考虑增加实时保存功能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值