RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合信息检索和文本生成的技术,先检索(Retrieval)外挂知识,再交给大模型生成(Generation),旨在提升生成式AI模型的准确性和可靠性。
本次任务准备的外挂知识是财报数据库(结合图文的一大串pdf文件),也就是说大模型生成前需要先检索财报数据库,再根据数据库生成回答。所以我们首先需要根据用户提问,从财报数据库中筛选出最合适的数据,再将其交给大模型。
这其中又涉及一个问题,就是如何处理图文并存的多模态数据。一般有三种方法,第一种是直接把图片以文字的形式描述出来,直接用语言模型处理,这是最简单,也是baseline的方法;第二种是把图片和文本一起输入向量空间,离得近的关系就相近;第三种是直接用多模态大模型处理文本token和图片token。
在跑baseline的过程中还遇到一些问题,baseline默认是跑完所有才生成最后结果,但有时候遇到api限流可能导致程序未执行完,最后结果就一点没有,所以可以考虑增加实时保存功能。
751

被折叠的 条评论
为什么被折叠?



