Datawhale AI夏令营(多模态RAG方向，task2)

最新推荐文章于 2026-06-29 21:19:11 发布

原创最新推荐文章于 2026-06-29 21:19:11 发布 · 162 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

当前文章被以下社区和专栏收录：

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合信息检索和文本生成的技术，先检索（Retrieval）外挂知识，再交给大模型生成（Generation），旨在提升生成式AI模型的准确性和可靠性。

本次任务准备的外挂知识是财报数据库（结合图文的一大串pdf文件），也就是说大模型生成前需要先检索财报数据库，再根据数据库生成回答。所以我们首先需要根据用户提问，从财报数据库中筛选出最合适的数据，再将其交给大模型。

这其中又涉及一个问题，就是如何处理图文并存的多模态数据。一般有三种方法，第一种是直接把图片以文字的形式描述出来，直接用语言模型处理，这是最简单，也是baseline的方法；第二种是把图片和文本一起输入向量空间，离得近的关系就相近；第三种是直接用多模态大模型处理文本token和图片token。

在跑baseline的过程中还遇到一些问题，baseline默认是跑完所有才生成最后结果，但有时候遇到api限流可能导致程序未执行完，最后结果就一点没有，所以可以考虑增加实时保存功能。

标签

#人工智能

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dre_shadow

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Datawhale AI夏令营第三期，多模态RAG方向 Task2

2301_76521122的博客

08-09

751

定义向量数据库也叫矢量数据库，是一种以数学向量的形式存储数据集合的数据库。更通俗的说法，向量就是一个数字列表，例如：[12, 13, 19, 8, 9]。这些数字表示维度空间中的一个位置，代表在这个维度上的特征。就像行和列号表示电子表格中特定单元格一样（例如，“A10”表示 A 列 10 行）。向量数据库的应用是使机器学习模型更容易记住先前的输入，从而使机器学习能够用于支持搜索、推荐和内容生成等应用场景。向量数据可以基于相似性搜索进行识别，而不是精确匹配，使计算模型能够在上下文中理解数据。什么是向量？

【Datawhale AI 夏令营】2025多模态RAG方向 - Task2 理解赛题重难点（用AI辅助理解！）

朝日-berry的博客

08-09

790

本文是DataWhale和科大讯飞AI夏令营多模态RAG方向的Task2学习笔记，<让AI读懂财报>赛题的重难点与实现方案。赛题要求构建能同时理解图文混排PDF的系统，解决多模态信息理解、跨模态检索、图文关联推理等核心问题。文章详细解读了输入输出格式、评分标准，并深入分析了PDF处理、多模态融合、检索优化、答案生成等关键技术挑战。最后简要介绍了Baseline方案的执行流程，包括预处理、检索和问答生成三个主要环节。

参与评论您还未登录，请先登录后发表或查看评论

【Datawhale AI 夏令营】2025多模态RAG方向 - Task0 & Task1 了解项目 + 跑通BaseLine

朝日-berry的博客

08-04

1408

本文是DataWhale与科大讯飞联合举办的多模态RAG图文问答AI夏令营的学习记录。文章详细介绍了比赛背景、任务要求及评审规则，并分步骤指导如何跑通Baseline代码。主要内容包括：比赛介绍：围绕多模态RAG技术，要求参赛者实现图文混合PDF的理解、检索与推理，生成准确答案并标注来源。学习安排：分为3个任务阶段，本文主要是项目概述和第一阶段任务。

【Task2】【Datawhale AI夏令营】多模态RAG

ljj的博客

08-09

996

科大讯飞AI大赛聚焦多模态RAG技术，旨在构建能理解图文混排财报PDF的智能问答系统。参赛者需开发一个能同时处理文本和图像的AI助手，从PDF中提取信息并生成可溯源的答案。比赛提供财报数据库和训练数据，要求提交包含答案、来源文件和页码的JSON文件。关键技术涉及多模态信息处理、跨模态检索和LLM应用。主要挑战包括多模态信息融合、PDF解析、跨模态检索及答案生成与溯源。方案需兼顾文本与图像的关联理解，确保答案准确且可验证出处。

【Task3】【Datawhale AI夏令营】多模态RAG

ljj的博客

08-10

1167

科大讯飞多模态RAG问答系统优化方案本文介绍了科大讯飞AI夏令营多模态RAG方向的优化方案。针对财报PDF解析任务，原baseline使用PyMuPDF仅能提取纯文本，丢失了关键的多模态信息。优化方案提出：1) 采用MinerU工具实现高保真文档解析，提取表格、图片等结构化内容；2) 构建"粗召回+精召回"的检索策略，先通过向量检索召回候选集，再用BGE-ReRanker模型进行重排序；3) 建议对Embedding模型和LLM进行微调，提升金融领域理解能力。此外还介绍了多路召回融合等

Datawhale AI夏令营2025第三期——多模态RAG方向(多模态RAG图文问答挑战赛笔记)

2301_77350531的博客

08-09

1942

此次夏令营活动是基于讯飞开放平台“多模态RAG图文问答挑战赛”，我在“Datawhile”公众号中发现有多模态RAG方向，本身感兴趣，想学习学习。简单来说就是很多提问问题所得到的信息，不仅仅局限于纯文本中，在图表中"隐藏"着Query的重要Answer,所以我们需要模型不仅能懂文本，还需要理解图片，二者结合使得回答的精确性与完整性都达到比较好的状态；而我们如果需要模型能够回答自己专业领域的一些问题，并且能够实时的更新，成本不要太高，那么多模态RAG 的重要性就体现出来了。

【Datawhale AI 夏令营】2025多模态RAG方向 - Task3 调整方案，进阶上分

朝日-berry的博客

08-12

1032

本文记录了参与AI夏令营多模态RAG方向的学习过程。项目目标是构建基于图文混排PDF的可溯源问答系统，主要挑战包括多模态信息融合、精准检索和细粒度信息抽取。针对baseline存在的文档解析粗糙、分块策略单一等问题，提出了多维度优化方案：1）改用MinerU解析工具提取结构化内容；2）优化分块策略并引入重排机制；3）对Embedding模型和LLM进行领域微调；4）实施全量测试数据运行。文章还探讨了多路召回融合、知识图谱构建等进阶方案，以及RAG自我修正等创新思路，为构建高性能多模态问答系统提供了系统性优化

Datawhale AI夏令营-多模态RAG财报问答-task2

Simple2hi的博客

08-09

1626

检索增强：从外部知识库（财报PDF）获取最新信息，缓解LLM知识滞后问题多模态理解：结合文本与图像信息，实现更全面的语义理解核心任务：基于财报PDF的可溯源多模态问答数据源：仅限提供的图文混排PDF可溯源：必须标注答案出处（文件名+页码）多模态：需同时处理文本与图像问答精准问答：基于检索信息生成答案。

【Datawhale AI夏令营 task3】源大模型RAG实战

2301_80457430的博客

08-16

1732

为了解决大模型的知识局限性、数据安全性、大模型幻觉，研究人员提出了检索增强生（Retrieval Augmented Generation,RAG）的方法。这种方法通过引入外部知识，使大模型能够生成准确且符合上下文的答案，同时能够减少模型幻觉的出现。由于RAG简单有效，它已经成为主流的大模型应用方案之一。

【2025】Datawhale AI夏令营-多模态RAG-Task1、Task2笔记-任务理解与Baseline代码解读

Mocode的博客

08-09

1426

以财报问答任务为具体场景，理解多模态RAG问题挑战及解读baseline方案代码。

Datawhale AI夏令营第三期多模态RAG方向 Task3

2301_76521122的博客

08-13

1252

是 MinerU 发挥作用的地方，它会去分析 PDF 的版面布局，识别出里面的文本、标题、表格和图片，然后把这些识别出的所有内容元素，连同它们的类型、位置、层级等信息，都存进一个名为。我们可以把所有通路召回的结果汇总到一起，然后用一个重排模型，比如基于 FlagEmbedding 的模型，来对这个大集合进行统一的、更精细的相关性打分，最后选出分数最高的几个结果。这就把图片这种非文本信息，也转化成了可以被检索的文本，极大地丰富了知识库的内容，当然，你也可以强制要求使用多模态模型直接生成图片的描述信息。

Datawhale AI夏令营第三期：多模态RAG图文问答挑战赛Task2学习笔记

zhhaon的博客

08-10

1536

本文为我参加Datawhale AI夏令营第三期：科大讯飞AI大赛（多模态RAG方向）的学习笔记，该方向对应“iFLYTEK AI 开发者大赛”中“”赛题，Datawhale提供了和。

Datawhale AI夏令营第三期：多模态RAG图文问答挑战赛Task3学习笔记

zhhaon的博客

08-13

1471

本文为我参加Datawhale AI夏令营第三期：科大讯飞AI大赛（多模态RAG方向）Task3的学习笔记，该方向对应“iFLYTEK AI 开发者大赛”中“”赛题，Datawhale提供了和。在此基础上，我使用mineru_pipeline_all.py代替fitz_pipeline_all.py，这样不仅能提取PDF文件中的文本，还能提取图表信息，从源头上提升知识库的质量。在此过程中也遇到了一些问题。

【2025】Datawhale AI夏令营-多模态RAG-Task3笔记-解决方案进阶

Mocode的博客

08-13

1141

为了弥补baseline方案中无法利用图表信息的不足，进阶方案中使用MinerU提取PDF中的图文信息，为LLM检索回答提供更细粒度、更丰富、上下文更流畅的知识文本。

Datawhale AI夏令营第四期魔搭-AIGC文生图方向Task1随笔

bimocunjin的博客

08-08

1104

Datawhale AI夏令营第四期魔搭-AIGC文生图方向Task1随笔

【Datawhale AI夏令营】让AI读懂财报PDF（多模态RAG）（Task 2）

Hisser的博客

08-09

841

这直接决定了我们系统的第一步必须是文档解析 (Document Parsing) 。我们不能简单地把PDF当成一个黑盒。需要设计一个流程，能自动化、结构化地从这些PDF中提取出两种核心信息：文本块 (Text Chunks) 和图片 (Images) 。更进一步，提取出的每一份信息，都必须牢牢绑定它的元数据——它来自哪个文件 (filename) 和哪一页 (page) 。这要求我们在整个处理流水线中实现元数据（Metadata）的持续追踪。我们需要建立一个能让机器“看懂”图片，并将其与文本关

Datawhale AI夏令营 Task3 Use

qq_50504810的博客

08-10

649

本文是Datawhale AI夏令营第三期多模态RAG方向的进阶教程，针对多模态RAG图文问答挑战赛的baseline方案不足，提出了系统的优化路径，旨在提升问答准确性与溯源精度。一、赛题与baseline回顾赛题目标：构建可溯源的多模态RAG系统，处理图文混排的PDF财报，回答问题并标注答案来源（文件名+页码）。评估标准：答案内容相似度（0.5分）、文件名匹配（0.25分）、页码匹配（0.25分）。baseline不足文档解析粗糙（PyMuPDF仅提取纯文本，丢失表格、图片等关键信息）；

Datawhale AI 夏令营 第四期 Task3:源大模型RAG实战

m0_74925596的博客

08-17

1162

为了解决这一问题，提升RAG效果，研究者提出增加一个二阶段检索——重排 (Rerank)，即利用重排模型（Reranker），使得越相似的结果排名更靠前。本文章中选用基于BERT架构的向量模型 bge-small-zh-v1.5，它是一个4层的BERT模型，最大输入长度512，输出的向量维度也为512。在没有RAG时，如果模型只依赖自己的底层知识进行回答，就很容易出现幻觉，回答中会出现知识库中没有的知识，或者是出现明显的错误。使用RAG之后，模型能够结果知识库中的知识，准确回答用户的提问。

【Datawhale AI 夏令营 Task1 笔记&心得】

qq_41783320的博客

08-10

1341

大模型部署【搭建你的智能编程助手】大模型RAG实战【搭建你的AI科研助手】大模型微调实战【搭建你的AI简历助手】整个学习活动聚焦于跑通 “星火大模型驱动阅读理解题库构建挑战赛挑战赛”，基于讯飞大模型定制训练平台和spark-13b微调模型，生成高考语文现代文阅读和英语阅读问题Q&A对。

15_项目实战一_用LangChain搭建个人知识库问答助手