5月24日,一个暴雨的午后,MinerU 官方开发者线下沙龙·上海站在徐汇区模速空间顺利举办
虽然天气并不算友好,但现场依然迎来了许多开发者、科研 AI 实践者、社区用户与开源关注者。大家围绕科学数据、文档智能、数据质量评测、MinerU 开源生态等话题展开深入交流,共度了一个信息密度很高、讨论氛围很热烈的下午。
本次沙龙以“科学数据赋能 AGI4S”为主题,旨在通过线下交流的方式,让社区用户更近距离了解 MinerU 的项目进展、技术探索与生态动作,也让 MinerU 团队听到更多来自真实使用场景的一线反馈。
一起来回顾精彩瞬间!

一、Sciverse:面向 AGI4S 的科学数据基座
活动开场,上海人工智能实验室大数据中心商富凯带来了《Sciverse:面向 AGI4S 的科学数据基座》主题分享。
分享从 AI 发展阶段切入:从对话式 AI,到 Agentic AI,再到面向科学发现的 AI for Science,科学数据正在成为支撑新一代智能系统的关键基础设施。针对科研发展中长期存在的数据封闭、暗数据流失、科学数据复杂、基础设施错配等问题,MinerU 团队最新推出的 Sciverse 科学智能数据库尝试构建一个面向科学大模型与 AI Agent 的数据底座。
在现场分享中,商富凯重点介绍了 Sciverse 的三层数据体系:面向科学通识的 Sci-Base、面向跨模态对齐的 Sci-Align,以及面向科学演化推理的 Sci-Evo。依托 MinerU 的高精度文档解析能力,Sciverse 能够将文献中的正文、公式、表格、图像等内容转化为更适合 Agent 调用的结构化数据,并通过 API 支持检索、片段读取和后续分析。

从海量文献检索,到材料、化学、生物医药等垂直领域数据构建,再到面向 Agent 的科研数据调用方式,Sciverse 展示了从“科学文献”走向“AI-Ready 科学数据”的完整路径。目前 Sciverse 已经对外开放使用,用户可以通过 API 、Skills等多种方式,获取2600万+公开(OA)科学论文、文献元数据、全文,构筑可用、可追溯以及被模型和 Agent 调用的能力。欢迎使用:https://sciverse.space

二、MinerU:构筑大模型时代的文档数据基石
随后,上海人工智能实验室 MinerU 核心成员赵致远带来了《MinerU:构筑大模型时代的文档数据基石》的主题演讲。
赵致远首先回顾了文档解析的发展脉络:从传统 OCR,到大模型时代重新认识文档价值,再到 RAG、知识库、Agent 等应用对高质量解析能力提出更高要求。
在 MinerU 的技术演进部分,分享重点介绍了从早期 Pipeline 方法,到 MinerU2.5 解耦式多模态大模型,再到 MinerU2.5-Pro 数据驱动新范式的迭代过程。针对布局检测、公式识别、表格解析、阅读顺序等关键问题,MinerU 持续在算法、数据工程和评测体系上推进优化。
其中,MinerU2.5 通过“低分辨率全局布局分析 + 原生分辨率局部内容识别”的二阶段架构,提高了复杂文档解析的效率与精度;MinerU2.5-Pro 则在模型架构不变的基础上,通过更系统的数据工程和困难样本训练,实现了性能进一步提升。
赵致远也介绍了 MinerU 当前的开源生态进展:项目已获得 6 万以上 GitHub Stars,模型下载量、在线解析服务和社区使用规模持续增长,并已在科研、金融、企业知识库等场景中被广泛关注和应用。同时也预告了跨页表格、跨页段落、多层级标题、图文关联后处理模型 MinerU-Popo。(MinerU-Popo目前已发布,点击了解:MinerU-Popo来了:让文档解析从“看懂每页”走向“读懂整篇”)

三、数据质量评测:让科学数据真正可用、可信
中场休息后,上海人工智能实验室 MinerU 项目评测储培带来了《面向 AGI4S 的多维度数据质量评测体系》主题分享。
在科学数据和文档智能应用中,“能解析”只是第一步。更关键的是:解析结果是否准确、完整、稳定?检索结果是否真正相关?最终交付给模型和 Agent 的数据是否可信?
围绕这些问题,储培介绍了面向 AGI4S 的多维度数据质量评测框架,核心包括两部分:内容质量评测与检索质量评测。
在内容质量方面,分享重点介绍了 OmniDocBench。作为面向真实场景的多样性文档解析评测集,OmniDocBench 覆盖多种文档类型、多种语言和复杂版式,从文本、公式、表格、阅读顺序等维度衡量解析质量。最新评测中,MinerU2.5-Pro 在多个关键指标上表现突出。
在检索质量方面,分享介绍了 LitSearch 和 Dingo 等评测工具。LitSearch 面向真实学术文献检索场景,关注复杂科研查询下的召回、排序和深层检索能力;Dingo 则用于数据、模型和应用质量评估,支持从离线基准到在线监控的质量闭环。
让现场观众更清楚地了解到:要让文档智能真正服务科研和 Agent 应用,不仅需要强大的解析能力,也需要持续、系统、可度量的质量评测体系。

四、交流不断,问题被带到现场
除了三场主题分享,本次沙龙的现场交流同样热烈。
在自由讨论环节,参会者围绕 MinerU 的使用体验、复杂文档解析、科研场景适配、知识库构建、Agent 调用、API 能力、后续开源计划等方向提出了许多具体问题。也有开发者结合自己的项目场景,和 MinerU 团队进行了更深入的交流。
这些问题有的来自科研文献处理,有的来自企业知识库建设,有的来自正在探索中的数据智能应用。正是这些真实、具体、带着场景的问题,让线下交流变得格外有价值。





五、继续和社区一起向前
这次上海站,是 MinerU 官方社区走到线下的一次重要尝试。
我们希望通过这样的交流,让大家更了解 MinerU 的项目进展、团队探索与生态规划;也希望通过面对面的沟通,听到更多来自用户、开发者和科研 AI 实践者的真实声音。
感谢每一位冒雨来到现场的朋友。也特别感谢大家在现场提出的建议、反馈和问题。MinerU 会继续围绕文档智能、科学数据、开源生态和真实应用场景持续建设。
*本次活动特别鸣谢战略合作伙伴浦发银行
400

被折叠的 条评论
为什么被折叠?



