近日,MinerU开源模型连续发布 3.3 与 3.4 版本,围绕**Hybrid 解析引擎、VLM 模型能力、pipeline 后端 OCR 能力与模型下载体验**进行了持续优化。
本轮开源模型更新,主要包括三方面:
✅ Hybrid 解析引擎新增`effort`参数:支持`medium`与`high`两档选择。默认的`medium`模式相比`high`综合精度仅降低 0.13,但在 Linux、Windows、macOS 等平台的文本 PDF 与 OCR 场景下均带来明显速度提升。
✅VLM 模型升级至MinerU2.5-Pro-2605-1.2B:修复 2604 版本中存在的多处模型问题,提升复杂文档解析稳定性,并原生支持多语言 OCR,降低额外语言参数配置成本。
✅pipeline 后端 OCR 接入 PP-OCRv6:3.4 版本将 pipeline 后端 OCR 模型更新至 PP-OCRv6;同时优化 OCR 推理与处理链路,显著改善批量文档和 OCR 密集型文档的解析效率。基于 OmniDocBench v1.6 评测结果,OCR 相关指标提升约 11%。
另外还改进了模型下载、模型缓存复用等体验。同时,MinerU 在线版也已完成了最新的 3.4 版本模型适配,并默认选择 Hybrid 解析引擎中的 medium模式为用户提供服务,在保持较高解析精度的同时,进一步提升日常文档解析效率。
欢迎使用:https://mineru.net/
更多详情,跟小编一起看看。
默认解析引擎提速:Hybrid 新增 effort 参数
MinerU中,pipeline、VLM 与 Hybrid 是三种面向不同解析场景的后端能力。
pipeline 是传统多模型管道,具备低资源、低幻觉、可支持纯 CPU 部署等特点,适合稳定处理通用文档和 OCR 类任务;
VLM 采用多模态大模型进行端到端解析,更适合复杂版面、图文混排和多语言文档等高精度场景,通常需要 GPU 支持。
Hybrid 则是 MinerU 的混合解析引擎,结合 pipeline 与 VLM 的能力优势,在解析精度、处理效率和场景适应性之间取得更好平衡。

从 3.0 版本开始,Hybrid 已成为 MinerU 的默认解析引擎。
本次 3.3 版本中,Hybrid 新增`effort`解析强度参数,提供`medium`与`high`两档选择,以满足不同的解析需求。
`medium`是默认模式,更适合大多数日常解析任务,在保持较高解析精度的同时显著提升解析速度。`high`则面向对解析精度和 image analysis 图片/图表分析能力有更高要求的场景。
在 OmniDocBench v1.6 评测中,`medium`相比`high`综合精度仅降低 0.13,但在不同设备和场景下可获得明显速度提升:
● Linux:文本 PDF 场景提升约 80%,OCR 场景提升约 35%
● Windows:文本 PDF 场景提升约 90%,OCR 场景提升约 45%
● macOS:文本 PDF 场景提升约 220%,OCR 场景提升约 50%
需要注意的是,`medium`档暂不支持 image analysis 图片/图表分析功能。如需启用相关能力,可切换至`effort=high`。
VLM 模型升级,复杂文档解析更稳定
除 Hybrid 解析引擎优化外,MinerU 3.3版本 还将 VLM 模型升级至`MinerU2.5-Pro-2605-1.2B`。新版本修复了 2604 版本中存在的多处模型问题,进一步提升复杂文档场景下的解析稳定性。
同时,VLM 模型原生支持多语言 OCR,降低多语言文档解析时对额外语言参数配置的依赖。对于中英文混排、多语言资料、复杂版面文档,新版本能够提供更稳定的解析表现。
pipeline 接入 PP-OCRv6,OCR 能力增强
在 MinerU 3.4版本中,pipeline 后端 OCR 模型升级至 PP-OCRv6。
pipeline 后端是一套流程化解析链路,包含 OCR、版面分析等环节,适合稳定、高效地处理大量文档,尤其在扫描件、图片型 PDF、OCR 密集型任务中承担关键作用。基于OmniDocBench v1.6 评测结果,升级至 PP-OCRv6 后,OCR 相关指标提升约 11%。这一升级将进一步改善扫描件、图片型 PDF、档案资料、复杂文本区域等场景下的文字识别效果。
除模型升级外,MinerU 3.4 还优化了 OCR 推理与处理链路。在 OCR 密集型场景下,OCR 处理速度提升约 100%。
(实际提升幅度会受到文档类型、硬件环境、任务配置等因素影响。)
同时,新版本简化了 OCR 语言选择逻辑。日语、繁体中文、英语、拉丁文等相关场景将统一路由到 ch OCR 模型,减少模型配置与语言选择成本。
模型下载体验优化
MinerU 3.4版本中,还优化了模型下载逻辑。
新版本新增模型源自动选择能力,首次安装时可根据当前网络环境自动选择更合适的模型源;下载模型前也会优先检查本地模型缓存,命中缓存时可直接复用,减少重复下载和不必要的远端请求。
这将进一步提升 MinerU 在首次安装、模型更新、多机器部署、多环境切换等场景下的稳定性和易用性。
更多模型源配置、自动选择策略与本地模型使用说明,可参考官方文档:https://opendatalab.github.io/MinerU/zh/usage/model_source
如何体验
首次本地部署 MinerU 开源模型的用户,可以通过 pip / uv 安装,也可以从 GitHub 仓库获取源码进行本地部署;已安装用户可直接升级至最新版本。
MinerU 支持命令行、Python API、WebUI 等多种使用方式,用户可根据本地环境和任务需求选择合适的部署与调用方式。
详细安装、升级和使用说明可参考:
⭐ MinerU GitHub 仓库:https://github.com/opendatalab/MinerU
📚 MinerU 开源模型使用指南:https://opendatalab.github.io/MinerU/zh/usage
🤖 MinerU 问答神器(DeepWiki ):https://deepwiki.com/opendatalab/MinerU/1-mineru-overview
💻 MinerU 本地部署视频教程:https://www.bilibili.com/video/BV1VD9FBoEob
如果在安装、部署或使用过程中遇到问题,建议优先查看官方 FAQ 与使用文档;也可以通过问答神器 DeepWiki 快速了解项目结构、接口用法和常见问题,再结合 GitHub Issue 或社区渠道反馈具体场景。
727

被折叠的 条评论
为什么被折叠?



