MinerU 近期更新速览:Hybrid 解析提速,pipeline OCR 接入 PP-OCRv6……

近日,MinerU开源模型连续发布 3.3 与 3.4 版本,围绕**Hybrid 解析引擎、VLM 模型能力、pipeline 后端 OCR 能力与模型下载体验**进行了持续优化。

本轮开源模型更新,主要包括三方面:

✅ Hybrid 解析引擎新增`effort`参数:支持`medium`与`high`两档选择。默认的`medium`模式相比`high`综合精度仅降低 0.13,但在 Linux、Windows、macOS 等平台的文本 PDF 与 OCR 场景下均带来明显速度提升。

✅VLM 模型升级至MinerU2.5-Pro-2605-1.2B:修复 2604 版本中存在的多处模型问题,提升复杂文档解析稳定性,并原生支持多语言 OCR,降低额外语言参数配置成本。

✅pipeline 后端 OCR 接入 PP-OCRv6:3.4 版本将 pipeline 后端 OCR 模型更新至 PP-OCRv6;同时优化 OCR 推理与处理链路,显著改善批量文档和 OCR 密集型文档的解析效率。基于 OmniDocBench v1.6 评测结果,OCR 相关指标提升约 11%。

另外还改进了模型下载、模型缓存复用等体验。同时,MinerU 在线版也已完成了最新的 3.4 版本模型适配,并默认选择 Hybrid 解析引擎中的 medium模式为用户提供服务,在保持较高解析精度的同时,进一步提升日常文档解析效率。

欢迎使用:https://mineru.net/

更多详情,跟小编一起看看。

默认解析引擎提速:Hybrid 新增 effort 参数

MinerU中,pipeline、VLM 与 Hybrid 是三种面向不同解析场景的后端能力。

pipeline 是传统多模型管道,具备低资源、低幻觉、可支持纯 CPU 部署等特点,适合稳定处理通用文档和 OCR 类任务;

VLM 采用多模态大模型进行端到端解析,更适合复杂版面、图文混排和多语言文档等高精度场景,通常需要 GPU 支持。

Hybrid 则是 MinerU 的混合解析引擎,结合 pipeline 与 VLM 的能力优势,在解析精度、处理效率和场景适应性之间取得更好平衡。

从 3.0 版本开始,Hybrid 已成为 MinerU 的默认解析引擎。

本次 3.3 版本中,Hybrid 新增`effort`解析强度参数,提供`medium`与`high`两档选择,以满足不同的解析需求。

`medium`是默认模式,更适合大多数日常解析任务,在保持较高解析精度的同时显著提升解析速度。`high`则面向对解析精度和 image analysis 图片/图表分析能力有更高要求的场景。

在 OmniDocBench v1.6 评测中,`medium`相比`high`综合精度仅降低 0.13,但在不同设备和场景下可获得明显速度提升:
● Linux:文本 PDF 场景提升约 80%,OCR 场景提升约 35%
● Windows:文本 PDF 场景提升约 90%,OCR 场景提升约 45%
● macOS:文本 PDF 场景提升约 220%,OCR 场景提升约 50%

需要注意的是,`medium`档暂不支持 image analysis 图片/图表分析功能。如需启用相关能力,可切换至`effort=high`。

VLM 模型升级,复杂文档解析更稳定

除 Hybrid 解析引擎优化外,MinerU 3.3版本 还将 VLM 模型升级至`MinerU2.5-Pro-2605-1.2B`。新版本修复了 2604 版本中存在的多处模型问题,进一步提升复杂文档场景下的解析稳定性。

同时,VLM 模型原生支持多语言 OCR,降低多语言文档解析时对额外语言参数配置的依赖。对于中英文混排、多语言资料、复杂版面文档,新版本能够提供更稳定的解析表现。

pipeline 接入 PP-OCRv6,OCR 能力增强

MinerU 3.4版本中,pipeline 后端 OCR 模型升级至 PP-OCRv6。

pipeline 后端是一套流程化解析链路,包含 OCR、版面分析等环节,适合稳定、高效地处理大量文档,尤其在扫描件、图片型 PDF、OCR 密集型任务中承担关键作用。基于OmniDocBench v1.6 评测结果,升级至 PP-OCRv6 后,OCR 相关指标提升约 11%。这一升级将进一步改善扫描件、图片型 PDF、档案资料、复杂文本区域等场景下的文字识别效果。

除模型升级外,MinerU 3.4 还优化了 OCR 推理与处理链路。在 OCR 密集型场景下,OCR 处理速度提升约 100%。
(实际提升幅度会受到文档类型、硬件环境、任务配置等因素影响。)

同时,新版本简化了 OCR 语言选择逻辑。日语、繁体中文、英语、拉丁文等相关场景将统一路由到 ch OCR 模型,减少模型配置与语言选择成本。

模型下载体验优化

MinerU 3.4版本中,还优化了模型下载逻辑。

新版本新增模型源自动选择能力,首次安装时可根据当前网络环境自动选择更合适的模型源;下载模型前也会优先检查本地模型缓存,命中缓存时可直接复用,减少重复下载和不必要的远端请求。

这将进一步提升 MinerU 在首次安装、模型更新、多机器部署、多环境切换等场景下的稳定性和易用性。

更多模型源配置、自动选择策略与本地模型使用说明,可参考官方文档:https://opendatalab.github.io/MinerU/zh/usage/model_source

如何体验

首次本地部署 MinerU 开源模型的用户,可以通过 pip / uv 安装,也可以从 GitHub 仓库获取源码进行本地部署;已安装用户可直接升级至最新版本。

MinerU 支持命令行、Python API、WebUI 等多种使用方式,用户可根据本地环境和任务需求选择合适的部署与调用方式。

详细安装、升级和使用说明可参考:

⭐ MinerU GitHub 仓库:https://github.com/opendatalab/MinerU

📚 MinerU 开源模型使用指南:https://opendatalab.github.io/MinerU/zh/usage

🤖 MinerU 问答神器(DeepWiki ):https://deepwiki.com/opendatalab/MinerU/1-mineru-overview

💻 MinerU 本地部署视频教程:https://www.bilibili.com/video/BV1VD9FBoEob

如果在安装、部署或使用过程中遇到问题,建议优先查看官方 FAQ 与使用文档;也可以通过问答神器 DeepWiki 快速了解项目结构、接口用法和常见问题,再结合 GitHub Issue 或社区渠道反馈具体场景。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值