MinerU 近期更新速览：Hybrid 解析提速，pipeline OCR 接入 PP-OCRv6……

原创于 2026-07-03 14:42:51 发布 · 95 阅读

本内容遵循CC 4.0 BY-SA版权协议

近日，MinerU开源模型连续发布 3.3 与 3.4 版本，围绕**Hybrid 解析引擎、VLM 模型能力、pipeline 后端 OCR 能力与模型下载体验**进行了持续优化。

本轮开源模型更新，主要包括三方面：

✅ Hybrid 解析引擎新增`effort`参数：支持`medium`与`high`两档选择。默认的`medium`模式相比`high`综合精度仅降低 0.13，但在 Linux、Windows、macOS 等平台的文本 PDF 与 OCR 场景下均带来明显速度提升。

✅VLM 模型升级至MinerU2.5-Pro-2605-1.2B：修复 2604 版本中存在的多处模型问题，提升复杂文档解析稳定性，并原生支持多语言 OCR，降低额外语言参数配置成本。

✅pipeline 后端 OCR 接入 PP-OCRv6：3.4 版本将 pipeline 后端 OCR 模型更新至 PP-OCRv6；同时优化 OCR 推理与处理链路，显著改善批量文档和 OCR 密集型文档的解析效率。基于 OmniDocBench v1.6 评测结果，OCR 相关指标提升约 11%。

另外还改进了模型下载、模型缓存复用等体验。同时，MinerU 在线版也已完成了最新的 3.4 版本模型适配，并默认选择 Hybrid 解析引擎中的 medium模式为用户提供服务，在保持较高解析精度的同时，进一步提升日常文档解析效率。

欢迎使用：https://mineru.net/

更多详情，跟小编一起看看。

默认解析引擎提速：Hybrid 新增 effort 参数

MinerU中，pipeline、VLM 与 Hybrid 是三种面向不同解析场景的后端能力。

pipeline 是传统多模型管道，具备低资源、低幻觉、可支持纯 CPU 部署等特点，适合稳定处理通用文档和 OCR 类任务；

VLM 采用多模态大模型进行端到端解析，更适合复杂版面、图文混排和多语言文档等高精度场景，通常需要 GPU 支持。

Hybrid 则是 MinerU 的混合解析引擎，结合 pipeline 与 VLM 的能力优势，在解析精度、处理效率和场景适应性之间取得更好平衡。

从 3.0 版本开始，Hybrid 已成为 MinerU 的默认解析引擎。

本次 3.3 版本中，Hybrid 新增`effort`解析强度参数，提供`medium`与`high`两档选择，以满足不同的解析需求。

`medium`是默认模式，更适合大多数日常解析任务，在保持较高解析精度的同时显著提升解析速度。`high`则面向对解析精度和 image analysis 图片/图表分析能力有更高要求的场景。

在 OmniDocBench v1.6 评测中，`medium`相比`high`综合精度仅降低 0.13，但在不同设备和场景下可获得明显速度提升：
● Linux：文本 PDF 场景提升约 80%，OCR 场景提升约 35%
● Windows：文本 PDF 场景提升约 90%，OCR 场景提升约 45%
● macOS：文本 PDF 场景提升约 220%，OCR 场景提升约 50%

需要注意的是，`medium`档暂不支持 image analysis 图片/图表分析功能。如需启用相关能力，可切换至`effort=high`。

VLM 模型升级，复杂文档解析更稳定

除 Hybrid 解析引擎优化外，MinerU 3.3版本还将 VLM 模型升级至`MinerU2.5-Pro-2605-1.2B`。新版本修复了 2604 版本中存在的多处模型问题，进一步提升复杂文档场景下的解析稳定性。

同时，VLM 模型原生支持多语言 OCR，降低多语言文档解析时对额外语言参数配置的依赖。对于中英文混排、多语言资料、复杂版面文档，新版本能够提供更稳定的解析表现。

pipeline 接入 PP-OCRv6，OCR 能力增强

在 MinerU 3.4版本中，pipeline 后端 OCR 模型升级至 PP-OCRv6。

pipeline 后端是一套流程化解析链路，包含 OCR、版面分析等环节，适合稳定、高效地处理大量文档，尤其在扫描件、图片型 PDF、OCR 密集型任务中承担关键作用。基于OmniDocBench v1.6 评测结果，升级至 PP-OCRv6 后，OCR 相关指标提升约 11%。这一升级将进一步改善扫描件、图片型 PDF、档案资料、复杂文本区域等场景下的文字识别效果。

除模型升级外，MinerU 3.4 还优化了 OCR 推理与处理链路。在 OCR 密集型场景下，OCR 处理速度提升约 100%。
（实际提升幅度会受到文档类型、硬件环境、任务配置等因素影响。）

同时，新版本简化了 OCR 语言选择逻辑。日语、繁体中文、英语、拉丁文等相关场景将统一路由到 ch OCR 模型，减少模型配置与语言选择成本。