Tesseract-OCR 那些事

最新推荐文章于 2025-08-28 11:14:47 发布

原创

最新推荐文章于 2025-08-28 11:14:47 发布 · 5.4k 阅读

收录于

当前文章被以下社区和专栏收录：

本文介绍了如何通过训练改善Tesseract-OCR对中文的识别效果。设置了特定参数后，对宋体的识别准确率显著提高，但全角标点符号的识别仍待改进。详细步骤包括使用jTessBoxEditor生成tif和box文件，通过CMD执行一系列训练命令，最终生成新的traineddata文件替换原有库，以增强字体和标点符号的支持。

从官网下载Tesseract-OCR 并安装之后。直接识别中文的话，效果其实并不理想。

需要设置如下参数:

	api.SetVariable("chop_enable","T");
	api.SetVariable("use_new_state_cost","F");
	api.SetVariable("segment_segcost_rating","F");
	api.SetVariable("enable_new_segsearch","0");
	api.SetVariable("language_model_ngram_on","0");
	api.SetVariable("textord_force_make_prop_words","F");

至于参数的详细意思可以参考此链接。

这样一来后，会发现对宋体识别非常的好，几乎可以到9成以上（反正我试验是这样的）。但是对于一些全角的标点符号识别还是不太好。

而且如果需要对其他字体提供支持的话，就需要去训练我们的中文库了。

大致步骤如下：

1.用工具生成 tif 和box 文件（我推荐使用jTessBoxEditor 【这是个jar文件，确保你系统安装了java之后在cmd里面可以按如下方式启动程序

标签