目录
一、OCR简介
1. OCR名词解释
OCR ,英文全称Optical Character Recognition,中文“光学字符识别”,是指针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
2. OCR应用场景
卡片证件识别类:身份证、通行证、护照识别,卡类识别,车辆类驾驶证识别、行驶证识别,执照识类识别,企业证件类识别。
文字信息结构化视频类识别:字幕识别和文字检测,表格。
票据类识别:增值税发票识别、全电发票识别、银行支票识别、承兑汇票识别、银行票据识别、物流快递识别。
其他识别:二维码识别、一维码识别、车牌识别、数学公式识别、物理化学符号识别、音乐符号识别、工程图识别、流程图识别、古迹文献识别、手写输入识别,文字识别、菜单识别、横幅检测识别、图章检测识别、广告类图文识别等围绕审核相关的业务应用。
业内有顶尖公司提供的可直接调用的API、SDK,这些方式面临着定制化场景泛化效果不好、价格昂贵、黑盒可控性低、无法离线使用等,所以推荐离线场景采用开源项目二次开发。
3. OCR开源项目简介
本次分享众多OCR开源项目中的Tesseract OCR,本文主要介绍OCR基础知识、详解识别软件环境的搭建,以及介绍如何用Python代码完成图片文字识别提取测试。

Tesseract OCR:经典的开源OCR引擎。
①源码下载地址 GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)Tesseract Open Source OCR Engine (main repository) - GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)
https://github.com/tesseract-ocr/tesseract ②Windows版本下载地址:Home · UB-Mannheim/tesseract Wiki · GitHubTesseract Open Source OCR Engine (main repository) - Home · UB-Mannheim/tesseract Wiki
https://github.com/UB-Mannheim/tesseract/wiki Tesseract.js:基于TesseractOCR的Web浏览器OCR软件。
Ocrad: 轻量级的OCR解决方案,主要以识别印刷文本而闻名。
Ocrad.js :基于Ocrad的浏览器的OCR软件。
GOCR:在GNU通用公共许可证下开发的开源OCR引擎。
OCRopus:由Google开发的OCR相关工具集合。
Capture2Text:基于命令行的Windows OCR软件。
GImage Reader:能够识别多种语言以及各种图像文件格式的文本。
OCRmyPDF:专门用于PDF的OCR识别软件。
PaddleClas:飞桨为工业界和学术界所准备的一个图像识别和图像分类任务的工具集。
kraken :由Python开发的OCR软件,主要用于非拉丁字符的识别。
EasyOCR:Python开发的,基于机器学习(CRNN)实现OCR功能。

2210

被折叠的 条评论
为什么被折叠?



