Python 图片文字识别（OCR）

Question

OCR与Tesseract介绍

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题，实现OCR 的底层库并不多，目前很多库都是使用共同的几个底层OCR 库，或者是在上面进行定制。
Tesseract 是一个OCR 库，目前由Google 赞助。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。
Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体（只要这些字体的风格保持不变就可以），也可以识别出任何Unicode 字符。

Tesseract的安装与使用

Tesseract的Windows安装包下载地址为： http://digi.bib.uni-mannheim.... ，下载后双击直接安装即可。安装完后，需要将Tesseract添加到系统变量中。在CMD中输入tesseract -v, 显示界面，则表示Tesseract安装完成且添加到系统变量中。

Linux 用户可以通过apt-get 安装：

$sudo apt-get tesseract-ocr

用Tesseract可以识别格式规范的文字，主要具有以下特点：

• 使用一个标准字体（不包含手写体、草书，或者十分“花哨的”字体）
• 虽然被复印或拍照，字体还是很清晰，没有多余的痕迹或污点
• 排列整齐，没有歪歪斜斜的字
• 没有超出图片范围，也没有残缺不全，或紧紧贴在图片的边缘
tesseract识别图片中文字
首先是E://figures/other/poems.jpg, 输入命令 tesseract E://figures/other/poems.jpg E://figures/other/poems.txt，则会将poems.jpg中的识别文字写入到poems.txt中
最后是识别简体中文，需要事先安装简体中文语言包，下载地址为：https://github.com/tesseract-... ,再讲chi_sim.traineddata放在C:Program Files (x86)Tesseract-OCRtessdata目录下。我们以图片timg.jpg为例：
输入命令：

tesseract E://figures/other/timg.jpg E://figures/other/timg.txt -l chi_sim

Tesseract对于彩色图片的识别效果没有黑白图片的效果好。

pytesseract

pytesseract是Tesseract关于Python的接口，使用pip install pytesseract安装。安装完后，就可以使用Python调用Tesseract了，不过，你还需要一个Python的图片处理模块，可以安装pillow.
输入以下代码，可以实现同上述Tesseract命令一样的效果：

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://figures/other/poems.jpg'))

print(text)

Python 图片文字识别（OCR）

OCR与Tesseract介绍

Tesseract的安装与使用

pytesseract

参考文献

发表评论取消回复

评论列表（0条）

Python 图片文字识别（OCR）

OCR与Tesseract介绍

Tesseract的安装与使用

pytesseract

参考文献

发表评论 取消回复

评论列表（0条）

请登录

发表评论取消回复