Python图像处理之图片文字识别(OCR)

Tesseract的安装与使用

tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/
安装完成tesseract-ocr后,需要做一下配置 。

在Python安装目录(如:D:\Python35\Lib\site-packages\pytesseract) 中修改 pytesseract.py文件,路径修改为'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'

Python图像处理之图片文字识别(OCR)_第1张图片
image

加入环境变量
在环境变量中添加TESSDATA_PREFIX C:\software\Tesseract-OCR
在Path中添加%TESSDATA_PREFIX%
在CMD中输入tesseract -v, 如显示以下界面,则表示Tesseract安装完成且添加到系统变量中。

image

Linux 用户可以通过apt-get 安装:

$sudo apt-get tesseract-ocr

用Tesseract可以识别格式规范的文字,主要具有以下特点:

• 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体)
• 虽然被复印或拍照,字体还是很清晰,没有多余的痕迹或污点
• 排列整齐,没有歪歪斜斜的字
• 没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘

因为tesseract-ocr默认不支持中文识别。 将下载到的文件:chi_sim.traineddata 放到Tesseract-OCR安装目录 D:\Program Files (x86)\Tesseract-OCR\tessdata 下

链接:https://pan.baidu.com/s/1c-fveIYnm1sQHxX9WRpUZw
提取码:9ovq

Tesseract对于彩色图片的识别效果没有黑白图片的效果好。

pytesseract

pytesseract是Tesseract关于Python的接口,可以使用pip install pytesseract安装。安装完后,就可以使用Python调用Tesseract了,不过,你还需要一个Python的图片处理模块,可以安装pillow.
  输入以下代码,可以实现同上述Tesseract命令一样的效果:

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://figures/other/poems.jpg'))

print(text)

你可能感兴趣的:(Python图像处理之图片文字识别(OCR))