来源:https://pypi.python.org/pypi/pyocr/0.1.2
pyorc 0.1.2(最新版本是0.3.1 2015年9月10日,但是下面没有说明)
一个针对OCR工程(Tesseract, Cuneiform等)的Python包装类,最新版本是0.3.1。用于帮助Python使用光学字符识别工具。
它只在GNU/Linux系统上测试过。在相似的系统上应该也能运行(例如 *BSD等)。但是在windows和MacOSX等系统上就不知道了。
Pyocr可以用作Google的Tesseract-OCR(http://code.google.com/p/tesseract-ocr/)或者Cuneiform的包装类。它能够读取所有Python Imaging Library支持的图片类型,包括jpeg, png, gif, bmp, tiff等。要知道,tesseract-ocr默认只支持tiff和bmp。
它也支持边界矩形数据(bounding box data 我不知道怎么翻译,字面翻译了,有知道的欢迎指正)
用法:
import Image
import sys
from pyocr import pyocr
tools = pyocr.get_available_tools()[:]
if len(tools) == 0:
print "No OCR tool found"
sys.exit(1)
print "Using '%s'" % (tools[0].get_name())
tools[0].image_to_string(Image.open('test.png'), lang='fra',builder=TextBuilder())
相关内容:
Pyocr需要python2.5及以上版本
你先要有Python Imaging Library (PIL),在Debian/Ubuntu下,这个包叫做"python-imaging"。
*安装一个OCR
*tesseract-ocr来自http://code.google.com/p/tesseract-ocr/
在终端里输入命令“tesseract“,不报错就是安装成功了。
Python-tesseract 仅测试了Tesseract >= 3.01的版本。
*或者你也可以使用cuneiform
安装:
$ sudo python ./setup.py install
测试:
测试是运行在最新版的tesseract和Cuneiform上的。