Pyorc,Pthon的ORC包装类,用于识别验证码

来源:https://pypi.python.org/pypi/pyocr/0.1.2

pyorc 0.1.2(最新版本是0.3.1 2015年9月10日,但是下面没有说明)

一个针对OCR工程(Tesseract, Cuneiform等)的Python包装类,最新版本是0.3.1。用于帮助Python使用光学字符识别工具。

它只在GNU/Linux系统上测试过。在相似的系统上应该也能运行(例如 *BSD等)。但是在windows和MacOSX等系统上就不知道了。

Pyocr可以用作Google的Tesseract-OCR(http://code.google.com/p/tesseract-ocr/)或者Cuneiform的包装类。它能够读取所有Python Imaging Library支持的图片类型,包括jpeg, png, gif, bmp, tiff等。要知道,tesseract-ocr默认只支持tiff和bmp。

它也支持边界矩形数据(bounding box data 我不知道怎么翻译,字面翻译了,有知道的欢迎指正)


用法:

import Image
import sys
from pyocr import pyocr

tools = pyocr.get_available_tools()[:]
if len(tools) == 0:
    print "No OCR tool found"
    sys.exit(1)
print "Using '%s'" % (tools[0].get_name())
tools[0].image_to_string(Image.open('test.png'), lang='fra',builder=TextBuilder())
 
  

相关内容:

Pyocr需要python2.5及以上版本

你先要有Python Imaging Library (PIL),在Debian/Ubuntu下,这个包叫做"python-imaging"。

*安装一个OCR

*tesseract-ocr来自http://code.google.com/p/tesseract-ocr/

在终端里输入命令“tesseract“,不报错就是安装成功了。

Python-tesseract 仅测试了Tesseract >= 3.01的版本。

*或者你也可以使用cuneiform


安装:

$ sudo python ./setup.py install


测试:

测试是运行在最新版的tesseract和Cuneiform上的。

第一个测试将验证您所使用的预期的版本。

你可能感兴趣的:(OCR,python)