也谈python使用 pytesser识别验证码

      一般安装步骤如下:

  1. 安装 PIL, 下载地址:http://www.pythonware.com/products/pil/  最新版本是1.1.7,并只支持 python 2.X版本。在windows环境下,可选择下载 PIL-1.1.7.win32-py2.7.exe 文件并执行后,PIL包会自动安装到 python目录中的lib\site-apckages子文件夹中。

  2. 安装 pytesser  下载地址 ,https://code.google.com/p/pytesser/downloads/detail?name=pytesser_v0.0.1.zip 。下载后展开zip文件到 第一步中的lib\site-apckages文件夹中。

  3. 安装Tesseract OCR engine。下载地址 http://code.google.com/p/tesseract-ocr/downloads/list 。此步很难做,本人从google下载了N次tesseract-ocr-setup-3.02.02.exe 都失败了。最后,从CSDN中成功下载此文件,但在安装时要在线从google中下载相关的Tesseract OCR包,所以总是安装不成功。

        因Tesseract不能安装成功,不能进行OCR识别。但分析pytesser发现,在pytesser包中有一个tesseract.exe文件,pytesser.py中就是调用 tesseract.exe 实现 image到text的识别和转换。所以,在实现简单的英文字母和数字识别时,不需要去下载安装   Tesseract OCR engine ,可直接用pytesser中的tesseract.exe和数据即可。

      还有最重要的一点:为了保证tesseract.exe能被正常调用执行,必须在windows的环境变量path设置中加入tesseract.exe的路径。

你可能感兴趣的:(也谈python使用 pytesser识别验证码)