我心中的王者:Python-文字识别系统

我心中的王者:Python-文字识别系统

Tesseract OCR是一个文字识别(OCR, Optical Character Recognition)的系统,可以在多个平台上运作,目前这是一个开放资源的免费软件。1985-1994年间由惠普(HP)实验室开发,1996年开发为适用Windows系统。有接近十年期间,这个软件没有太大进展,在2005年惠普公司将这个软件释为免费使用(open source),2006年起这个软件改由Google赞助与维护。

本章笔者将简单介绍使用Python处理文字识别,在上一章笔者有说明目前有许多网站在进入前需要输入验证码,这一章将用实例说明,如何处理这些验证码。同时也将说明使用这个系统识别繁体和简体中文图文件。

29-1 安装Tesseract OCR

使用这套软件需要下载,请至下列网站。

http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

①首先将看到下列左图画面。

②请按Next按钮,于第4个画面你将看到下列右图。
我心中的王者:Python-文字识别系统_第1张图片

③请选择全部,然后按Next按钮,如下列左图。

④上述请使用默认目录安装,请按Next按钮,接着画面可以使用预设,下列右图是安装过程画面。
我心中的王者:Python-文字识别系统_第2张图片

⑤下列左图是安装结束画面。

⑥安装完成后,下一步是将Tesseract-OCR所在的目录设定在Windows操作系统的path路径内,这样就不会有找不到文件的问题。首先打开控制面板的系统设置,如下列右图。
我心中的王者:Python-文字识别系统_第3张图片

⑦选择高级系统设置,在高级选项卡单击环境变量按钮,在系统变量栏点path选项,会出现编辑系统变量对话框,请在变量值字段输入所安装Tesseract安装目录,如果是依照默认模式输入,路径如下:

 C:\Program Files (x86)\Tesseract-OCR

上述路径建议用复制方式处理,需留意不同路径的设定彼此以“;”隔开。

⑧完成后,请单击确定按钮。如果想要确定是否安装成功,可以在命令行窗口输入“tesseract -v”,如果列出版本信息,就表示设定成功了。
我心中的王者:Python-文字识别系统_第4张图片

29-2 安装pytesseract模块

pytesseract是一个Python与Tesseract-OCR之间的接口程序,这个程序的官网就自称是Tesseract-OCR的wrapper,它会自行调用Tesseract-OCR的内部程序执行识别功能,我们调用pytesseract的方法,就可以完成识别工作,可以使用下列方式安装这个模块。

 pip install pytesseract

29-3 文字识别程序设计

安装完Tesseract-OCR后,预设情况下是可以执行英文和阿拉伯数字的识别,下列是笔者采用数字与英文的图片文件执行识别,并将结果印出(ch29_1.py)与印出和存储(ch29_2.py),在使用pyte

你可能感兴趣的:(我心中的王者:Python,python,开发语言)