python识别图片内容

python识别图片内容。

我的环境为windows64位,python2.7.14

需要用到PIL模块和tesseract模块。

首先需要安装pip包管理,安装方法:http://blog.csdn.net/mxdzchallpp/article/details/79097742

安装PIL模块:

pip install Pillow

tesseract模块安装:

pip install pytesseract
安装识别引擎和中文语言包,下载地址:http://download.csdn.net/download/mxdzchallpp/10215327

下载完成解压:

1.双击tesseract-ocr-setup-3.02.02.exe安装,安装完成后,需要指定tesseract模块识别引擎的程序路径,打开python安装路径的模块路径,我的路径为:E:\wamp\python\Lib\site-packages\,进入pytesseract,编辑pytesseract.py文件,修改 tesseract_cmd = 'tesseract' 的内容:

# tesseract_cmd = 'tesseract' # 修改为安装Tesseract-OCR的真实路径
tesseract_cmd = 'E:/wamp/python modules/Tesseract-OCR/tesseract.exe'
2.进入解压包中的中文语言包,复制chi_sim.traineddata到Tesseract-OCR安装目录下tessdata文件夹下,我的路径:E:\wamp\python modules\Tesseract-OCR\tessdata\chi_sim.traineddata

环境配置完成。

python代码:

# -*- coding: UTF-8 -*-
from PIL import Image
import pytesseract
# 识别中文
text = pytesseract.image_to_string(Image.open('chinese.png'),lang='chi_sim')
print text

# 识别英文
text = pytesseract.image_to_string(Image.open('english.png'))
print text




你可能感兴趣的:(python)