python 图片识别

简单分享下通过python来识别图片内的文字。


首先说一下环境,系统是在linux上(乌班图16.04),python版本为py3。


因为仅仅是测试一下,所以代码非常简单,但是却需要我们将几个库文件下载下来。


第一个先来安装一下PIL  

在Debian/Ubuntu Linux下直接通过apt安装:

$ sudo apt-get install python-imaging

Mac和其他版本的Linux可以直接使用easy_install或pip安装,安装前需要把编译环境装好:

$ sudo easy_install PIL

如果安装失败,根据提示先把缺失的包(比如openjpeg)装上。 Windows平台就去PIL官方网站下载exe安装包。


第二步来安装pytesseract 

sudo pip3 install pytesseract

Tip: 如果没有sudo会提示权限不足。 

我的乌班图里存在py2 和 py3 两个版本,所以对应的,我们在通过pip安装软件的时候,如果直接pip install 那么软件会安装在py2的环境下。


最后一步是来安装tesseract-orc引擎 。

先来安装下引擎的依赖:

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install gcc
sudo apt-get install g++

sudo apt-get install automake

安装引擎:

sudo apt-get install tesseract-ocr

安装语言文件(英文、中文简体)

sudo apt-get install tesseract-ocr-eng
sudo apt-get install tesseract-ocr-chi-sim

如果需要什么文件,可以去官网下载 。 https://code.google.com/p/tesseract-ocr/downloads/list


上述准备工作做好后,就到了写代码的步骤了,代码如下:

from PIL import Image
import pytesseract
text=pytesseract.image_to_string(Image.open('denggao.jpg'),lang='chi_sim')
print(text)
代码下载地址: 点击打开链接

你可能感兴趣的:(python实验)