最近朋友需要一个可以识别图片中的文字的程序,以前做过C#验证码识别的程序;
刚好最近在学习python,所以顺便用Python练练手
1.需要的环境:
2.7或者3.4版本的python
2.需要安装pytesseract库
依赖PIL和tesseract-ocr库
本地环境是Windows,下面说一下 具体步骤:
1.安装PIL:
直接使用pip 安装; pip install Pillow
2.安装tesseract-ocr:
apt-get install tesseract-ocr
3.安装pytesseract
pip install pytesseract
使用python 3.4安装时;将pip 命令修改为pip3(都知道)
也可以在Pycharm中安装,如下图:
当然在安装tesseract-ocr出现错误:
直接baidu找安装包,下载安装即可。
继续搬砖,测试代码:
#作者微信:jialee918
from PIL import Image
import pytesseract
#上面都是导包,只需要下面这一行就能实现图片文字识别
text = pytesseract.image_to_string(Image.open('python.jpeg'))
print(text)
运行程序,竟然报错,如下:
好吧,有Bug不需要害怕继续倒腾,找到你虚拟环境(编译环境)下文件pytesseract.py:
我的在F:\Python\Project\venv37\Lib\site-packages\pytesseract目录下,打开修改一下:
意思就是刚才安装的esseract-ocr未找到,那就把我们安装的路径替换默认的路径,
如上图的代码段。
保存,继续运行
发现中文不能够识别,好继续打语言包,
至此结束,好久没码字了,真的很辛苦。