继写了第一篇包含验证码识别的自动化登录脚本后在一次与朋友聊天中谈到中文识别。想起Tesseract-OCR是有这个包的,然后我就搞了搞
#coding = utf -8
from PIL import Image
import pytesseract
im = Image.open("2.png")
text = pytesseract.image_to_string((im), lang='chi_sim')
print (text)
其实识别率不是太高,本来我想用pytesser3的,结果搞了好久,识别到的东西一直保存不了,一直报
搞了半天搞不定,网上搜刮了半天也没找到有效的办法。。我就直接用pytesseract 了
中文包我下好了放在百度云了,自取密码 v13f
我实验过对图片加强、增加对比度等等,识别率还不如没修改过的原图。。
识别:
结果:
下面是我踩过的坑
不需要改太多东西,基本照着这个大佬的改就行了
https://blog.csdn.net/hk_jh/article/details/8961449
但是要是找打不到pytesser.py
看看你是不是吧pytesser.py改成 __init__.py了,比如我就是
如过你想要更好的识别率,试试百度的
https://cloud.baidu.com/doc/OCR/OCR-Python-SDK.html#.E6.96.B0.E5.BB.BAAipOcr