python+pytesseract 中文识别

继写了第一篇包含验证码识别的自动化登录脚本后在一次与朋友聊天中谈到中文识别。想起Tesseract-OCR是有这个包的,然后我就搞了搞

#coding = utf -8
from PIL import Image
import pytesseract

im = Image.open("2.png")
text = pytesseract.image_to_string((im), lang='chi_sim')
print (text)

其实识别率不是太高,本来我想用pytesser3的,结果搞了好久,识别到的东西一直保存不了,一直报

'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence

有大佬解决了告我下~

搞了半天搞不定,网上搜刮了半天也没找到有效的办法。。我就直接用pytesseract 了

中文包我下好了放在百度云了,自取密码 v13f

我实验过对图片加强、增加对比度等等,识别率还不如没修改过的原图。。

 识别:

结果


 识别:


结果:

python+pytesseract 中文识别_第1张图片


下面是我踩过的坑

不需要改太多东西基本照着这个大佬的改就行了

https://blog.csdn.net/hk_jh/article/details/8961449

但是要是找打不到pytesser.py

看看你是不是吧pytesser.py改成 __init__.py了,比如我就是


如过你想要更好的识别率,试试百度的

https://cloud.baidu.com/doc/OCR/OCR-Python-SDK.html#.E6.96.B0.E5.BB.BAAipOcr

你可能感兴趣的:(python)