1.安装Tesseract是前提,参考https://blog.csdn.net/YYHEZB/article/details/80846722,这位博主写得蛮清楚的,引用一下
遇到的问题:版本没对上,导致安装失败,Tesseract和tesserocr是搭配使用的,版本也有对应要求的,之前查得到过对应表的,找历史记录没查到,推荐就用这个GitHub里的吧,亲测可用,版本也不算太低。
附上链接:
Tesseract 下载:https://digi.bib.uni-mannheim.de/tesseract/
Tesserocr下载:https://github.com/simonflueckiger/tesserocr-windows_build/releases/tag/tesserocr-v2.2.2-tesseract-4.0.0-master
2.Tesseract安装好后,要记住路径,最好是把文件夹打开放旁边,等会儿有好些地方要用到,就是这个截图中的路径
3.用cmd来安装tesserocr,引入这个链接https://blog.csdn.net/coolcooljob/article/details/80385711,中间可能出现的问题,以及解决方法,博主也给出了,特别提醒:要cd到.whl所在的文件夹里安装。
书上写的是pip install Tesseract pillow,安装也是很顺利的。
4.在cmd中打印图片中识别的文字:需要注意的是可能会出现这个链接中的问题:file:///E:/%E5%88%9B/Python/2018.7.4tesseract%20%E6%8A%A5%E9%94%99(unicode%20error)%20'unicodeescape'%20codec%20can't%20decode%20bytes%20in%20position%202-3_%20truncated%20_UXXXXXXXX%20escap%20-%20CSDN%E5%8D%9A%E5%AE%A2.mhtml,解决方案就是找到图片路径,并在前面加上一个r即可
5.pychram中安装时,再引用一下链接,除了要复制tessdata文件夹外,还需要添加环境变量,路径就是tessdata文件安装路径,如图:找的网上的截图
出现以下报错
Failed to init API, possibly an invalid tessdata path: C:\\
解决办法是将C:\Program Files (x86)\Tesseract-OCR 的tessdata文件夹copy到python的安装路径中
6.成功后的截图:有点小不容易呀,希望大家遇到和我相同问题的时候,能够有借鉴作用,到此,测试验证码识别顺利完成。