tesseract识别验证码

Tesseract-验证码识别
Tesseract是一个OCR库,他通过训练识别任何字体

 

安装
windows系统安装:
网址:

https://digi.bib.uni-mannheim.de/tesseract/

https://github.com/tesseract-ocr/

Linux安装
sudo apt install tesseract-orc
Mac安装
brew install tesseract
 

windows需要设置环境变量
 

需要把tesseract.exe 设置到path变量中
把训练的数据放到tessdata文件中,环境变量设置为TESSDATA_PREFIX=D:\tesseract\Tesseract-OCR\tessdata;
常用命令操作
查看帮助:tesseract –h

英文识别:tesseract a.png a 

中文识别:tesseract d.png d –l chi_sim

查看可用语言:tesseract –list-langs
 

你可能感兴趣的:(Python爬虫)