最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!

  1. 下载

需要手动安装一下Tesseract-OCR ,这是安装包下载路径:
http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
下载好了随便放到你喜欢的路径下。

  1. 安装
    然后就是安装了:
    最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!_第1张图片最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!_第2张图片最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!_第3张图片选择下载包
    最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!_第4张图片选择合适的安装路径,个人建议不要安装在C盘
    最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!_第5张图片点击install安装直到结束。
    最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!_第6张图片中间可能会报这个错,就是说安装错误了,就是说前面勾选的那两个语言包下载出问题了,不过不影响我后来的使用。
    最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!_第7张图片

  2. 环境配置
    找到你的安装路径:B:\Tesseract-OCR(我的是这个)
    打开高级系统设置,配置环境变量:
    用户变量:最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!_第8张图片把路径加进去
    最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!_第9张图片系统变量:
    最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!_第10张图片变量名写和我一样,路径是你自己的。
    最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!_第11张图片另外,如果需要更多语言包可以在这个公众号里找:
    最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!_第12张图片
    这是看的别人的,如果需要就自行下载!不需要的话可以直接略过,这个东西安装好之后可以识别数字以及英文验证码,中文好像不可以!
    最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!_第13张图片

  3. 安装python需要的包!
    安装pytesseract库:

	pip install pytesseract

安装PIL库:

	pip install pillow

装好之后,来到下载那个包的文件夹下:
E:\Anaconda 2019.03\Lib\site-packages\pytesseract
(我的是这个)打开这个:
最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!_第14张图片这里,修改成你自己的,那个安装路径然后跟一个.exe文件,就在那个文件夹里,和我一样就可以。
最全Tesseract-OCR引擎安装步骤!!!适用于动态爬虫处理验证码!_第15张图片

  1. 测试:在Jupyter中输入如下代码,如能正确运行表示配置成功(注:需将’captcha.jpg’验证码图片与Jupyter文件放在同一文件夹)
import pytesseract
from PIL import Image
# 创建Image对象
image = Image.open('captcha.jpg')
# 将图片文件转化为字符串
text = pytesseract.image_to_string(image)
print(text)

在这里插入图片描述
运行成功即可提取出里面的验证码!!!

如果你成功了,记得给我点个赞哦!!!

你可能感兴趣的:(python爬虫,Tesseract-OCR引擎,python)