pytesseract库的安装和使用

在写爬虫的时候总是遇到一些以图片的形式展示的信息,因此要怎么解析图片上的信息呢?在Google上查了一下,需要安装pytesseract和pillow(我用的python3.7)和Tesseract-OCR

  1. 安装pytesseract
    pip insatll pytesseractpip insatll pytesseract
  2. 安装pillow
  3. 安装Tesseract-OCR(https://github.com/tesseract-ocr/tesseract)
  4. 安装完后将Tesseract-OCR的安装路径添加到环境变量中PATH和Path中,都要添加。例如:
    pytesseract库的安装和使用_第1张图片
  5. 在python的安装路径下的修改安装的pytesseract库里面的pytesseract.py,将默认的改成Tesseract-OCR的安装路径
    pytesseract库的安装和使用_第2张图片
  6. 配置完了开始撸代码吧
    pytesseract库的安装和使用_第3张图片
    运行后发现会报错:
    pytesseract库的安装和使用_第4张图片
    用Google查了一下,发现是因为验证码的图片模式为RGBA,是无法分配调色盘给透明通道的。更换为RGB模式则不会出现该问题。

对原先的代码修改一下,变为:
pytesseract库的安装和使用_第5张图片
修改后就能正常使用了。

你可能感兴趣的:(python)