Python3.8+pytesseract+Tesseract-OCR5.0图片文字识别

目录

  • 1.环境
  • 2.工具安装和配置
  • 3.安装相关python包
  • 4.使用
  • 5.运行脚本可以看到结果

1.环境

  1. python版本:3.8.3 (python2.7或3以上)
  2. 操作系统:windows系统

2.工具安装和配置

1.下载安装 tesseract-ocr:官网地址
2.下载安装Pycharm(下载地址:http://www.jetbrains.com/pycharm/download/#section=windows)
3.添加环境变量:TESSDATA_PREFIX = C:\Program Files (x86)\Tesseract-OCR
4.编辑文件:E:、ProgramsPython\Python38\Lib\site-packages\pytesseract\pytesseract.py

tesseract_cmd = 'tesseract'
#改为:
tesseract_cmd = 'E:/Programs/Tesseract-OCR/tesseract'

1.使tesseract-ocr与python关联,从而使python能够调用Tesseract-OCR程序识别验证码/文字,否则会处问题报错:
FileNotFoundError: [WinError 2] 系统找不到指定的文件。
2. 注 : 新 手 一 定 要 注 意 / 与 \ 的 区 分 \color{red}{注:新手一定要注意/与\backslash的区分} /\

3.安装相关python包

我使用的是py3.8.3—— 还 重 装 了 , 安 装 目 录 不 要 有 空 格 哇 o ( ╥ ﹏ ╥ ) o         \color{red}{还重装了,安装目录不要有空格 哇o(╥﹏╥)o~~~~~~~} o()o       

pip install Pillow
pip install pytesseract

4.使用

from PIL import Image
import pytesseract

# 识别的图像的字符串
print(pytesseract.image_to_string(Image.open('test.png')))
# 指定语言识别图像字符串,eng为英语
print(pytesseract.image_to_string(Image.open('test.png'), lang='test.png'))

在此需要告诉新手的其中test.png是存放在py脚本的目录下,lang='chi_sim’代表中文识别,如果不加无法识别中文

5.运行脚本可以看到结果

虽然可以识别验证码了,但是这工具识别很不准确,除非没有什么干扰的验证图片才好些。只能识别还是不那么好啊。
特别提醒:如果步骤完全正确,但是运行报错,请卸载pytesseract重新安装问题就会解决(卸载命令pip uninstall pytesseract)

你可能感兴趣的:(Python,python,windows,opencv,pytesseract,tesseract)