python使用tesseract识别图片文字

tesseract

Python tesseract是Python的一个光学字符识别(OCR)工具。也就是说,它将识别并“读取”嵌入图像中的文本。

步骤

  1. 安装tesseract-ocr
  2. 因为tesseract-ocr默认不支持中文识别,还需下载对应的语言包
  3. 把语言包放到tessdata文件夹下
  4. 配置环境变量
  5. 找到pytesseract.py文件修改
# tesseract_cmd = 'tesseract'
tesseract_cmd = 'D:\Program Files (x86)\Tesseract-OCR\\tesseract.exe'
  1. 实现代码
import pytesseract
from PIL import Image

path = "./123.webp"

testdata_dir_config = '--tessdata-dir "D:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'

textCode = pytesseract.image_to_string(Image.open(path),config=testdata_dir_config,lang='chi_sim')

print(textCode)

python使用tesseract识别图片文字_第1张图片

你可能感兴趣的:(笔记,python)