OCR识别,tesseract模块安装

下载

https://digi.bib.uni-mannheim.de/tesseract/

github地址:https://github.com/UB-Mannheim/tesseract

下载地址截图

OCR识别,tesseract模块安装_第1张图片

安装

双击程序运行

一般直接点默认即可

  • 注意语言的添加和路径的更改

注意这一步可以选择自己语言,这里勾选简体中文
(这里不选的话可以点击上面github网址,在里面进行下载并放在相应的路径即可)

OCR识别,tesseract模块安装_第2张图片
OCR识别,tesseract模块安装_第3张图片
更改安装路径

OCR识别,tesseract模块安装_第4张图片

设置环境变量

系统变量中找到path,点击编辑,里面加入刚刚安装的路径
OCR识别,tesseract模块安装_第5张图片
OCR识别,tesseract模块安装_第6张图片

检测安装效果

在cmd中输入tesseract -v检测是否安装成功

OCR识别,tesseract模块安装_第7张图片
在cmd中输入tesseract --list-langs查看安装的语言

OCR识别,tesseract模块安装_第8张图片

小案例说明

命令行实现

命令行输入 tesseract test.png result -l chi_sim

其中-l chi_sim代表要识别中文

OCR识别,tesseract模块安装_第9张图片

python代码实现

先在对应的环境下安装包

pip install pytesseract

OCR识别,tesseract模块安装_第10张图片
安装完之后找到安装环境目录下面的 pytesseract.py 文件
我这边直接在pycharm中查找更改,点击External Libraries->site-pactages->pytesseract->pysseract.pu
OCR识别,tesseract模块安装_第11张图片
OCR识别,tesseract模块安装_第12张图片

代码

import pytesseract
from PIL import Image


def demo():
    # 打开要识别的图片
    image = Image.open('test.png')
    # 调用image_to_string方法进行识别,
    # 传入要识别的图片,lang='chi_sim'是设置为中文识别
    text = pytesseract.image_to_string(image, lang='chi_sim')

    # 输入所识别的文字
    print(text)


if __name__ == '__main__':
    demo()



结果

OCR识别,tesseract模块安装_第13张图片

在py中竟然识别错误,cmd命令识别正确Σ(⊙▽⊙"a

你可能感兴趣的:(Python,python,开发语言)