Tesseract-OCR下载和安装

Y26


  Tesseract,一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。


1、下载安装包
分享链接:https://pan.baidu.com/s/1OMOu2fwic22kH-q7zDXeUQ
提取码:sukc


2、打开安装,需要选择的选项,看下图。其中语言要选择简体中文,安装时会下载语言包,可能等待一段时间。
Tesseract-OCR下载和安装_第1张图片
在这里插入图片描述
Tesseract-OCR下载和安装_第2张图片


3、若需要下载识别其他语言的字符,可进入官网直接下载对应语言包,下载完成后放到Tesseract-OCR\tessdata\tessconfigs下即可。


4、设置环境变量,进入环境变量中,找path,新建路径。如图
Tesseract-OCR下载和安装_第3张图片


5、查看是否安装成功,打开cmd,输入tesseract4 -v回车,若显示版本号即为安装成功。如图:
在这里插入图片描述


6、若使用python操作,需要打开cmd管理员模式,下载pytesseract模块,进行图片文字识别功能,如图:
Tesseract-OCR下载和安装_第4张图片

7、关闭pycharm,重启即可使用。

个人小结,定有不足,欢迎指点。
谢谢~

你可能感兴趣的:(爬虫)