window下搭建Tesseract-OCR图片识别文字环境变量

1、准备工作

可以通过自己·操作系统下载对应版本号进行安装,下载地址如下

https://digi.bib.uni-mannheim.de/tesseract/

tesseract.png

2、安装界面

  • 双击文件,这里选择了一个tesseract-ocr-setup-4.0.0-alpha.20180109.exe 文件进行安装,也可以选择较新的版本或者通过自身的爱好来选型安装进行研究。

  • setup.png
  • 点击同意协议之后再点击next按钮一直到安装成功即可

  • image-20210830092912090.png

3、环境变量的搭建

  • 本人电脑(window10)安装目录在D:\Program Files\Tesseract-OCR

  • 首先在我的【此电脑】进行选择属性(R)-->高级系统设置-->环境变量

  • 在用户环境变量,新建 TESSDATA_PREFIX 值为 D:\Program Files\Tesseract-OCR\tessdata

  • TESSDATA_PREFIX.png
  • 在系统环境变量,新建 OCR_HOME 值为D:\Program Files\Tesseract-OCR

  • OCR_HOME.png
  • 找到Path新建两个 TESSDATA_PREFIX和OCR_HOME参数进行配置,以%开始与结尾进行识别
Path

4、语言数据包

  • 由于安装默认不超过10个语言数据包,得自己到GitHub进行下载覆盖安装之后tessdata的目录即可

  • tessdata.png
  • tessdata.png

5、检验是否搭建完成

  • 在命令控制台输入 tesseract -v 输出tesseract 4.0.0-alpha.20180109信息表示成功

  • 将命令行切换至目标图像文件目录,比如我们转换文件为output.png(图片文件允许多种格式),位于D:\Program Files\Tesseract-OCR\img;然后在命令行中输入

tesseract output.png output.txt -l chi_sim
chi_sim.png

【语法】: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]
imagename为目标图片文件名,需加格式后缀;outputbase是转换结果文件名;lang是语言名称(在Tesseract-OCR中tessdata文件夹可看到以chi_sim开头的语言文件chi_sim.traineddata 简体中文数据包),如不标-l eng则默认为eng。

  • 识别出来的结果,此结果在output.txt文件里面
  • Tesseract.png

你可能感兴趣的:(window下搭建Tesseract-OCR图片识别文字环境变量)