tesseract4.0引擎语言包的配置!

http://baijiahao.baidu.com/s?id=1603080386704917711&wfr=spider&for=pc

在“小叮当Python人工智能篇:图文识别tesseract4.0引擎的安装”中已为大家介绍了如何安装python进行图文识别的引擎,接下来我们来配置语言包,为大家分享tesseract4.0引擎语言包的配置!

tesseract4.0引擎语言包的配置

Step1.我们从github上下载我们需要的中文简体语言包。(大家可根据自己的需要下载,一般中文简体就够我们使用了)

语言包下载网址:https://github.com/tesseract-ocr/tessdata

Step2.将下载好的语言包放入tesseract4.0安装目录(D:\Program Files (x86)\Tesseract-OCR)的“tessdata"文件夹下。

此时的“tessdata"文件夹下不仅有原来自带的英文识别语言包,而且具有了我们放入的中文简体识别语言包。

Step3.检测系统是否已经识别语言包

我们在系统命令模式CMD中,使用命令”tesseract --list-langs“来检测此时tesseract4.0所支持识别的语言。

但我们却发现,此时系统提示tesseract不能加载任何语言包!在上图用红框标记的系统提示中,我们可以分析,这是由于我们没有配置”TESSDATA_PREFIX“系统变量。

Step4.配置”TESSDATA_PREFIX“系统变量

配置方法和“小叮当Python人工智能篇:图文识别tesseract4.0引擎的安装”中为大家分享的环境变量配置方法大体一样。

(1)新建系统变量,名字为”TESSDATA_PREFIX“。

(2)设置变量值,将“TESSDATA_PREFIX”的值设为我们的安装路径”D:\Program Files (x86)\Tesseract-OCR“

注意:此时系统变量的值指的是文件夹路径,所以此时一定不要加分号“;”,否则系统将无法识别。这点有区别与一般的环境变量配置。

配置好系统变量“TESSDATA_PREFIX”,我们关闭cmd后再次打开,使系统变量生效。

Step4.再次检测系统是否已经识别语言包

我们再次使用命令”tesseract --list-langs“来检测,发现此时tesseract4.0支持识别的语言已有3种。

其中chi_sim表示我们下载的中文简体,eng表示英文。其它种类的语言包,大家可根据自己需要,自行下载即可。

至此,tesseract4.0引擎语言包的配置流程已圆满介绍完毕!具体的使用实例将在“小叮当Python人工智能篇:一句代码搞定图文识别!”中为大家分享!

你可能感兴趣的:(tesseract4.0引擎语言包的配置!)