http://baijiahao.baidu.com/s?id=1603080386704917711&wfr=spider&for=pc
在“小叮当Python人工智能篇:图文识别tesseract4.0引擎的安装”中已为大家介绍了如何安装python进行图文识别的引擎,接下来我们来配置语言包,为大家分享tesseract4.0引擎语言包的配置!
tesseract4.0引擎语言包的配置
Step1.我们从github上下载我们需要的中文简体语言包。(大家可根据自己的需要下载,一般中文简体就够我们使用了)
语言包下载网址:https://github.com/tesseract-ocr/tessdata
Step2.将下载好的语言包放入tesseract4.0安装目录(D:\Program Files (x86)\Tesseract-OCR)的“tessdata"文件夹下。
此时的“tessdata"文件夹下不仅有原来自带的英文识别语言包,而且具有了我们放入的中文简体识别语言包。
Step3.检测系统是否已经识别语言包
我们在系统命令模式CMD中,使用命令”tesseract --list-langs“来检测此时tesseract4.0所支持识别的语言。
但我们却发现,此时系统提示tesseract不能加载任何语言包!在上图用红框标记的系统提示中,我们可以分析,这是由于我们没有配置”TESSDATA_PREFIX“系统变量。
Step4.配置”TESSDATA_PREFIX“系统变量
配置方法和“小叮当Python人工智能篇:图文识别tesseract4.0引擎的安装”中为大家分享的环境变量配置方法大体一样。
(1)新建系统变量,名字为”TESSDATA_PREFIX“。
(2)设置变量值,将“TESSDATA_PREFIX”的值设为我们的安装路径”D:\Program Files (x86)\Tesseract-OCR“
注意:此时系统变量的值指的是文件夹路径,所以此时一定不要加分号“;”,否则系统将无法识别。这点有区别与一般的环境变量配置。
配置好系统变量“TESSDATA_PREFIX”,我们关闭cmd后再次打开,使系统变量生效。
Step4.再次检测系统是否已经识别语言包
我们再次使用命令”tesseract --list-langs“来检测,发现此时tesseract4.0支持识别的语言已有3种。
其中chi_sim表示我们下载的中文简体,eng表示英文。其它种类的语言包,大家可根据自己需要,自行下载即可。
至此,tesseract4.0引擎语言包的配置流程已圆满介绍完毕!具体的使用实例将在“小叮当Python人工智能篇:一句代码搞定图文识别!”中为大家分享!