tesseract4.0引擎语言包的配置！

http://baijiahao.baidu.com/s?id=1603080386704917711&wfr=spider&for=pc

在“小叮当Python人工智能篇：图文识别tesseract4.0引擎的安装”中已为大家介绍了如何安装python进行图文识别的引擎，接下来我们来配置语言包，为大家分享tesseract4.0引擎语言包的配置！

tesseract4.0引擎语言包的配置

Step1.我们从github上下载我们需要的中文简体语言包。（大家可根据自己的需要下载，一般中文简体就够我们使用了）

语言包下载网址：https://github.com/tesseract-ocr/tessdata

Step2.将下载好的语言包放入tesseract4.0安装目录（D:\Program Files (x86)\Tesseract-OCR）的“tessdata"文件夹下。

此时的“tessdata"文件夹下不仅有原来自带的英文识别语言包，而且具有了我们放入的中文简体识别语言包。

Step3.检测系统是否已经识别语言包

我们在系统命令模式CMD中，使用命令”tesseract --list-langs“来检测此时tesseract4.0所支持识别的语言。

但我们却发现，此时系统提示tesseract不能加载任何语言包！在上图用红框标记的系统提示中，我们可以分析，这是由于我们没有配置”TESSDATA_PREFIX“系统变量。

Step4.配置”TESSDATA_PREFIX“系统变量

配置方法和“小叮当Python人工智能篇：图文识别tesseract4.0引擎的安装”中为大家分享的环境变量配置方法大体一样。

（1）新建系统变量，名字为”TESSDATA_PREFIX“。

（2）设置变量值，将“TESSDATA_PREFIX”的值设为我们的安装路径”D:\Program Files (x86)\Tesseract-OCR“

注意：此时系统变量的值指的是文件夹路径，所以此时一定不要加分号“；”，否则系统将无法识别。这点有区别与一般的环境变量配置。

配置好系统变量“TESSDATA_PREFIX”，我们关闭cmd后再次打开，使系统变量生效。

Step4.再次检测系统是否已经识别语言包

我们再次使用命令”tesseract --list-langs“来检测，发现此时tesseract4.0支持识别的语言已有3种。

其中chi_sim表示我们下载的中文简体，eng表示英文。其它种类的语言包，大家可根据自己需要，自行下载即可。

至此，tesseract4.0引擎语言包的配置流程已圆满介绍完毕！具体的使用实例将在“小叮当Python人工智能篇：一句代码搞定图文识别！”中为大家分享！