Tesseract怎么识别中文

前言

经过上一篇文章,我们已经成功安装了Tesseract4.0,并且可以识别出英文了
https://blog.csdn.net/qq_43576028/article/details/102907170

那么Tesseract要怎么识别中文呢。

流程

去官网的GitHub上面下载中文训练包
https://github.com/tesseract-ocr/tessdata
Tesseract怎么识别中文_第1张图片

点击进入,不用直接下载,可能会导致页面崩溃,大家复制链接,进入迅雷下载速度更快。
Tesseract怎么识别中文_第2张图片

下载完了之后把中文训练包放到tessdata中
Tesseract怎么识别中文_第3张图片

配置环境变量
Tesseract怎么识别中文_第4张图片

Tesseract怎么识别中文_第5张图片

开始图片转换(具体的图片转换流程在第一篇安装教程里面,戳这里https://blog.csdn.net/qq_43576028/article/details/102907170

Tesseract怎么识别中文_第6张图片

以上图为例
Tesseract怎么识别中文_第7张图片

与默认的英文识别相比,在这里我们多了一个参数:-l chi_sim

这样tesseract就知道要去识别中文了

打开结果文件
Tesseract怎么识别中文_第8张图片

成功

你可能感兴趣的:(CV)