OCR文字识别

最近项目需要身份证识别文本,阿里云提供的服务很方便,但是太贵大概5元一次。

自己研究下开源的文本识别,做个笔记。

centos7下

安装 leptonica

wget http://www.leptonica.org/source/leptonica-1.72.tar.gz

tar xvzf leptonica-1.72.tar.gz

cd leptonica-1.72/

./configure

make && make install

安装tesseract-ocr

wget https://github.com/tesseract-ocr/tesseract/archive/3.04.zip

unzip3.04.zip

cd tesseract-3.04/

./configure

make && make install

sudo ldconfig

配置文件位置

/usr/local/share/tessdata

下载支持的语言对应的配置中

GitHub地址 https://github.com/tesseract-ocr/langdata

创建存放语言文件的文件夹/usr/local/share/tessdata/lang

修改配置的变量export TESSDATA_PREFIX=/some/path/to/tessdata

这里注意的是,我们修改的是路径的前缀

真实的语言文件的路径实际是/usr/local/share/tessdata/lang/tessdata

你可能感兴趣的:(OCR文字识别)