Tesseract-OCR 4.0学习(一)

源码下载地址:https://github.com/tesseract-ocr/tesseract

tesseract-ocr 4.0之前的版本编译请参考朋友的文章 https://www.jianshu.com/p/0a3386227981

根据说明4.0版本源码编译需要使用以下版本编译器:

不得已只能安装VS2015了~~

安装CPPAN(https://cppan.org/),什么是CPPAN呢?C++ Archive Network,C++包管理器。

下载cppan.exe到tesseract-master文件夹下

cd tesseract-master

cppan

cmake-gui

选择VS2015编译,执行configure。

这个过程可能有点长,执行完成后generate工程。

在编译过程中可能存在问题,主要是文件编码方式,可以使用文件  --》高级保存选项 选择编码 Unicode(UTF-8 带签名)-代码页65001,基本完成编译工作,可以找一些图片测试一下。

使用方法:

tesseract.exe xxx.jpg yyy -l chi_sim

运行结果是将名为xxx.jpg 使用中文简体字库将识别结果保存到yyy.txt中。经过简单的测试,识别效果较之前的版本有所提升。

相对于之前的版本,最新版本引入了CPPAN工具,这个具体如何完成包管理工作还有待研究,是否与python中的python install ** 或者linux中的apt-get呢?这个工具还有其他什么有意思的功能吗?抽空再研究研究。

第一次写,简单了点,随便看看喽。

你可能感兴趣的:(Tesseract-OCR 4.0学习(一))