参考:https://code.google.com/p/tesseract-ocr/wiki/Compiling
yes | yum install libpng-devel.x86_64
yes | yum install libjpeg-devel.x86_64
yes | yum install libtiff-devel.x86_64
yes | yum install zlib-devel.x86_64
Leptonica官网的svn checkout 方法貌似不行,执行 svn checkout http://leptonica.googlecode.com/svn/trunk/ /your/own/directory 的结果是,除了一个trunk子目录,啥也没有。
退而求其次,下载源代码打包。解压后,进入Leptonica源代码目录。
./configure #注意:没做configure之前是没有Makefile文件的,之后才生成的
make
make install #默认安装到了/usr/local/lib 下面,是一些静态库和动态库文件;头文件默认位于/usr/local/include/leptonica
用svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ /your/own/directory 把源代码checkout到本地。进入目录,然后
./autogen.sh #用来生成configure文件
./configure
make
make install #默认安装到 /usr/local/include、 /usr/local/lib 和 /usr/local/bin/ 下面
ldconfig #这步操作别忘了!
下载tesseract-ocr-3.02.eng.tar.gz, tesseract-ocr-3.02.chi_sim.tar.gz, tesseract-ocr-3.02.chi_tra.tar.gz 等语言数据文件,解压后,会解压到一个共同的子目录tessedata中。
然后设置环境变量TESSDATA_PREFIX为tessedata目录的上一级目录。如果不配环境变量TESSDATA_PREFIX,会遇到下面的错误:
Error opening data file /home/yasi/tessdata/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory.
准备带有文字的图片文件,如./pic.png,然后 tesseract ./pic.png textfile
如果遇到下面的编译问题,很可能是equationdetect.cpp文件的编码格式有问题。检查它的编码格式,如果是Unicode的,改成UTF-8,重新编译。