使用pytesseract完成简单的OCR的环境搭建

环境及版本

系统环境

  • Linux version 2.6.32-573.18.1.el6.x86_64 ([email protected]) (gcc version 4.4.7 20120313 (Red Hat 4.4.7-16) (GCC) ) #1 SMP Tue Feb 9 22:46:17 UTC 2016
  • leptonica-1.72.tar.gz
  • tesseract-3.04.00

说明

  • Tesseract的OCR引擎目前已经作为开源项目发布在Google Project 。它提供中文OCR,并提供了一个命令行工具。

  • pytesseract是python的一个包,是Tesseract的一个包装,方便调用。

  • leptonica一个用于图形图像处理的软件,提供了诸如图像文件I/O等功能。Tesseract依赖于leptonica

安装过程

  1. 首先安装leptonica库
wget http: //www.leptonica.com/source/leptonica-1.72.tar.gz
tar -xvf leptonica-1.72.tar.gz 
cd leptonica-1.72
./configure

此时发现

checking for PNG support ...
checking png.h usability... no
checking png.h presence... no

提示没有libpng,但是:

# yum install libpng
Package 2:libpng-1.2.49-2.el6_7.x86_64 already installed and latest version

那为啥还找不到呢?参考这里,找到解决方案,需要安装libpng-devel:

yum install libpng-devel

再次

./configure

至此,配置正常

然后是安装

make && make install
  1. 编译安装tesseract
wget https://github.com/tesseract-ocr/tesseract/archive/3.04.00.tar.gz
mv 3.04.00  Tesseract3.04.00.tar.gz
tar -xvf Tesseract3.04.00.tar.gz
cd tesseract-3.04.00/
./configure
make && make install
  1. 下载安装英文,中文简体识别库
wget https://github.com/tesseractocr/tessdata/raw/master/eng.traineddata
wget https://github.com/tesseractocr/tessdata/raw/master/chi_sim.traineddata

解压后,放在相应的目录下即可

cp/mv *.traineddata /usr/local/share/tessdata/

你可能感兴趣的:(使用pytesseract完成简单的OCR的环境搭建)