在ubuntu16.04上安装tesseract4.0

1.安装依赖的库

sudo apt-get install g++ # or clang++ (presumably)

sudo apt-get install autoconf automake libtool

sudo apt-get install autoconf-archive

sudo apt-get install pkg-config

sudo apt-get install libpng12-dev

sudo apt-get install libjpeg8-dev

sudo apt-get install libtiff5-dev

sudo apt-get install zlib1g-dev

2.如果需要训练需安装以下库

sudo apt-get install libicu-dev

sudo apt-get install libpango1.0-dev

sudo apt-get install libcairo2-dev

3.安装leptonica 

###不安装会有error: Leptonica 1.74 or higher is required. Try to install libleptonica-dev package.错误

cd git

##从git上将leptonica项目克隆到本地

git clone https://github.com/DanBloomberg/leptonica.git   

cd leptonica

autoreconf -vi

./autobuild

./configure

make

sudo make install

4.安装tesseract

cd git

git clone https://github.com/tesseract-ocr/tesseract.git

cd tesseract

./autogen.sh

./configure --enable-debug

make

sudo make install

安装结束。

使用 tesseract -v 命令可以查看安装是否完成(显示版本号)

tesseract官网上有已经训练好的字典,可以下载下来使用。

地址:https://github.com/tesseract-ocr/tessdata

添加tessdata文件夹路径到环境变量中:export TESSDATA_PREFIX=/你的路径/tessdata

 例如 export TESSDATA_PREFIX=/usr/local/share/tessdata

将下载的字典放到tessdata文件夹里

 即放到/usr/local/share/tessdata中去

使用tesseract  --list-langs 命令可以知道当前已有的字典,在用tesseract识别文字前必须要加载字典

识别文件的命令:tesseract filename output -l lang

例如:tesseract chi.font.exp3.tif output -l chi_sim 

你可能感兴趣的:(在ubuntu16.04上安装tesseract4.0)