Tesseract-OCR(图像文字识别)

Tesseract-OCR入门使用1
Tesseract-OCR入门使用2
Tesseract-OCR入门使用3
Tesseract API Example

环境:

  • Python3.6
  • Pycharm
  • Win10
  • tesseract-ocr-setup-3.05.00dev.exe

安装:

  • 安装tesseract-orc的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文。安装过程和其他软件一样。
  • pip install PIL
  • pip install pytesseract

配置环境

1.设置 tesseract-orc路径

默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

解决方法:

  • 方法1:将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
  • 方法2:修改pytesseract.py文件,修改方法如下
    tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
  1. 设置训练集的位置

下载的默认训练集也没有添加到系统路径,会报错pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解决方法:
设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

实例程序

from PIL import Image
import pytesseract
text = pytesseract.image_to_string(Image.open('seven.png', lang='chi_sim')   # 识别中文
print(text)

其他版本

Ubuntu版本:

1.tesseract-ocr安装

  • sudo apt-get install tesseract-ocr

2.pytesseract安装

  • sudo pip install pytesseract

3.Pillow 安装

  • sudo pip install pillow

其他linux版本(如centos):
1.tesseract-ocr安装
没找到直接命令安装,所以需要手动下载安装包。
https://github.com/tesseract-ocr/tesseract
在上述地址中下载最新的tesseract-ocr的安装包,并解压。
通过以下命令安装:
(1)cd tesseract-3.04.01

(2)./autogen.sh

(3)./configure
注意,如果出现error: leptonica not found,需要下载安装leptonica
http://www.leptonica.org/download.html

(4)make

(5)make install

(6)ldconfig

2.pytesseract安装
sudo pip install pytesseract

3.Pillow 安装
sudo pip install pillow

你可能感兴趣的:(Tesseract-OCR(图像文字识别))