Tesseract-OCR 4.00简介

首先我们在GitHub上找到了一些文档,在这里记录点学习内容。

文档来源:https://github.com/tesseract-ocr/docs

1、History

1) Timeline


Tesseract从1984年开始至今,中间1995年至2005年基本处于停滞状态(The dark ages),自从2005年HP开源,2006年被Google接手之后,又进入了新的发展阶段,也不知道这么有意思的OCR库经过了怎样的40年~~

上图中有几个比较重要的点:

Internationalized to 100+ languages

Layout analysis 

Table Detection

Equation detection 

Training Tools 

PDF output 

 LSTM

具体实现还需要分块研究,以后再写。


Tesseract Coordinate System

左下角(bottom-left)为坐标原点(0,0)

Tesseract-OCR System

图1 Tesseract System Architecture

上图中展示了整个Tesseract 识别架构,包括自适应二值化,版面分析(我的理解是把整个页面中的表格、图片、文字等分类,提取出文字部分进行识别),文字识别等,其中的LSTM Line Recognizer 具体做了什么工作还有待研究,之后的X-Height Fix ,Fuzzy Space Fix, Word Bigram Fix等应该是根据识别结果不断调整参数,以适应不同文档的情况。

图2 Tesseract Word Recognizer

上图2显示了图1中 recognizer word pass1 中工作情况。这部分的工作重点是字符分割。

图3 文件结构 -功能结构

图3 说明了整个Tesseract文件结构以及功能说明。

图4 重要的数据结构
图5 

谁来告诉我这是什么意思?

图6 Recognize识别过程中的函数调用流程

图6 很清晰地展示了识别操作的函数调用流程,这部分是整个OCR的核心,也是以后研究工作的重点。

图7 实例(一)
图7 实例(二)
图7 实例(三)

以上内容介绍整体Tesseract架构和实例,官方文档图片较多,先保存下来,以后学习深入了再来补充整理。

你可能感兴趣的:(Tesseract-OCR 4.00简介)