提取tesseract-3.00源码,并在QT上实现OCR识别

Tesseract的历史

  Tesseract是一个开源的OCR引擎,惠普公司的布里斯托尔实验室在1984-1994年开发完成。起初作为惠普的平板扫描仪的文字识别引擎。Tesseract在1995年UNLV OCR字符识别准确性测试中拔得头筹,受到广泛关注。后来HP放弃了OCR市场。在1994年以后,Tesseract的开发就停止了。

  在2005年,HP将Tesseract贡献给开源社区。美国内华达州信息技术研究所获得该源码,同时,Google开始对Tesseract进行功能扩展及优化。目前,Tesseract作为开源项目发布在Google Project上,重获新生。Tesseract的最新版本是3.02,它支持60种以上的语言,提供一个引擎和一个命令行工具,官方下载地址:谷震平的传送门。 

第一步:准备工具

1.1、下载tesseract-3.00源码库,下载地址:https://download.csdn.net/download/cwj066/10664829

1.2、下载安装Qt Creator

第二步:把tesseract-3.00源码库提取成两个文件OCR.h和OCR.cpp

2.1、提取过程艰辛,就不一一详解,稍后把工程和提取的源码一起上传博客资源,需要的可以去下载,提取出来的如下:

提取tesseract-3.00源码,并在QT上实现OCR识别_第1张图片

第三步:在Qt上使用提取出来的源码,OCR识别字符(用到opencv库做辅助)

1.1、打开QT新建一个名为OCR的工程

提取tesseract-3.00源码,并在QT上实现OCR识别_第2张图片

把提取出来的OCR.h和OCR.cpp拷贝到工程目录下

提取tesseract-3.00源码,并在QT上实现OCR识别_第3张图片

接着把OCR.h和OCR.cpp添加到工程里来

image widget

1.2、在OCR.pro文件引入opencv库(不会在QT配置opencv开发环境的可以取翻我之前的博客)

提取tesseract-3.00源码,并在QT上实现OCR识别_第4张图片

1.3、新建一个main.cpp,在main.cpp文件引入OCR.h,代码如下所示:

提取tesseract-3.00源码,并在QT上实现OCR识别_第5张图片

测试图如下:

提取tesseract-3.00源码,并在QT上实现OCR识别_第6张图片

识别结果如下:

提取tesseract-3.00源码,并在QT上实现OCR识别_第7张图片

总结:为了免去编译tesseract-3.00源码库的麻烦,自己尝试的提取了tesseract-3.00的源码,把提取出来的源码生产两个文件,一个是OCR.h(借口声明文件),一个OCR.cpp(借口实现文件)。为了提取所有源码花费了很多时间,但是这是值得的,因为有了这两个文件,就可以优化源码,优化识别算法,提高识别率。

工程源码下载地址:https://download.csdn.net/download/cwj066/10665000

注释:源码工程中tessdata文件里面的是训练库,在识别时选择这个路径就可以了。

你可能感兴趣的:(图像处理算法)