开源的OCR库
OCRE, OCR Easy, http://lem.eui.upm.es/ocre.html
Clara OCR, http://directory.fsf.org/claraocr.html
Ocrad, based on a feature extraction, http://directory.fsf.org/ocrad.html
GOCR, http://sourceforge.net/projects/jocr
OCRchie: Modular Optical Character Recognition Software, http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html
http://code.google.com/p/tesseract-ocr/
gocr和ocrad稍作修改可在Windows下编译运行。gocr用vc6, ocrad用gcc。
OCRE,OCRchie和clara OCR需要X window或gtk不太好编译。
tesseract 用VC ,10年前的东西,太老, 里面很多代码是STL的原型
Tesseract是一个开源OCR程序
之前就有看见有人在说,tesseract是10好几年前的东西,太老了。但是就在9个小时前,Tesseract OCR的开发人员用事实告诉世人,Tesseract OCR不但活着,还在不断地自我完善中。
2010年9月30日,Tesseract 正式发布了它的3.0版本(http://code.google.com/p/tesseract-ocr/)。
这次更新主要做了以下工作:
1. 为线程安全做了一些筹备工作:更改TessBaseAPI方法被非静态;为目录创建类的层次结构,以容纳实例数据,并开始移植代码到类当中;移动阈值代码到一个单独的类。
2. 增加了新的页面布局分析模块。
3. 新增HOCR输出。
4.添加Leptonica作为主要的图像输入输出及处理模块。现在,是否使用Leptonica是可选的,但是在未来的版本中,Leptonica是必须使用的模块。 http://www.leptonica.org/index.html
5. 重写歧义表(模糊表?),允许在fix_quotes中定义替换方式。
6. 新增TessdataManager,它可以将多个Tesseract特征数据文件合并成一个单一的文件。
7. 删除一些无用的代码。
8. 因为VC++ 6不能很好地应付模板的使用,它不再被Tesseract支持。
9. 对大部分的函数头注释进行了修改。
还有一点没有写在官方的release notes里面,但是我个人觉得是非常非常好的改进:支持识别更多的语言,其中就包括简体中文和繁体中文。
利用开源程序(ImageMagick+tesseract-ocr)实现图像验证码识别