android tensorflow文字识别身份证识别ocr文字识别商用源码

一 ,文字识别简介

计算机文字识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。

在OCR技术中,印刷体文字识别是开展最早,技术上最为成熟的一个。早在1929年德国科学家Taushek就取得了一项光学字符识别(Optical Character Recognition,简称OCR)的专利131。欧美国家为了将浩如烟海、与日俱增的大量报刊杂志、文件资料和单据报表等文字材料输入计算机进行信息处理,从上世纪50年代就开始了西文OCR技术的研究,以便代替人工键盘输入。经过40多年的不断发展和完善,并随着计算机技术的飞速发展,西文OCR技术现已广泛应用于各个领域,使得大量的文字资料能够快速、方便、省时省力和及时地输入到计算机中,实现了信息处理的“电子化”。

与印刷体西文OCR相比,印刷体汉文OCR技术的研究是在印刷体数字识别和印刷体英文识别的基础上发展起来的,最早可以追溯到上世纪60年代。1966年,BIM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法,识别了1000个印刷体汉字。从上世纪70年代以来,日本学者在汉文OCR方面做了许多研究工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个单体印刷汉字的识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷体汉字识别系统。这些系统在方法上,大都采用基于K-L数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,所以并没有得到广泛应用。

与国外相比,我国的印刷体汉字识别研究是从上世纪70年代末起步的,至今己有近三十年的发展历史,大致可以分成如下三个阶段:

1)探索阶段(1979一1985)

在对数字、英文、符号识别研究的基础上,自上世纪70年代末,国内就有少数单位的研究人员对汉字识别方法进行了探索,发表了一些论文,研制了少量模拟识别软件和系统。这个阶段漫长,成果不多,但是却孕育了下一个阶段的丰硕果实。

2)研制阶段(1986~1988)

1986年初到1988年底,这三年是汉字识别技术研究的高潮期,也是印刷体汉字识别技术研究的丰收期。总共有11个单位进行了14次印刷体汉字识别的成果鉴定,这些系统对样张识别能达到高指标:可以识别宋体、仿宋体、黑体、楷体,识别的字数最多可达6763个,字号从3号到5号,识别率高达99.5%以上,识别速度在286微机条件下能够达到10~14字/秒,但对真实文本识别率大大下降,这是由于以上系统对印刷体文字形状变化(如文字模糊、笔划粘连、断笔、黑白不均、纸质质量差、油墨反透等等)的适应性和抗干扰性比较差造成的。但是这三年研制的识别系统为印刷体汉字识别系统的实用化打下了基础,是识别系统从研制到实用化必经的过程。

3)实用阶段(1989一至今)

印刷体汉字识别自1986年掀起高潮以来,清华大学电子工程系、中国科学院计算所智能中心、北京信息工程学院、沈阳自动化研究所等多家单位分别研制并开发出了实用化的印刷体汉字识别系统。尤其是由清华大学电子工程系研制的清华TH一OCR产品和由汉王集团开发的尚书OCR产品,它们始终都处于技术发展的最前沿,并占据着最大的市场份额,代表着印刷体汉字识别技术的发展潮流。目前,印刷体汉字识别技术的研究热点已经从单纯的文字识别转移到了表格的自动识别与录入,图文混排和多语种混排的版面分析、版面理解和版面恢复,名片识别,金融票据识别和古籍识别等内容上。并且出现了许多相关的识别系统,如:紫光文通推出的名片识别系统(e一card)、身份证识别系统(e验通)和“慧视”屏幕文字图像识别系统等等。这些新的识别系统的出现,标志着印刷体汉字识别技术的应用领域得到了广阔的扩展。

国家高技术研究发展“863”计划、国家重点科技攻关计划、国家自然科学基金和军事基础研究基金都对印刷体汉字识别这一研究课题予以极大的重视和大力的支持。目前,印刷体汉字识别和联机手写汉字识别走向实用化,其技术水平和当前世界最高水平并驾齐驱。

这篇文章将对OCR技术进行分类描述,并介绍一些在OCR领域中较常使用的算法,由于个人主要参与的项目实践与印刷体识别较为相关,所以对于其他领域的描述若有不当之处,请大家指正,希望本文的介绍会让大家对OCR的整个流程有一个简要的概念。

android tensorflow文字识别ocr文字识别商用源码身份证识别

样例图:

android tensorflow文字识别身份证识别ocr文字识别商用源码_第1张图片

视频演示:

tensorflow ocr文字识别 android studio编译运行

项目下载:

tensorflowocr文字识别androidstudio编译运行。源码已商用-互联网文档类资源-CSDN下载

你可能感兴趣的:(tensorflow,android,人工智能)