行业洞察 | OCR文字识别技术都有哪些用途

行业洞察 | OCR文字识别技术都有哪些用途_第1张图片

现在连一支笔也卷起来了。

近期,网易有道先后发布了新一代词典笔,此前科大讯飞也发布了智能录音笔。这些科技含量满点的笔不仅可以支持高质量的录音和高效率的文字转写,同时能够识别众多语种和方言,中文在线转写识别率非常高,并支持离线转写等功能。

这些笔还配备文字识别OCR(Optical Character Recognition)摄像头。通过摄像头拍摄所需内容后,可对图像自由进行剪裁,同时帮助提升识别的准确率。通过文字识别技术,进一步拉进与消费者的距离。近年来文字识别也几乎成为了无处不在的便利小帮手。

OCR文字识别的应用场景

1. 证件识别:主要识别证件信息,用于身份证、护照、驾驶证等20余种证件识别,目前有证件采集仪、护照阅读器、门禁考勤机、人证一体扫描仪、移动端证件识别。

2. 银行卡识别:主要识别银行卡卡号,用于移动支付绑卡,提升APP用户体验。支持国内各个银行的信用卡、储蓄卡等识别。

3. 车牌识别:主要识别车牌号码、颜色、类型、车标、车身颜色等车辆特征信息,用于移动警务,占道停车,停车场管理,车险等领域。

4. 名片识别:主要识别名片内容,用于移动展业、CRM客户管理系统等领域,支持各种板式的各种名片,还支持多语种名片识别。

5. 营业执照识别:主要识别营业执照信息,用于需要代替人工提取营业执照信息的领域。

6. 汽车VIN码识别:主要识别车架号(汽车VIN码),用于汽车管理、汽车服务、二手车交易、租车等领域。

7. 票据类识别:主要识别增值税发票等不同格式的票据内容,用于财务管理、汽车、银行、金融等领域。

8. 文档文字识别:主要识别文档文字,用于图书馆、报社等针对图书、报纸、杂志等文本类,及其他需要将纸质文档进行电子化的领域。

OCR文字识别的应用难点

通常来说,证件类文字识别相对较为简单,其次是通用文档和自然场景的文字识别,最后是通用表格类的文字识别。

相对来讲,证件证类图像各项约束更多,或者说问题空间更小。比如身份证的“性别”一栏,只有 “男”或者“女” 两种可能性。在版面上,目前以二代身份证为主,版式单一、字体确定,文字识别正确率更高。

但也存在着识别的难点,比如在识别人名和地名的时候,最大的风险是用户隐私,以及数据合规的问题。为此就需要数据合成,但如何更好的合成对模型有效的数据?数据的合成不好就会导致显示不正确,识别率下降。

通用文档它的难点在于如何很好的结构化。如简历识别。想象各种各样的版式,但是键值对几乎是可以枚举的。完全给你纯文本版的简历,利用 N;P 做好各类样式适配的结构化都应该不太简单,更何况是非文字版。

自然场景的难点在于,背景的复杂多样、字体五花八门、遮挡、光照、多尺度以及如何大批量快速训练,而现在的自然场景,还有一个特点就是目标文字区域附近会有噪音(比如:楼牌附近都是广告),使得目标信息解析结构化也是痛点难点。

表格识别最难,因为表格之间风格的高度相似和单元格推理的极度易错(对于多行密集型,基本上一行出错,全表完蛋),同时无边框的表格推理识别更难。

OCR文字识别数据资源稀缺

俗话说“人类的物质需求的是促进生产力发展的动力”,上述这些落地场景促进者OCR技术的快速发展。

目前,深度学习算法成为了OCR为题的SOTA方案。当前深度学习OCR算法均采用上述的两阶段模式:文本检测+文本识别。这些深度学习算法需要大量的数据训练,数据永远是深度学习算法取得卓越效果的前提。

但是由于场景数据不易获取,很多生活场景数据具有隐私性,标注困难且需要专业团队清洗、标注。数据的稀缺对于OCR技术的落地和发展具有阻碍性。因此工程师们更需要借助专业的数据公司的力量,取得更多精标的OCR图像数据,从而加速科研进程和技术落地的可能性。

你可能感兴趣的:(人工智能,计算机视觉)