OCR文字技术与行业应用

一.COR应用场景

1.四类:

数字原生类:
淘宝商品图是最具有代表性的数字原生类文字图。
特点:1)最复杂多样:各种字体、背景、排列、组合等(MTWI挑战赛-最大的OCR竞赛)。
2)最有价值:商品信息载体
3)图片量最大:千亿图片,每日不停更新。

文档类:
文档类OCR需求非常广,涉及各种公务场景。
特点:1)100%识别率:人的输入准确率为98%,探索AI知识的极限;2)产品易用性:完善的功能,贴近业务需求;3)商业应用:文档类商业成熟。
拍照表单类:拍照表单类OCR价值非常大,非常有挑战性。
特点:1)场景&数据:数据具有隐私性,典型应用场景沉淀技术能力;2)产品通用性:专家知识+模板=文本理解,一套方案解决上百种类型。3)商业价值:和行业场景深度接入,AI能力改善行业数据流程。(提供定制的拍照表格识别和结构化云服务)
自然场景类: OCR学术研究的重点方向。
特点:1)数据:无具体数据类型定义,比如街拍数据;2)技术难点:不确定性,复杂环境干扰本质难点是定位和识别;3)商业价值:市场潜力巨大,如:车牌识别、摄像监控、自动驾驶。(技术能力领先,行业落地中)

2.OCR算法:

算法能力:
两种核心算法能力:1)通用文字识别;2)通用结构化(文字识别是结构化的基础)
OCR文字技术与行业应用_第1张图片
基础算法:文字定位、文字识别

1.文字定位:定位文字在图像中的位置表征成行。
特征问题:背景等特征干扰问题,深度学习可以较好的解决特征问题。
Scale问题:物体定位的共性问题,字高范围8-300个像素
成行问题:文字定位特有问题。
(1)Scale问题:物体定位的共性问题
OCR文字技术与行业应用_第2张图片
(2)成行问题:文字定位特有问题
OCR文字技术与行业应用_第3张图片
2.文字识别
在文字定位的基础上,识别文字内容,同时,输出单字位置和识别率用于文本理解。
OCR文字技术与行业应用_第4张图片
OCR文字技术与行业应用_第5张图片
两大识别难题:1)相似字;2)生僻字
OCR文字技术与行业应用_第6张图片

你可能感兴趣的:(OCR应用)