文字识别技术获突破性进展 及 ICDAR的说明

随着信息碎片化时代的来临,人们每天不得不被迫接受处理生活各种场景中无限砸向面前的信息,被各种终端图像、 文字数据搞得力倦神疲。而针对大数据的处理,人工能力显然已经无法应对,人工智能与机器学习或将成为劳动力转移和工业革命的切口。过去一年来,研究人员和开发者在人工智能各领域取得多个重要突破。北京旷视科技旗下的 Megvii Image++团队近日刷新了2015 ICDAR 鲁棒阅读竞赛(Robust Reading Competition)和离线手写体汉字单字识别(公开测试集)双项赛事记录,实现了图像 识别技术的又一次突破。

其中,国际文档分析与识别大会(ICDAR)是全球文档分析以及模式识别领域最重要的国际学术会议之一,由国际模式识别协会(International Association of Pattern Recognition, IAPR)主办。该会议每两年举办1次,从1991年第1届开始,到2015年已成功举办13届。“鲁棒阅读竞赛”在历届大会中出现过5次,一直被认为是评价和检验自然场景/网络图片/复杂视频文本自动提取与智能识别最新技术研究进展的最重要国际赛事及标准,在计算机视觉、图像处理以及多媒体等领域也具有广泛的影响力。基于对当前和未来技术演进和产业应用趋势的判断,2015 ICDAR 鲁棒阅读竞赛重点关注端到端文字识别(End-to-End Text Recognition)技术的评测,本次竞赛包含4项挑战项目:“网络图片文字端到端识别”(Born-Digital End-to-End Text Recognition )、“自然场景文字端到端识别”(Focused End-to-End Text Recognition)、“视频文字检测”(Video Text Detection)以及“偶然场景文字识别(Incidental Scene Text)”。

文字识别技术获突破性进展 及 ICDAR的说明_第1张图片

ICDAR 2015 鲁棒阅读竞赛第四项挑战第一项任务的官方结果

Megvii Image++参与的是其中难度系数最高的偶然场景文字识别,其难点在于待检测和识别的文字处于复杂的自然场景中,如真实的街道和商场场景、偶然情况下拍摄的文字,因此图像具有复杂性和多变性的特点,且存在噪声、模糊以及角度倾斜等不利因素;另一方面,偶然场景文字识别的数据集是同类型数据集中规模最大的,且绝大多数目标文字为英文。最终Megvii Image++以绝对优势超越包括中科院、南京大学、韩国StradVision公司等在内的优秀竞争团队,分别在文字检测(Text Localization)、单词识别(Word Recognition)以及端到端文字识别(End-to-end text recognition)三项任务中比之前的最好成绩高出13.92%、30.09%、21.78%,从而刷新记录。

文字识别技术获突破性进展 及 ICDAR的说明_第2张图片

自然场景文字检测样例

离线手写体汉字单字识别赛由国际文档分析与识别大会(ICDAR)与中国科学院在2011年和2013年两次主办,其手写汉字数据库由2007到2010年间召集的1020名志愿者所书写,包含六个离线数据集。单个字符的数据集包含7356个类别的3.9万个样本,且手写文字的数据集包含约5,090页约135万字的样本。

文字识别技术获突破性进展 及 ICDAR的说明_第3张图片

离线手写体汉字单字数据集样例

离线手写体汉字单字识别是模式识别领域最具挑战性的课题之一,据ICDAR官方称,人类对汉字单字的识别率为96.1%。此前已知的最好水平是在2015年9月由北京富士通研究开发中心开发的一个使用了1.5亿参数的模型所达到的96.7%的识别精度。而此次在离线手写体汉字单字识别任务中,Megvii Image++采用的模型集合(model ensemble)的方法将识别精度提升到了97.1%。其中最好的单模型使用了一种叫Kronecker分解的技术,只用了0.14亿个参数,就达到了96.6%的精度。参数的减少意味着模型占用的内存和存储空间变少,同时也降低了机器学习中出现过拟合现象的风险。

文字识别技术获突破性进展 及 ICDAR的说明_第4张图片

Megvii Image++ 离线手写汉字识别结果

无论是场景文字识别还是手写汉字识别所取得的进展,都将极大地提高数据录入和处理的效率,并允许各种设备具有读取环境中丰富的文字信息的能力。人们亟待这些前端技术走向产业化发展,投向日常的生产和生活中,如将文字识别技术应用于无人驾驶汽车、盲人导航、工业自动化、互联网信息挖掘、电商打假、品牌曝光率调研等领域。而目前健康应用中的体检表、诊断书、药房签单等录入就有望实现智能化拍照录入,其他金融记账类、拍照翻译类、信息录入类应用都会因为文字识别引擎的性能大幅提升而实现商用化。可以说,计算机图像识别技术的前景无限宽广。

你可能感兴趣的:(文字识别技术获突破性进展 及 ICDAR的说明)