Scene Text Detection via Holistic, Multi-Channel(翻译)

摘要

       近年来,场景文本检测因其具有的重要意义和巨大挑战性,已经成为计算机视觉领域和文档分析领域中一个活跃的研究课题。然而,绝大多数的现有方法都是在本地区域内通过候选聚合和假正消除的方式提取字符、字词或行级候选词进行文本检测,这就可能潜在的排除了场景中较广范围和较长距离的上下文线索产生的影响。而为了充分利用整个自然图像中丰富的信息,我们则建议将场景文本检测作为语义分割问题,以整体的方方式来进行文本定位。该算法直接运行在完整的图像上,并生成全局的单像素预测图,检测结果也随后形成。为了更好地利用文本属性,我们将利利用一个单独的全卷积网络(FCN)模型对文本区域、单个字符及其关系等三种类型的信息进行估算。通过对文本属性的预测,本文提出的算法可以处理现实世界的自然图像,例如水平文本、多方向文本和弯曲文本。就对基准进行的实验而言,包括CDAR2013 、CDAR2015 和MSRA-TD500,都已表明,该算法在很大大程度上优于先前的技术方方法。此外,我们在最近发布的大规模数据集coco - text上发布了了第一个基准结果。

关键词: —场景文本检测,全卷积网网络,整体预测,自然图像。

I.介绍

     自然场景中的文本信息在各种现实世界的应用中都极具有价值且非常有益,例如图像搜索、人人机交互、刑事调查[1]和向盲人提供帮助[57]。在过去几年里,场景文本的检测和识别得到了计算机视觉领域和文档分析领域人员的广泛关注,同时也激发他们提出了许多鼓舞人心的灵感来解决以上这些问题。然而在不可控的环境中(例如野外),本地化和阅读文本的实现仍然是极具挑战性的。原因众多,如文本外观、布局、字体、语言、风格等问题,以及背景杂波、噪声、模糊、遮挡、不均匀光照等情况。本文重点讨论了场景文本检测存在的问题,旨在预测文本检测的呈现技术,并对每个实例的地位和延伸范围进行估算。

      以前的方法主要是在局部地区内使用滑动窗口或连接组建提取技术,找寻文本实例(字符、文字或文本行)。新算法则为这一领域的发展提供了了许多新的想法,同时不断地推进着现今最新的工艺水平。然而,大多数现有的算法只能在一定区域内找寻文本(至高到文本行级别), 如果范围扩大,就几乎无法办到,而这对处理具有挑战性的状况却是至关重要的。因此,旧有的算法会陷入捕捉弱文本实例和抑制误报的境况中而无法脱身。

此外,几乎此前所有的方法都集中在检测水平或接近水平文本,却忽略了非水平性的问题。在很大程度上限制了方法的实用性和适应性,究其原因是关乎现场的一些至关重要的信息或许就体现在这种非水平文本上。

我们在这项工作中提出了一种新算法,将文本检测看作为语义分割问题[43]。该算法执行整体、逐像素的估算,并生成密集的特征图, 其中场景文本的属性是隐含的,如图1所示。然而,因为多个文本实例相似而难以拆分单个字符(⻅图2),简单的二级语义分割(文本和非文本)不能够完全完成场景文本检测。因此,除了文本区域位置,我们同时将单个字符及其连接方向附近字符的中心和规模考虑了进去,最终解决了这一问题。

你可能感兴趣的:(Scene Text Detection via Holistic, Multi-Channel(翻译))