Scene text detection and recognition: recent advances and future trends
文本作为人类最具影响力的发明之一,在人类生活中发挥着重要的作用,远古至今。文本所蕴含的丰富而精确的信息在基于视觉的广泛应用中非常有用,因此自然场景中的文本检测与识别已成为计算机视觉和文档分析中重要而活跃的研究课题。特别是近几年来,社会各界在这些领域的研究工作和取得的实质性进展,尽管仍然存在各种挑战(如噪声、模糊、失真、遮挡和变化)。本次调查的目的有三个:
1) 介绍最新研究成果,2)确定最新算法,3)预测未来潜在的研究方向。此外,本文提供了到公共可用资源的全面链接,包括基准数据集、源代码和在线演示。综上所述,本文的研究成果可以为场景文本检测与识别领域的研究者提供一个很好的参考。
文本检测,文本识别,自然图像,算法,应用
自然场景中的文本作为人类抽象和操作的产物,直接承载着高层次的语义。这种特性使自然图像和视频中的文本成为一种特殊的、重要的信息源。文本中包含的丰富而精确的信息对于各种基于视觉的应用非常有益,例如图像搜索[1]、目标地理定位[2]、人机交互[3]、机器人导航[4]和工业自动化[5]。因此,文本自动检测与识别,为获取和利用图像和视频中的文本信息提供了一种手段,已成为计算机视觉和文档分析领域的研究热点。
然而,在自然场景中定位和阅读文本是非常困难的任务。场景文本检测与识别的主要挑战大致可分为三类[6,7]:
场景文本的多样性
与文档图像中字体规则、颜色单一、大小一致、排列均匀的文字不同,自然场景中的文本即使在同一场景中也可能具有完全不同的字体、颜色、比例和方向。
背景的复杂性
自然场景图像和视频中的背景可能非常复杂。像标志、栅栏、砖块和草皮这样的元素实际上和真实的文本是无法区分的,因此很容易造成混淆和错误。
干扰因素
各种干扰因素,如噪声、模糊、失真、低分辨率、光照不均匀和部分遮挡等,都可能导致场景文本检测和识别的失败。
为了应对这些挑战,近年来提出了大量的方法,并取得了实质性进展[8-20]。在几乎所有这些方法中,表示的研究是主要的研究课题,因为表示是这些算法有效性和鲁棒性的关键。在场景文本检测与识别中,表示涉及到对自然场景中文本和背景进行描述和建模的方法和方式。
本文主要从表征的角度对近年来有关场景文本检测与识别的研究进行了综述。
本次调查致力于:1)介绍最新研究成果,总结最新进展;2)比较不同方法,突出最新算法;3)分析发展趋势,预测未来研究方向。
此外,它还提供了指向有用资源的链接,包括基准数据集、源代码和在线演示。
在场景文本检测与识别领域,已有多篇优秀的评论论文[21-23]。然而,这些评论论文有些过时,因为它们发表于大约十年前,错过了近年来提出的许多重要的、有影响的著作。我们所知的仅有的两个近期调查是Zhang等人[24]和Uchida等人[25]的研究成果。Zhang等[24]的调查主要集中在与场景文本检测相关的论文上,而忽视了文本识别的方法。Uchida等人[25]的工作回顾了图像和视频中文本检测和识别的方法,但它偏重于文档分析社区的工作,忽略了计算机视觉社区的一些最新研究成果,这些成果带来了新的见解和想法[7,19,20,26]。与以往的文献[21-25]不同,本文对静态图像中的场景检测与识别进行了全面的综述,重点介绍了这些领域的最新进展。
本文其余部分的结构如下。首先,我们回顾了近年来在场景文本和识别领域的研究成果。第三部分介绍了相关的基准数据集和评价方法。第四部分对场景文本检测与识别的研究现状提出了自己的看法、想法和看法。最后,在第五部分给出了结论性意见和未来的研究方向。
近年来,自然图像中的文本检测与识别已成为计算机视觉、模式识别乃至文档分析等领域的研究热点。这些社区的研究人员提出了大量新颖的思想和方法来从自然图像和视频中提取文本信息。
这些方法大致可分为三类:
1) 文本检测,2)文本识别,3)端到端文本识别,如图1所示。第一类方法[9,12,27-30]涉及如何从自然图像中发现和定位可能包含文本的区域,但不需要预先进行识别。第二类方法[7,14,15,31-33]假设文本已经被检测到,并且只关注将检测到的文本区域转换成计算机可读和可编辑符号的过程。
第三类方法[10,11,13,17,19,34]旨在构建端到端的文本识别系统,完成检测和识别任务。
在过去的二十年里,研究人员提出了许多方法来检测自然图像或视频中的文本。
主要有三种方法:基于纹理的方法、基于组件的方法和混合方法。
基于纹理的方法[8,35–37]将文本视为一种特殊类型的纹理,并利用其纹理特性,如局部强度、滤波器响应和小波系数,来区分图像中的文本区域和非文本区域。
这些方法通常计算成本很高,因为所有的位置和比例都应该扫描。此外,这些方法主要处理水平文本,并且对旋转和缩放变化敏感。
在早期的工作中,Zhong等人[35]提出了一种彩色图像中文本定位的方法。利用水平空间方差对文本进行粗略定位,然后在定位区域内进行颜色分割以找到文本。后来,Li等人[38]引入了一种文本检测系统来检测和跟踪视频中的文本。该系统利用小波系数均值对图像进行分解,以一阶矩和二阶矩作为局部特征。
Kim等人[36]训练了一个支持向量机分类器,通过直接使用原始像素强度作为局部特征对每个像素进行分类。通过概率图中的自适应MeanShift[39]来寻找文本区域。该方法对背景简单的图像或视频(图2)具有良好的检测效果,但很难将该方法推广到复杂的自然场景图像或视频中。
图2 Kim等人[36]的算法的文本检测示例(图像从参考文献[36]转载)。该算法是早期文本检测方法的代表性工作。它只适用于相对简单的场景
为了处理视频中的多语种文本(主要是中英文),Lyu等人[40]提出了一种从粗到精的多尺度搜索方案。该方案利用文本的强边缘和高对比度等特性来区分文本区域和非文本区域。此外,该算法还提供了一种局部自适应的二进制策略来分割检测到的文本区域。与其他方法类似,该方法涉及大量的规则和参数,因此很难处理不同质量的视频和不同类型的文本。
与传统的方法不同,Zhong等人[41]提出了一种在离散余弦变换(DCT)域中直接检测文本的有趣算法。该算法的优点在于效率高,不需要在检测前对图像进行解码。然而,这种方法的检测精度是有限的。
为了加快文本检测过程,Chen等人[8]提出了一种快速文本检测器。检测器是一个级联的Adaboost[42]分类器,其中每个弱分类器都是从一组特征中训练出来的。特征库包括平均强度、强度方差、水平差、垂直差和梯度直方图。该方法的检测效率明显高于其他算法[43-45],但对真实图像的检测精度有限。
最近,Wang等人[46]提出了一