EAST:一种高效准确的场景文本检测器

摘要

先前的场景文本检测方法已经在各种基准测试中取得了令人满意的性能。然而,在处理具有挑战性的场景时,即使配备了深度神经网络模型通常也会失败,因为整体性能取决于流水线中多个阶段和组件的相互作用。在这项工作中,我们提出了一种简单而强大的流水线,可以在自然场景中快速准确地进行文本检测。pipeline直接预测全图像中任意方向和四边形形状的单词或文本行,消除了不必要的中间步骤(例如候选聚合和单词分割),使用单个神经网络。我们pipeline的简单性使我们能够集中精力设计损失函数和神经网络架构。在包括ICDAR 2015、COCO Text和MSRA-TD500在内的标准数据集上的实验表明,所提出的算法在准确性和效率方面显著优于最先进的方法。在ICDAR 2015数据集上,所提出的算法在13.2fps和720p分辨率下获得了0.7820的F-score。

1. introduction

最近,提取和理解自然场景中体现的文本信息变得越来越重要和流行,ICDAR系列比赛的参与者人数空前之多以及NIST推出的TRAIT 2016评估证明了这一点。

文本检测作为后续过程的先决条件,在文本信息提取和理解的整个过程中起着至关重要的作用。先前的文本检测方法已经在该领域的各种基准上获得了有希望的性能。文本检测的核心是设计用于区分文本和背景的特征。传统上,特征是手动设计的以捕捉场景文本的属性,而在基于深度学习的方法中,有效的特征是直接从训练数据中学习的。

然而,现有的方法,无论是传统的还是基于深度神经网络的,大多由几个阶段和组件组成,这些阶段和组件可能是次优的,并且耗时。因此,这些方法的准确性和效率仍远不能令人满意。

在本文中,我们提出了一种只有两个阶段的快速、准确的场景文本检测流水线。该流水线使用完全卷积网络(FCN)模型,该模型直接产生单词或文本行级别的预测,排除冗余和缓慢的中间步骤。生成的文本预测(可以是旋转矩形或四边形)被发送到非最大抑制以产生最终结果。根据对标准基准的定性和定量实验,与现有方法相比,所提出的算法实现了显著提高的性能,同时运行速度更快。

具体而言,所提出的算法在ICDAR 2015上的F-score为0.7820(在多尺度测试时为0.8072),在MSRA-TD500上为0.7608,在COCO文本上为0.3945,在性能上优于先前的最先进算法,同时平均花费的时间要少得多(对于我们性能最好的模型,Titan-X GPU在720p分辨率下为13.2fps,对于我们最快的模型,为16.8fps)。

这项工作的贡献有三个方面:

  • 我们提出了一种场景文本检测方法,该方法包括两个阶段:完全卷积网络和NMS合并阶段。FCN直接生成文本区域,不包括冗余和耗时的中间步骤。
  • 该流水线可以灵活地生成单词级或行级预测,其几何形状可以是旋转的长方体或四边形,具体取决于特定的应用。
  • 所提出的算法在精度和速度上都显著优于最先进的方法。

2. 相关工作

长期以来,场景文本检测和识别一直是计算机视觉领域的活跃研究课题。已经研究了许多鼓舞人心的想法和有效的方法。在调查文件中可以找到全面的审查和详细的分析。本节将重点介绍与所提出算法最相关的工作。

传统方法依赖于手动设计的特征。基于笔划宽度变换(SWT)和最大稳定极值区域(MSER)的方法通常通过边缘检测或极值区域提取来寻找字符候选。Zhang等人利用了文本的局部对称性,设计了用于文本区域检测的各种特征。FASText是一种快速文本检测系统,它采用并修改了众所周知的fast关键点检测器,用于笔划提取。然而,这些方法在准确性和适应性方面都落后于基于深度神经网络的方法,尤其是在处理具有挑战性的场景时,如低分辨率和几何失真。

最近,场景文本检测领域进入了一个新时代,基于深度神经网络的算法逐渐成为主流。Huang等人首先使用MSER找到候选,然后使用深度卷积网络作为强分类器来修剪假阳性。Jaderberg等人的方法以滑动窗口方式扫描图像,并使用卷积神经网络模型为每个尺度生成密集热图。后来,Jaderberg等人使用了CNN和ACF来搜索候选词,并使用回归进一步细化它们。Tian等人开发了垂直锚,并构建了一个用于检测水平文本线的CNN-RNN联合模型。与这些方法不同,Zhang等人提出使用FCN生成热图,并使用分量投影进行方向估计。这些方法在标准基准上获得了优异的性能。然而,如图2(a-d)所示,它们主要由多个阶段和组件组成,例如通过后过滤去除假阳性、候选聚合、行形成和单词分割。大量的阶段和组件可能需要进行彻底的调整,从而导致次优性能,并增加整个流水线的处理时间。

EAST:一种高效准确的场景文本检测器_第1张图片 图2:最近几项场景文本检测工作的流水线比较:(a)Jaderberg等人提出的水平单词检测和识别流水线;(b)Zhang等人提出的多向文本检测流水线;(c)Yao等人提出的多向文本检测流水线;(d)Tian等人提出的使用CTPN的水平文本检测;(e)我们的流水线消除了大多数中间步骤,只包含两个阶段,比以前的解决方案简单得多。

在本文中,我们设计了一个基于深度FCN的管道,该管道直接针对文本检测的最终目标:单词或文本行级检测。如图2(e)所示,该模型放弃了不必要的中间组件和步骤,并允许端到端的训练和优化。最终的系统配备了一个单一的、轻量级的神经网络,在性能和速度上都明显超过了所有以前的方法。

3. 方法

算法的关键组成部分是神经网络模型,该模型被训练为直接从完整图像中预测文本实例及其几何结构的存在。该模型是一种适用于文本检测的完全卷积神经网络,输出单词或文本行的密集每像素预测。这消除了诸如候选提议、文本区域形成和单词分割等中间步骤。后处理步骤仅包括对预测几何形状的阈值和NMS。该检测器被命名为EAST,是一种高效和准确的场景文本检测流水线。

3.1 流水线

图2(e)显示了我们流水线的高级概述。该算法遵循DenseBox的一般设计,其中图像被送入FCN,并生成多个通道的像素级文本分数图和几何图形。预测通道之一是其像素值在[0,1]范围内的得分图。其余通道表示从每个像素的视图中包围单词的几何图形。该分数表示在相同位置预测的几何形状的置信度。我们已经对文本区域的两种几何图形进行了实验,旋转框(RBOX)和四边形(QUAD),并为每个几何图形设计了不同的损失函数。然后将阈值应用于每个预测区域,其中分数超过预定义阈值的几何体被视为有效,并保存以供以后的非极大值抑制。NMS后的结果被视为流水线的最终输出。

3.2 网络设计

在设计用于文本检测的神经网络时,必须考虑几个因素。如图5所示,由于单词区域的大小差异巨大,因此确定大型单词的存在将需要神经网络后期的特征,而预测包围小型单词区域的精确几何结构需要早期的低级信息。因此,网络必须使用不同级别的功能来满足这些要求。HyperNet在特征地图上满足这些条件,但在大型特征地图上合并大量通道将显著增加后期的计算开销。

EAST:一种高效准确的场景文本检测器_第2张图片 图5:所提出算法的定性结果。(a) ICDAR 2015.(b)MSRA-TD500.(c)COCO-Text.

为了弥补这一点,我们采用了U形的思想来逐步合并特征图,同时保持上采样分支较小。我们最终形成了一个既能利用不同级别的功能又能保持较小计算成本的网络。

我们的模型的示意图如图3所示。该模型可以分解为三个部分:特征提取器主干、特征合并分支和输出层。

EAST:一种高效准确的场景文本检测器_第3张图片 图3:文本检测FCN的结构

主干可以是在ImageNet数据集上预训练的卷积网络,具有交织卷积和池化层。从主干中提取四个级别的特征图,表示为f_{i},其大小分别为输入图像的1/32,1/16,1/8,1/4。图3描述了PVANet。在我们的实验中,我们还采用了众所周知的VGG16模型,提取了池-2到池-5之后的特征图。

在特征合并分支中,我们逐步合并它们。

每个卷积的输出信道数如图3所示。我们保持分支中卷积的信道数较小,这只增加了主干上的一小部分计算开销,使网络计算效率较高。最终输出层包含多个conv1×1操作,将32个通道的特征图投影到1个通道的分数图F_{s}和一个多通道的几何图F_{g}中。几何输出可以是RBOX或QUAD之一,总结见表1。

EAST:一种高效准确的场景文本检测器_第4张图片 表1:输出几何设计

对于RBOX,几何结构由4个通道的轴对齐边界框(AABB)R和1个通道旋转角度θ表示。R的公式与[9]中的公式相同,其中4个通道分别表示从像素位置到矩形的上、右、下、左边界的4个距离。

对于QUAD Q,我们使用8个数字来表示从四个角顶点的坐标偏移到像素位置。因为每个距离偏移包含两个数字(∆xi,∆yi),几何输出包含8个通道。

3.3 标签生成

3.3.1 四边形得分图生成

不失一般性,我们只考虑几何体是四边形的情况。分数图上四边形的正面积设计为原始面积的缩小版,如图4(a)所示。

EAST:一种高效准确的场景文本检测器_第5张图片 图4:标签生成过程:(a)文本四边形(黄色虚线)和收缩四边形(绿色实线);(b) 文本评分图;(c) RBOX几何图生成;(d) 每个像素到矩形边界的距离的4个通道;(e) 旋转角度。

对于一个四边形Q={p_{i}|i\in{1,2,3,4}},其中p_{i}=(x_{i},y_{i})是四边形上按顺时针顺序排列的顶点。为了缩小Q,我们首先为每个顶点p_{i}计算参考长度r_{i}r_{i}=min(D(p_{i},p_{(i mod 4)+1}),D(p_{i},p_{((i+3)mod 4)+1})),其中D()表示两个点之间的L2距离。

我们首先收缩四边形的两条较长的边,然后收缩两条较短的边。对于每对相对的两条边,我们通过比较其长度的平均值来确定“较长”的边对。对于每个边缘<p_{i},p_{(i mod 4)+1}>,我们通过分别沿边缘向内移动其两个端点0.3r_{i}和0.3r_{(i mod 4)+1}来收缩它。

3.3.2 几何图生成

如第3.2节所述,几何图是RBOX或QUAD之一。RBOX的生成过程如图4(c-e)所示。对于那些文本区域以QUAD样式注释的数据集(例如,ICDAR 2015),我们首先生成一个旋转矩形,该矩形以最小面积覆盖该区域。然后,对于每个得分为正的像素,我们计算其到文本框的4个边界的距离,并将它们放到RBOX的ground truth的4个通道中。对于QUADground truth,8通道几何图中得分为正的每个像素的值是其从四边形的4个顶点的坐标偏移。

3.4 损失函数

损失函数可以表示为:L=L_{s}+\lambda _{g}L_{g}L_{s}L_{g}分别表示得分图的损失和几何图形的损失。在本实验中,\lambda _{g}为1.

3.4.1 得分图的损失

在大多数最先进的检测流水线中,训练图像通过平衡采样和硬负挖掘进行仔细处理,以处理目标对象的不平衡分布,这样做可能会提高网络性能。然而,使用这种技术不可避免地引入了一个不可微的阶段,需要调整的参数和更复杂的流水线,这与我们的设计原则相矛盾。

为了简化训练过程,我们引入[38]中的类平衡交叉熵:L_{s}=balanced-xcent(\hat{Y},Y^{*})--\beta Y^{*}log\hat{Y}-(1-\beta )(1-Y^{*})log(1-\hat{Y}),其中\hat{Y}=F_{s}是分数图的预测,Y^{*}是ground truth。参数\beta是正样本和负样本之间的平衡因子:\beta =1-\frac{\sum _{y^{*}\in Y^{*}}y^{*}}{|Y^{*}|}。Yao等人首次在文本检测中采用这种平衡交叉熵损失作为分数图预测的目标函数。我们发现它在实践中很有效。

3.4.2 几何损失

文本检测的一个挑战是自然场景图像中文本的大小变化很大。直接使用L1或L2损失进行回归将引导损失偏向更大和更长的文本区域。由于我们需要为大小文本区域生成精确的文本几何预测,因此回归损失应该是尺度不变的。因此,我们采用RBOX回归的AABB部分中的IoU损失,以及QUAD回归的尺度归一化平滑L1损失。

RBOX 对于AABB部分,我们采用了[46]中的IoU损失,因为它对不同尺度的对象是不变的。L_{AABB}=-log IoU(\hat{R},R^{*})=-log\frac{|\hat{R}\bigcap R^{*}|}{|\hat{R}\bigcup R^{*}|},其中\hat{R}是预测的AABB结构,R^{*}是相关的ground truth。

偏移角度损失使用余弦loss:L_{\theta }(\hat{\theta },\theta ^{*})=1-cos(\hat{\theta }-\theta ^{*})

L_{g}=L_{AABB}+\lambda _{\theta }L_{\theta },文中\lambda _{\theta }被设为20.

QUAD 我们通过添加为单词四边形设计的额外归一化项来扩展[6]中提出的平滑L1损失,该词四边形通常在一个方向上更长。设Q的所有坐标值都是有序集{x1,y1,x2,y2,x3,y3,x4,y4},则损失函数可以被写为:

EAST:一种高效准确的场景文本检测器_第6张图片

 3.5 训练

使用ADAM优化器对网络进行端到端训练。为了加快学习速度,我们从图像中统一采样512x512个裁剪,以形成大小为24的小批量。ADAM的学习速度从0.001开始,每27300个小批量衰减到十分之一,并在0.00001停止。网络经过训练,直到性能停止改善。

3.6 位置感知NMS

为了形成最终结果,阈值处理后幸存的几何图形应该由NMS合并。一个简单的NMS算法在O(n^{2})中运行,其中n是候选几何体的数量,这是不可接受的,因为我们面临来自密集预测的数以万计的几何体。

在假设附近像素的几何图形往往高度相关的情况下,我们建议逐行合并几何图形,在合并同一行中的几何图形时,我们将迭代合并当前遇到的几何图形与最后一个合并的几何图形。这种改进的技术在最佳情况下以O(n)运行。即使它是最坏情况,但只要局部性假设成立,算法在实践中运行得足够快。算法1总结了该过程。

EAST:一种高效准确的场景文本检测器_第7张图片

值得一提的是,在WEIGHTEDMERGE(g,p)中,合并四边形的坐标由两个给定四边形的分数加权平均。具体来说,如果a=WEIGHTEDMERGE(g,p),那么ai=V(g)gi+V(p)pi,V(a)=V(g)+V(p),其中ai是下标i的坐标之一,V(b)是几何a的分数,这进而在馈送视频时引入稳定效果。尽管如此,我们仍然采用“NMS”一词作为功能描述。 

4. 实验

为了将所提出的算法与现有方法进行比较,我们在三个公共基准上进行了定性和定量实验:ICDAR2015、COCO Text和MSRA-TD500。

4.1 基准数据集

ICDAR 2015被用于2015年ICDAR稳健阅读比赛的挑战4。它包括总共1500张图片,其中1000张用于训练,其余的用于测试。文本区域由四边形的4个顶点注释,对应于本文中的QUAD几何体。我们还通过拟合具有最小面积的旋转矩形来生成RBOX输出。这些图像是谷歌眼镜偶然拍摄的。因此,场景中的文本可能处于任意方向,或受到运动模糊和低分辨率的影响。我们还使用了ICDAR 2013的229张训练图像。

COCO-Text是迄今为止最大的文本检测数据集。它重用MS-COCO数据集的图像。总共有63686幅图像被注释,其中43686幅被选择为训练集,其余20000幅被测试。单词区域以轴对齐边界框(AABB)的形式进行注释,这是RBOX的一种特殊情况。对于这个数据集,我们将角度θ设置为零。我们使用与ICDAR 2015相同的数据处理和测试方法。

MSRA-TD500是由300张训练图像和200张测试图像组成的数据集。文本区域具有任意方向,并在句子级别进行注释。与其他数据集不同,它包含中英文文本。文本区域以RBOX格式注释。由于训练图像的数量太少,无法学习深度模型,我们还利用HUSTTR400数据集中的400幅图像作为训练数据。

4.2 基本网络

除COCO-Text外,与一般对象检测数据集相比,所有文本检测数据集都相对较小,因此,如果对所有基准采用单一网络,则可能存在过度拟合或欠拟合问题。我们在所有数据集上使用三种不同的基础网络(具有不同的输出几何结构)进行了实验,以评估所提出的框架。表2总结了这些网络。

EAST:一种高效准确的场景文本检测器_第8张图片 表2:基本模型

 

VGG16被广泛用作许多任务的基础网络,以支持后续任务特定的微调,包括文本检测。这种网络有两个缺点:(1)这个网络的接受域很小。conv53输出中的每个像素仅具有196的感受野 (2). 这是一个相当大的网络。

PVANET是[17]中引入的一种轻量级网络,旨在替代Faster RCNN框架中的特征提取器。由于GPU太小,无法充分利用计算并行性,我们还采用了PVANET2x,它将原始PVANET的通道加倍,在运行速度略慢于PVANET时利用了更多的计算并行性。第4.5节详细介绍了这一点。最后一个卷积层输出的感受野为809,比VGG16大得多。

模型在ImageNet数据集上进行了预训练。

4.3 定性结果

图5描述了所提出算法的几个检测示例。它能够处理各种具有挑战性的场景,例如非均匀照明、低分辨率、变化的方向和透视失真。此外,由于NMS过程中的投票机制,所提出的方法在具有各种形式文本实例的视频上显示出高水平的稳定性。

所提出方法的中间结果如图6所示。可以看出,经过训练的模型生成了高度精确的几何图和分数图,其中容易形成对不同方向的文本实例的检测。

EAST:一种高效准确的场景文本检测器_第9张图片 图6:提出算法的中间结果。(a) d1和d4的估计几何图形图。(b)d2和d3的估计几何图。(c)文本实例的估计角度图。(d) 文本实例的预测旋转矩形。对(a)、(b)和(c)中的映射进行颜色编码,以像素方式表示方差(针对d1、d2、d3和d4)和不变性(针对角度)。请注意,在几何体贴图中,只有前景像素的值有效。

 4.4 定量结果

如表3和表4所示,我们的方法在ICDAR 2015和COCO文本上大大优于以前的最先进方法。

EAST:一种高效准确的场景文本检测器_第10张图片 表3:ICDAR 2015挑战4附带场景文本本地化任务的结果。MS意味着多尺度测试。

 

EAST:一种高效准确的场景文本检测器_第11张图片 表4:COCO-Text的结果。

在ICDAR 2015挑战4中,当图像以其原始比例馈送时,所提出的方法获得了0.7820的F-score。当使用同一网络在多个比例进行测试时,我们的方法的F分数达到0.8072,就绝对值而言,这比最佳方法高出近0.16(0.8072 vs.0.6477)。

比较使用VGG16网络的结果,当使用QUAD输出时,所提出的方法也优于最好的先前工作0.0924,当使用RBOX输出时,优于0.116。同时,这些网络非常有效,如第4.5节所示。

在COCO-Text中,所提出的算法的所有三种设置都比之前的顶级性能更高。具体而言,考虑到COCO-Text是迄今为止最大且最具挑战性的基准,F-score的改善为0.0614,而召回率的改善为0.053,这证实了所提出算法的优势。注意,我们还将来自的结果作为参考,但这些结果实际上不是有效的基线,因为方法(A、B和C)用于数据注释。

与先前方法相比,所提出的算法的改进证明,一个简单的文本检测流水线(直接针对最终目标并消除冗余过程)可以击败复杂的流水线,甚至是与大型神经网络模型集成的流水线。

如表5所示,在MSRA-TD500上,我们方法的所有三种设置都获得了优异的结果。最佳表现者(Ours+PVAET2x)的F-score略高于[41]。与Zhang等人的方法相比,(先前发布的最先进系统),表现最好的(Ours+PVAET2x)的F-score提高了0.0208,精度提高了0.0428。

EAST:一种高效准确的场景文本检测器_第12张图片 表5:MSRA-TD500上的结果

 注意,在MSRA-TD500上,我们配备VGG16的算法的性能比PVANET和PVANET2x差得多(0.7023 vs.0.7445和0.7608),主要原因是VGG16有效感受野小于PVANET或PVANET2x,而MSRA-TB500的评估协议要求文本检测算法输出行级而不是单词级预测。

此外,我们还根据ICDAR 2013基准评估了Ours+PVANET2x。它在召回、准确度和F-score方面达到了0.8267、0.9264和0.8737,这与先前最先进的方法相当,前者分别在召回、精度和F-score上获得了0.8298、0.9298和0.8769。

4.5 速度比较

表6显示了总体速度比较。我们报告的数字是使用我们性能最好的网络,以原始分辨率(1280x720)运行ICDAR 2015数据集的500张测试图像的平均值。这些实验是在服务器上进行的,该服务器使用具有Maxwell架构的单个NVIDIA Titan X图形卡和Intel E5-2670 [email protected] CPU。对于所提出的方法,后处理包括阈值和NMS,而其他方法应参考其原始论文。

EAST:一种高效准确的场景文本检测器_第13张图片 表6:比较不同方法的总时间消耗。T1是网络预测时间,T2是用于后处理的时间。对于Tian等人,ss-600表示短边为600,130ms包括两个网络。请注意,他们在ICDAR 2015上取得了最好的成绩,使用了2000的短边,这比我们的大得多。对于Zhang等人,MS意味着他们使用了200、500和1000三个尺度,结果是在MSRA-TD500上获得的。对于PVANET、PVANET2x和VGG16,我们三个模型的每像素理论延迟分别为18KOps、44.4KOps和331.6KOps。

虽然所提出的方法显著优于最先进的方法,但由于简单高效的流水线,计算成本保持非常低。从表6中可以看出,我们方法的最快设置以16.8 FPS的速度运行,而最慢设置以6.52 FPS运行。即使是性能最好的型号Ours+PVAET2x也以13.2 FPS的速度运行。这证实了我们的方法是在基准测试上实现最先进性能的最有效的文本检测器之一。

4.6 局限性

检测器可以处理的文本实例的最大大小与网络的感受野成比例。这限制了网络预测甚至更长文本区域的能力,例如图像上的文本线。

此外,该算法可能会错过或给出垂直文本实例的不精确预测,因为它们只占ICDAR 2015训练集中文本区域的一小部分。

5. 结论和未来工作

我们提出了一种场景文本检测器,它通过单个神经网络从完整图像中直接生成单词或行级预测。通过结合适当的损失函数,检测器可以根据具体应用预测文本区域的旋转矩形或四边形。在标准基准测试上的实验证实,所提出的算法在准确性和效率方面显著优于先前的方法。

未来研究的可能方向包括:(1)调整几何公式以允许直接检测弯曲文本;(2) 将检测器与文本识别器集成;(3) 将该思想扩展到一般对象检测。

 

 

你可能感兴趣的:(人工智能,自然语言处理)