Abstract
场景文本检测见证了最近几年的快速发展。但是,仍然存在两个主要挑战:1)许多方法在其文本表示形式中存在误报; 2)场景文本的大尺度差异使网络很难学习样本。在本文中,我们提出了ContourNet,它可以有效地解决这两个问题,并向准确的任意形状的文本检测迈出了一步。首先,提出了一种对尺度不敏感的自适应区域候选网络(Adaptive-RPN),通过仅关注预测边界框与真实边界框之间的“交集”(IoU)值来生成文本提议。然后,一个新颖的局部正交纹理感知模块(LOTM)在两个正交方向上对候选特征的局部纹理信息进行建模,并用一组轮廓点表示文本区域。考虑到强单向或弱正交激活通常是由假阳性图案(例如条纹)的单调纹理特征引起的,因此我们的方法仅通过在两个正交方向上输出具有高响应值的预测来有效地抑制这些假阳性。这样可以更准确地描述文本区域。在三个具有挑战性的数据集(Total-Text,CTW1500和ICDAR2015)上进行的广泛实验验证了我们的方法达到了最先进的性能。可以从https://github.com/wangyuxin87/ContourNet获得代码。
Introduction
场景文本检测是一项用于检测复杂背景中的文本区域,并用边框将其标记的任务。准确的检测结果使广泛的实际应用受益,并且是端到端文本识别的基本步骤[36,5,39,24]。
受益于深度学习的发展,场景文字检测任务最近提出的方法已经取得了重大进步。同时,研究重点已从水平文本[48,14]转到多向文本[25,49]和更具挑战性的任意形状文本[34,35](例如弯曲文本)。然而,由于场景文本的特定属性,例如颜色,纹理,尺度等的大差异,在任意形状的场景文本检测中仍然存在两个挑战。第一个挑战是误报(FP) ,这在最近的研究中并未引起足够的重视[38],被认为是更精确的任意形状场景文本检测的关键瓶颈之一。最近基于CNN的方法通过使用k×k卷积核在任意方向上共同对纹理信息进行建模[46,43]。但是,此操作对某些特定情况敏感,这些情况包含与文本区域相似的纹理特征,并且倾向于对这些情况执行相同的高响应(请参见图1的顶部)。SPCNET [38]将这个问题归结为缺乏上下文信息线索和不准确的分类分数,因此提出了一种文本上下文模块来补偿全局语义特征,并且通过分割图进一步纠正了边界框。Li-uet等人[21]用四个顶点的置信度对检测结果进行重新评分,以监督边界框的紧凑性 。与这些方法不同,我们仅使用局部纹理信息来处理FP,这是一种更直接的方法,并且包含较少的计算。如图1底部所示,我们的动机主要来自以下两个观察:1)具有强单向纹理特征的FPs在其正交方向上被弱激活(例如,一些垂直条纹); 2)通过同时考虑正交方向的响应,可以有效地抑制FP。因此,沿着两个正交方向对纹理信息建模是合理的。受传统边缘检测算子(例如Sobel等)的启发,我们方法中启发性地使用水平和垂直方向。
第二个挑战是场景文本的大尺度变化。与普通对象相比,场景文本中的尺度变化要大得多,这使得基于CNN的方法难以学习样本。为了解决这个问题,MSR [43]使用了一个多尺度网络,以强大的方式表现出各种尺度的文本。 DSRN [36]将这个问题归因于多尺度文本的不一致激活,因此提出了一种双向操作来将卷积特征映射到尺度不变空间。这些方法通过多尺度特征的聚合解决了大尺度方差问题,与这些方法不同, 我们关注形状信息,并使用尺度不变度量来优化网络。
本文提出了一种新颖的文本检测器,可以有效解决这两个问题,实现准确的任意形状场景文本检测,称为ContourNet。如图2所示,在给定输入图像的情况下,自适应区域候选网络(Adaptive-RPN)首先通过自动学习文本区域上指示文本实例的空间扩展的一组边界点来生成文本候选区域。Adaptive-RPN的训练对象由预测的和真实的边界框之间的IoU值驱动,该IoU值与比例尺无关[27,49]。因此,与传统的RPN方法相比,自适应RPN对场景文本的大规模变化不敏感,并且可以自动考虑文本区域的形状信息以实现更精细的定位[26,8]。为了捕获文本轮廓区域中明显的纹理特征,我们提出了一个局部正交纹理感知模块(LOTM),以两个正交方向对提议特征的局部纹理信息进行建模,并在两个不同的热图中使用轮廓点表示文本区域,仅在特定方向上响应纹理特征。最后,点重新评分算法(Point Rescoring Algorithm)通过同时考虑两个正交方向上的响应,可以有效过滤具有强单向或弱正交激活的预测。通过这种方式,可以检测文本区域并用一组高质量的轮廓点表示。
本文的贡献有三点:
1)通过对两个正交方向上的局部纹理信息建模,提出了一种新颖的FP抑制方法,这是一种更直接的方法,与以前的方法相比,计算量更少。
2)所提出的Adaptive-RPN有效地解决大尺度差异的问题,并实现了文本区域的精细定位,可以很容易地嵌入到现有方法中。
3)在没有外部数据进行训练的情况下,该方法在Total-Text和CTW1500数据集的F度量中分别达到85.4%和83.9%,速度分别为3.8 FPS和4.5 FPS,性能远优于最近的同类方法.
2. Related Works
长期以来,场景文本检测一直是一个热门的研究主题,提出了许多方法[48,30,44,46,25,42,34,32,33]。传统上,基于连接组件(CC)和基于滑动窗口的方法已广泛用于文本定位[48,30,44]。随着深度学习成为最有前途的机器学习工具[40,17,18,47],场景文本检测近年来取得了显著进步。这些方法可以分为两类:基于回归的方法和基于分割的方法。
基于回归的方法[29,49]受到通用对象检测方法[7,19,8]的启发,通过预测锚点或像素的偏移量来定位文本框。 Lyuet等人[25]采用与SSD类似的架构,并重建具有预测角点的文本实例。 Wanget等人[35]使用递归神经网络(RNN)进行文本区域细化,并自适应预测几对点以表示任意形状的文本。与这些方法不同的是,EAST [49]和DDR [10]通过对预定义锚点进行细化来定位文本区域,EAST [49]和DDR [10]提出了一种新的方法来进行准确有效的文本检测,该方法将偏移量从边界或顶点直接回归到当前点。基于这些直接回归方法,LOMO [46]提出了一个迭代优化模块,以迭代地优化超长文本的装订框提议,然后预测中心线,文本区域和边框偏移量以重建文本实例。
基于分割的方法[23] ,34]
主要受到FCN的启发[22]。基于最新分段的方法通常使用不同的表示形式来描述文本区域,然后通过特定的后处理来重建文本实例。 PixelLink [4]通过分离属于不同文本实例的链接来预测像素之间的连接并定位文本区域。为了处理邻近的文本,Tianet等人[32]。设计一个两步聚类,以从分割图中分割出密集的文本实例。 PSENet [34]逐步以一定规模扩展内核,以分开文本实例。
我们的方法融合了基于回归的方法和基于分割的方法的优点,该方法采用两阶段体系结构,并用轮廓点表示文本区域。 得益于Adaptive-RPN和FP抑制,与以前的方法相比,我们的方法有效地处理了大规模方差问题,并提供了更准确的文本区域描述。
3. Proposed Method
所提出的方法主要由三部分组成:Adaptive-RPN, Local Orthogonal Texture-aware Module (LOTM)and Point Re-scoring Algorithm(自适应RPN,LOTM和点重新评分算法)。 在本节中,我们首先简要描述所提出方法的总体流程,然后分别详细介绍这三个部分的动机和实现。
3.1. Overall pipeline
我们的ContourNet的体系结构如图2所示。首先,构建骨干网络以生成共享特征图。受FPN [16]的启发,FPN可以为多尺度目标获得强大的语义特征,我们通过在解码层中实现横向连接来构建具有FPN类架构的骨干。接下来,我们提出了在3.2节中描述的Adaptive-RPN, 通过限制几个修正点的空间范围。LOTM的输入是通过使用可变形RoI池化[50]和双线性插值到共享特征图获得的提议特征。然后,LOTM通过分别在水平和垂直方向上对局部纹理信息进行建模,从候选特征中解码轮廓点。最后,通过同时考虑两个方向的响应,使用Point Re-scoring算法来过滤FP。 LOTM和积分重新计分算法的细节分别在第3.3节和第3.4节中介绍。 Box branch中的边界框回归和分类(文本/非文本)类似于其他两阶段方法,用于进一步细化边界框。
3.2. Adaptive Region Proposal Network
3.3. Local Orthogonal Texture-aware Module
受传统边缘检测算子(例如Sobel等)的启发,在深度学习成为最有前途的机器学习工具之前,它们已经取得了卓越的性能,我们巧妙地将传统边缘检测算子的思想整合到LOTM中,并用一组轮廓点表示文本区域。这些包含强纹理特征的点可以准确地定位具有任意形状的文本(如图5所示的矩形和不规则形状)。
如图4所示,LOTM包含两个平行的分支。在顶部分支中,我们滑动一个大小为1 x k 的卷积核,来覆盖特征图,以建模水平方向的局部纹理信息,仅关注k个范围区域中的纹理特征。这种局部运算在我们的实验中被证明是强大的,并且由于计算量小,也保持了我们方法的效率。以类似的方式,通过大小为k×1的卷积核对纹理特征的垂直方向建模来构造底部分支。通过一个超参数来控制纹理特征的感受野的大小,这在Sec.4的实验中进行了讨论。最后,在两个方向上实现两个Sigmoid层,以将热图归一化为[0,1]。通过这种方式,可以在两个正交方向上检测文本区域,并在两个不同的热图中用轮廓点表示文本区域,这两个热图中的任何一个仅在特定方向上响应纹理特征。
3.4. Point Re-scoring Algorithm
由于可以通过考虑两个正交方向上的响应值来有效地抑制假阳性预测,因此通过点重新评分算法进一步处理了来自LOTM的两个热图。 如算法1中所示,首先通过非极大抑制(NMS)处理不同热图中的点,以实现更紧凑的表示。 然后,为了抑制具有强单向或弱正交响应的预测,我们仅选择两个热图中具有不同响应的点作为候选。 最终,可以用由这些高质量轮廓点组成的多边形来表示文本区域。分别在水平和垂直方向上进行NMS操作。 我们将θ设置为0.5,以在召回率和精度之间取得更好的折衷。
3.5. Training Objective
为了学习ContourNet,损失函数表述为:4. Experiments
4.1. Datasets
ICDAR2015 [12]是ICDAR 2015 Robust Reading Competition的Challenge4中提出的数据集。 它总共包含1500个图像(1000个训练图像和500个测试图像),并在单词级别标注有标记为4个顶点的注释。与以前的仅包含水平文本的数据集不同,此基准中的文本具有任意方向。
CTW1500[45]是用于曲线文本检测的数据集。 它包含用于训练的1000张图像和用于测试的500张图像。 这些文本在文本行级别标记有14个边界点。
Total-Text[3]是一个新的具有挑战性的数据集。 与CTW1500不同,此数据集中的注释以单词级别标记。 该数据集包括水平,多向和弯曲文本。 它包含用于训练的1255张图像和用于测试的300张图像。
4.2. Implementation Details
我们使用在ImageNet进行预训练的ResNet50 [9]作为骨干网。该模型在Pytorch中实现,并使用Adam optimizer [13]在1个NVIDIA TITANX GPU上进行了训练。我们仅使用每个数据集的官方训练图像来训练我们的模型。数据扩充包括随机旋转,随机水平翻转和随机裁剪。模型总共训练了18万次迭代。学习率从2.5×1e-3开始,在进行120k和160k迭代后依次乘以0.1。我们使用0.9动量和0.0001权重衰减。在我们的训练阶段使用了多尺度训练。图片的短边设置为{400,600, 720,1000,1200},长边保持为2000。在训练过程中会忽略标有“DO NOT CARE”的模糊文本。
由于所有数据集均使用多边形注释,因此可以进行重建任意形状的文本,我们使用iScipy中的distance transf orm edt来获得两点宽的边缘。边缘上的所有点均视为轮廓点,并用于训练我们的模型。可以通过在ground-truth多边形上使用类似等式(2)中的max-min function来获得Adaptive-RPN中的标签。在训练过程中,我们使用相同的监督优化了LOTM中的两个热图。
在测试阶段,我们使用单一尺度图像作为输入,并通过官方评估协议评估我们的结果。由于不同尺度的测试图像对检测性能有很大的影响[35,20],因此我们将TotalText和CTW1500数据集中的图像缩放为720×1280,并将ICDAR 2015的分辨率固定为1200×2000。Alpha-Shape算法[ 1]用于根据轮廓点候选生成边界框。
4.3. Ablation Study
我们对CTW1500和TotalText数据集进行了一些消融研究,以验证Adaptive-RPN和LOTM的有效性。 所有模型都仅使用官方训练图像进行训练。
Adaptive-RPN:我们首先研究自适应RPN的性能与预定义点数之间的关系。 如表1所示,以9个预定义点实施的Adaptive-RPN在F值方面的改进为0.6%。 在其余的实验中,我们将预定义点数设置为9。
为了验证所提出的Adaptive-RPN的性能增益,我们在CTW1500和Total-Text上进行了一些消融实验。 LOTM已在所有模型中实现。如表2的顶部所示,Adaptive-RPN在Total-Text和CTW1500上的F度量分别提高了0.9%和0.8%。为了进一步证明在大方差尺度上检测文本的改进,我们根据这两个数据集的大小分布将结果进一步分为三部分。我们仅认为属于同一类别的对是更好的比较方法(例如,小尺寸的预测边界框与小尺寸的ground-truth边界框匹配。请注意,两种方法中被忽略的对的数量几乎相同,这对结果影响很小。)如表2的底部所示,在检测大小不一的文本时,Adaptive-RPN在F量测方面优于常规RPN。
LOTM:为了评估提出的LOTM的有效性,我们在Total-Text上进行了几次实验。首先,我们进行了几次实验以研究性能和LOTM中卷积核的大小之间的关系。如表3所示,以1×3和3×1大小实现的模型实现了最高的性能(F量度为85.4%)。当我们进一步增加感受野的大小时,性能下降。我们推断,包含更多噪声的较大感受野对性能有害,这进一步证明了局部纹理信息建模的有效性。在其余的实验中,我们将卷积核的大小设置为3。
其次,我们评估了正交建模的有效性。如表4所示,仅沿单个方向建模纹理信息是一种功能较弱的方法(F测度为85.4%对80.6%)。与在任意方向上共同建模纹理信息相比,LOTM在召回率,精度和F量度上分别获得了1.2%,1.6%和1.4%的显著改善。
4.4. Comparisons with State-of-the-Art Methods
我们将我们的方法与Total-Text,CTW1500和ICDAR2015上最新的方法进行了比较,以证明其对任意形状文本检测的有效性。
4.4.1 Evaluation on Curved Text Benchmark
我们在Total-Text上评估提出的方法,以测试其对弯曲文本的性能。
如表5所示,在Adaptive-RPN和假阳性抑制的帮助下,该方法获得了83.9的最新结果。 没有外部数据的召回率,精确度和F值分别为%,86.9%和85.4%,优于现有的最新方法(例如LOMO [46],PAN [34],PSE [33]) 同时,它也达到了令人印象深刻的速度(3.8 FPS)。尽管CRAFT [2]使用了额外的字符级注释来训练他们的模型,我们的方法仅使用原始注释进行训练比CRAFT [2]F测量高1.8 %。 此外,LOMO [46]使用外部图像训练其模型,并在多尺度上进一步测试其结果。 我们的方法仅使用官方数据进行训练,并且在单一规模上进行了测试,在F量度方面优于LOMO [46] 2.1%。 弯曲文本检测结果的可视化效果如图5(a)所示。
4.4.2 Evaluation on Long Curved Text Benchmark
为了显示我们的ContourNet在长弯曲文本上的性能,我们将其与在文本行级别注释的最新CTW1500数据集的性能进行了比较。如表6所示,该方法比其他同类方法要好得多 包括CTD + TLOC [45],MSR [43],TextSnake [23],它们专为弯曲文本而设计。尽管在LOMO [46]中对文本区域进行了细化,但在表示长文本方面却取得了令人鼓舞的结果,而我们的Contour-Net得益于自适应 -RPN,获得更高的性能(F量度为83.9%比80.8%)。 与也使用轮廓点描述文本区域的MSR [43]相比,我们的方法在recal-l和F-measure方面均具有优势,而无需外部数据进行训练,相对改进分别达到5.8%和2.4% 。 此外,该方法在此数据集上以4.5 FPS的速度运行,比最新方法要快。 长弯曲文本检测结果的可视化效果如图5(b)所示。
4.4.3 Evaluation on Multi-oriented Text Benchmark
我们在ICDAR 2015上评估了我们的方法,以测试其在多方位文本中的性能。 RoIAlign [8]用于在该数据集上生成投标特征。表7中显示了一些实验结果。 我们的方法在F测度上达到86.9%,仅比Wanget等人低[35]。 (F测度为87.6%)。 但是,他们在其骨干网中实现了挤压和激励(SE)块[11],这对于重新校准通道方式的特征响应而言更为强大。 当不使用SE块实现时,他们的方法在F度量中达到86.8%,低于我们的方法。 多方向文本检测结果的可视化如图5(c)所示。
4.5. Effectiveness of ContourNet
我们在以下两个方面进一步证明了我们方法的有效性。 补充部分中显示了有关此部分的更多讨论。
Adaptive-RPN的有效性。由于场景文本检测中存在大规模方差问题,因此常规RPN在回归距离较大或目标框与默认框的比例具有较大差异时会获得文本区域的粗略定位。受益于对形状信息和尺度不变训练对象的了解,提出的Adaptive-RPN在这些情况下表现更好,并实现了文本区域的更好定位。补充材料说明了常规RPN和本文提出的Adaptive-RPN的一些定性例子。
假阳性抑制的有效性。
1)量化。点重新计分算法中的θ值会影响被抑制的FP与造成假阴性(FN)的比率。当θ从0.1到0.9时,比率值相当大(详细图表显示在补充表中)。因此,我们的方法在抑制FP方面比导致FN更为有效。
2)定性分析。虽然引起FN的情况很少,但值得一提的是,在正交方向上都具有强纹理信息的正点能够准确表示文本(参见图1)。
3)采用常规RPN,我们的方法在Total-Text和CTW1500的F-measure方面可以达到84.5%和83.1%,超过了表5和表6中的大多数方法。虽然很难验证哪种表示形式更适合于任意形状的文本检测(例如,区域预测[35,34],轮廓点[43],自适应点[35]等),但FP问题是统一的挑战。每种方法都很难做到。在这方面,我们的方法比以前的方法有了很大的改进。
5. Conclusion
在本文中,我们提出了一种新颖的场景文本检测方法(ContourNet)来处理文本表示中的误报和大尺度方差问题。 Con-tourNet主要由Adaptive-RPN,LOTM和Point Re-scoring算法三部分组成。 Adaptive-RPN通过限制几个语义点的空间扩展来定位文本的初步建议。 LOTM在两个正交方向上对局部纹理信息进行建模,并用轮廓点表示文本区域。点重新评分算法通过同时考虑两个正交方向上的响应值来过滤FP。 我们的方法的有效性已在多个公共基准上得到了证明,包括长的,弯曲的和多方向的文本案例。 在以后的工作中,我们倾向于开发端到端的文本阅读系统。
Acknowledgments
This work is supported by the National Key Researchand Development Program of China (2017YFC0820600),the National Nature Science Foundation of China(61525206, U1936210), the Youth Innovation PromotionAssociation Chinese Academy of Sciences (2017209), theFundamental Research Funds for the Central Universitiesunder Grant WK2100100030.