ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection论文阅读

ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection论文阅读

  • Reference
  • 正文
    • 摘要
    • 引言
    • 提出的方法
      • 总览
      • 自适应区域提议网络
      • LOTM
      • 点重评分算法
      • 训练目标
  • 个人总结

Reference

Y. Wang, H. Xie, Z. -J. Zha, M. Xing, Z. Fu and Y. Zhang, “ContourNet: Taking a Further Step Toward Accurate Arbitrary-Shaped Scene Text Detection,” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2020, pp. 11750-11759.

正文

摘要

场景文本检测目前有两个主要挑战:
1)很多方法存在过多的假阳判断
2)场景文本存在大幅的尺度差异,网络很难学习样本。我们为进一步优化任意形状的文本检测,提出了ContourNet。
贡献:
1)提出一种尺度不敏感的自适应区域提议网络(Adaptive Region Proposal Network),它只关注预测框与GT框之间的IoU值(Intersection over Union)
2)提出一种全新的局部正交纹理感知模块(Local Orthogonal Texture-aware Module,LOTM)在两个或多个方向上对提议的特征的局部纹理信息建模,并用一组轮廓点表示文本区域。
3)考虑到强单向或弱正交激活通常由假阳性图案(如条纹)的单调纹理特性引发,我们的方法通过只输出在两个正交方向上同时具有高响应值的预测来有效抑制这些假阳性。

引言

受益于深度学习的发展,最近的方法在场景文本探测方面取得了很大的进展,同时研究从水平文本转向多方向文本方向,甚至任意形状文本。但是,由于文本的特殊属性(如颜色、纹理、尺度上的巨大差异),任意形状文本探测仍然有两个主要挑战:
1)FPs,假阳性。最近基于CNN的方法都是使用k*k的卷积核将任意方向的纹理信息联合起来建模。但是这种方法对有着与文本区域相似的纹理特征区域非常敏感,容易产生误响应。我们的方法基于两个观察:1. 有着强单向纹理特征的假阳性在其正交方向响应很弱 2. 假阳性可以通过同时在2个正交方向上响应来有效抑制。我们选取了水平与垂直方向。
ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection论文阅读_第1张图片
2)场景文本存在大幅的尺度差异。我们为进一步优化任意形状的文本检测,提出了ContourNet。

自适应区域建议网络(Adapive-RPN)首先通过自动学习文本区域上表示文本实例空间扩展的一组边界点来生成文本建议。Adaptive-RPN的训练对象由预测框和GT框之间的IoU值驱动,该IoU值不随尺度变化,因此它对场景文本的大尺度变化不敏感,能够自动考虑文本区域的形状信息,实现比传统RPN方法更精细的定位。为捕获文本区域独特的纹理特性,我们提出一个局部正交纹理感知模块(LOTM)来对两个正交方向的纹理特征建模,并用轮廓点在两个不同的热点图上表示出来。最后,通过同时考虑两个正交方向上的响应,点重评分算法可以有效地滤除强单向或弱正交激活的预测。通过这种方法,文本区域被检测出来,并用一组高质量的轮廓点来表示。

提出的方法

ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection论文阅读_第2张图片

总览

ContourNet的主要组成:

  1. 一个类似于FPN的网络生成共享特征图。
  2. Adaptive-RPN通过包围几个细化点的空间扩展来生成候选框。
  3. 通过使用Deformable RoI pooling和双线性插值获取提议特征,输入到LOTM中。
  4. LOTM分别通过水平和竖直方向的局部纹理建模,并解码成轮廓点
  5. 最后执行点重评分算法来过滤FPs。
  6. 在Box branch分支中有bounding box 回归和分类,类似与两阶段目标检测的算法,用来进一步细化包围框。

自适应区域提议网络

RPN在现有目标检测的方法中被广泛使用,它预测四维的回归向量{Δx,Δy,Δw,Δh},来细化当前的提议框Bc = {xc,yc,wc,hc}到预测的提议框Bt = {xc+wcΔxc,yc+hcΔyc,wceΔwc,hceΔhc},使用smooth-L1损失。
上述由Ln范数优化的4维表示对尺度变化非常敏感。因为当IoU>0.5就会被选为正例,但不同尺度下的正例框的Ln范数相差很大,这导致CNN很难学习大尺度变化下的样本。我们提出Adaptive-RPN,只关注IoU,这是尺度不变的度量。使用预先定义的点集合 在这里插入图片描述
(1是中心点,n-1是边界点)来代替4维向量。
在这里插入图片描述
在这里插入图片描述是预定义点的预测偏移量,用于对当前边界框方案的n个预定义点进行局部优化。接下来生成提议框:
在这里插入图片描述
与传统的只考虑矩形空间范围的RPN相比,本文提出的自适应RPN能够自动计算形状和语义上重要的局部区域,从而更好地定位文本区域。

LOTM

LOTM有两条平行分支。在上面的分支中,我们在提议特征图上滑动一个1k的卷积核去建模水平方向的纹理信息。类似的,在下面的分支使用k1卷积核,以建模垂直方向的纹理信息。k是控制感受野的超参。最后使用Sigmoid层标准化特征图到[0,1],这样文本区域可以在两个正交的方向上被检测出来,并在两张热点图上用轮廓点表示出来。
ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection论文阅读_第3张图片

点重评分算法

ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection论文阅读_第4张图片

训练目标

在这里插入图片描述
LArpncls 是ARPN的分类损失,使用交叉熵损失。
LArpnreg 是ARPN的回归损失,使用如下:
在这里插入图片描述
Hcp和Vcp分别是水平方向和竖直方向的contour point loss。为解决前景和背景不平衡问题,使用类平衡交叉熵损失:
在这里插入图片描述
yi和pi分别代表GT和预测结果。
对于 box branch中的Lboxcls 和Lboxreg 的选择方式和Faster RCNN一致。

个人总结

优点:
1)相对于同性能的其他方法,计算时间较快
2)有效删除了预测框中的假阳性部分
3)方法进一步兼顾了不同尺度的文本样例
缺点:
1)方法pipeline较长,较难训练和调参
2)LOMO的效果依赖于超参k
3)需对训练集做较多处理

你可能感兴趣的:(OCR,article,神经网络,机器学习,深度学习)