【论文解读】R-RPN

    题目:Arbitrary-Oriented Scene Text Detection via Rotation Proposals

    原文:https://arxiv.org/pdf/1703.01086.pdf

    在Faster-RCNN一文中作者提出了候选区域网络(RPN)的概念,使用RPN来生成候选区域。RPN直接作用于特征图上,而不是像selective search一样作用于原始图像。RPN提供的候选区域使用一个四元组(x,y,w,h)来表示,x和y是表示候选区域的中心点坐标,w和h表示宽和高。Faster-RCNN提供的这种方法对于现实场景中的文本区域的检测来说存在着不足,因为现实场景中文本区域通常都不是水平放置的,所以作者针对RPN进行了改进,提出了旋转候选区域网络(RRPN:Rotation Region Proposal Networks)的概念,使用RRPN来生成带倾角的候选文本区域。

【论文解读】R-RPN_第1张图片

图:基于旋转的文本检测框架

    整个检测网络从结构上来说也是分成三个部分,前端是VGG-16用来提取feature-map,中间是RRPN生成带倾角的候选区域,最后就是multi-task loss,整体结构和Faster-RCNN可以说是一样一样的。RRPN的输出也是分成并行的两路,一路用于回归,一路用于分类。

    训练阶段,一个文本区域的ground truth用一个5元组(x,y,h,w,θ)来表示,(x,y)表示边界框的几何中心的坐标。高度h表示短边的长度,宽度w表示长边的长度,而θ表示x正轴到边界框长边的角度。这种五元组的表示,有几点好处:

    1)、很容易计算两个旋转框之间的角度差; 

    2)、对于角度回归来说是一种旋转友好的表示方式; 

    3)、和传统的使用8元组(x1,y1,x2,y2,x3,y3,x4,y4)来表示旋转框相比,这种5元组的方式在训练图像发生旋转后更容易计算它的发新的ground truth。

    传统的锚点使用大小(scale)和比例(aspect ratio)两个变量,作者对传统的锚点进行了改进,以适应自然场景下的文本检测。首先,新增了方向这个变量,加入6个方向角:−π/6、0、π/6、π/3、π/2、2π/3。其次,由于文本区域的形状比较特殊,将比例调整为:1:2、1:5和1:8。大小还是8,16和32保持不变。这样一算的话,对于特征图上的每一个点将生成54个R型锚点(6种方向,3种大小,3种比例)。回归层有270(5x54)个输出值,分类层有108(2x54)个输出值。

 

【论文解读】R-RPN_第2张图片

图:锚点生成策略

 

   在开始训练之前,先定义好正负锚点的标定规则:

1)、 如果锚点对应的reference box与ground truth的IoU值最大,标记为正样本;

2) 、如果锚点对应的reference box与ground truth的IoU>0.7,标记为正样本;
3)、如果锚点对应的reference box与ground truth的夹角小于π/12,标记为正样本;
4)、IoU小于0.3,标记为负样本; 
5)、IoU大于0.7,但是夹角大于π/12,标记为负样本;  

6)、剩下的既不是正也不是负,不用于训练。

损失函数使用多任务损失函数(multi-task loss),定义如下:

【论文解读】R-RPN_第3张图片

你可能感兴趣的:(深度学习,论文)