目标检测之模型篇(2)【RRPN】

文章目录

  • 1. 前言
  • 2. 实现
    • 2.1 关键idea
    • 2.2 模型结构
    • 2.3 具体细节
      • 1.Rotated Bounding Box Representation-旋转矩形框的表示
      • 2.Rotation Anchors-旋转角度
      • 3.Learning of Rotated Proposal-旋转矩形候选框的学习
      • 4.Accurate Proposal Refinement Skew-准确候选框的修正
      • 5.RRoI Pooling Layer-旋转感兴趣区域池化层
  • 3. 结果
  • 4. 总结
  • 5. 参考资料

1. 前言

本周的第二篇模型文章,RRPN也是基于Faster R-CNN,引入RPN,它对比CTPN加入了旋转信息。CTPN只能检测水平文本,而RRPN可以检测任意方向的文本,因为CTPN的提议框是水平的,而RRPN的提议框带有旋转角度。为什么提出旋转的提议框呢?因为水平提议框在检测倾斜文本的时候会带有一些冗余(非文本部分)。对比图如下,左:原图;中:水平提议框;右:旋转提议框
目标检测之模型篇(2)【RRPN】_第1张图片

2. 实现

2.1 关键idea

  • 基于区域提议的方法预测文本行的方向;因此,该方案能够更好地适应文本区域,使范围文本区域易于纠正,便于文本阅读。新的组件,如RRoI池层和旋转方案的学习,被合并到基于区域提议的体系结构中,这确保了文本检测与基于分段的文本检测系统相比的计算效率。
  • 提出了优化区域建议的新策略,并以任意的方向来改进任意性文本检测的性能。
  • 在三个数据集(MSRA-TD500, ICDAR2013,ICDAR2015)进行了测试,本文的方法更为准确有效。

2.2 模型结构

目标检测之模型篇(2)【RRPN】_第2张图片
仍然是用VGG16作为特征提取主干网络,中间采用RRPN生成旋转提议框,输出提议框的类别回归;而后经过RRoI(旋转感兴趣区域)池化层将候选框映射到feature map上,前往分类器,最终得到结果。

2.3 具体细节

1.Rotated Bounding Box Representation-旋转矩形框的表示

5个参数,(x,y,h,w,θ)。x,y是矩形中心点坐标,h,w是矩形宽和高,θ是矩形框长边相对x轴正轴的旋转角。
目标检测之模型篇(2)【RRPN】_第3张图片
T是矩阵平移,R是矩阵旋转。
目标检测之模型篇(2)【RRPN】_第4张图片
围绕距镇中心一顿操作后的中心锚点坐标如上图公式。

2.Rotation Anchors-旋转角度

目标检测之模型篇(2)【RRPN】_第5张图片
本文提出的锚点R-anchor有三类策略:

  • scale 有8,16,32三种,表示文本行的大小
  • ratio 有1:2,1:5,1:8三种,表示文本行的宽高比
  • angle 有 − π 6 , 0 , π 6 , π 3 , π 2 , 2 π 3 -\frac{\pi}{6},0,\frac{\pi}{6},\frac{\pi}{3},\frac{\pi}{2},\frac{2\pi}{3} 6π,0,6π,3π,2π,32π六种,表示提议框的旋转角
    综合以上三类策略,特征图上每个点会生成3x3x6=54个R锚。

3.Learning of Rotated Proposal-旋转矩形候选框的学习

  • 正样本:

1.其与ground truth的IOU最高的或者大于0.7
2.其与ground truth的夹角小于 π 12 \frac{\pi}{12} 12π

  • 负样本:

1.其与ground truth的IOU小于0.3
2.其与ground truth的IOU大于0.7,但其与ground truth的夹角大于 π 12 \frac{\pi}{12} 12π

  • loss:
    1.提议的多任务损失函数:

目标检测之模型篇(2)【RRPN】_第6张图片
2.包围盒的损失函数:
目标检测之模型篇(2)【RRPN】_第7张图片

4.Accurate Proposal Refinement Skew-准确候选框的修正

  • 倾斜IoU的计算
    算法:
    目标检测之模型篇(2)【RRPN】_第8张图片
    总体思路:将两个矩形的交点进行顺时针排序并连成多边形,然后分割成一个个小三角形计算总面积。以下图(b)举例子,多边形顺序AIJCKL,分割成三角形AIJ,AJC,ACK,AKL,计算这四个三角形的和。
    目标检测之模型篇(2)【RRPN】_第9张图片
    IoU是交集/并集,如下图所示:
    目标检测之模型篇(2)【RRPN】_第10张图片
  • 倾斜NMS
    1.保留IoU大于0.7的最大候选框
    2.如果所有候选框的IoU范围在[0.3,0.7]内,保留与ground truth最小角度差的候选框(角度小于 π 12 \frac{\pi}{12} 12π )

5.RRoI Pooling Layer-旋转感兴趣区域池化层

假设RROI层的超参数为 H r H_r Hr W r W_r Wr,对于高度为h和宽度为w的旋转候选区域平均划分成 h H r × w W r \frac{h}{H_r}\times{\frac{w}{W_r}} Hrh×Wrw个子块,每个子区域和候选框的方向相同。
具体算法:
目标检测之模型篇(2)【RRPN】_第11张图片
目标检测之模型篇(2)【RRPN】_第12张图片
(a)将任意方向的提案划分为子区域;
(b)将单一区域从倾斜建议最大限度地汇集到RRoI内的某一点。

3. 结果

  • 数据增强效率:
    在这里插入图片描述
  • 图像处理速度:由于引入R锚策略,每张图像的提议是之前工作(如Faster R-CNN)的6倍。RRPN的处理速度是Faster R-CNN的两倍。
    在这里插入图片描述
  • 在三个数据集上与state-of-art对比
    目标检测之模型篇(2)【RRPN】_第13张图片

4. 总结

RRPN提出旋转提议框,相比CTPN可以接受任意方向的文本。

5. 参考资料

1.《Arbitrary-Oriented Scene Text Detection via Rotation Proposals
Jianqi》
2.https://zhuanlan.zhihu.com/p/39717302
3.IoU的解释

你可能感兴趣的:(目标检测,深度学习,模型)