Stereo R-CNN 3D 目标检测论文解析:

Stereo R-CNN 3D 目标检测论文解析:_第1张图片

首先 提取左右帧图像的特征,在每个刻度上连接左右特征映射,然后将连接的特征提供给立体声RPN网络,最终分别在左右ROI中使用非极大值抑制(NMS)去除冗余框,然后选择前2000进行训练,选择前300进行测试。
(注意这里RPN中是把左右GT框的联合指定为对象分类的目标。如果锚点与联合GT框之一的IOU大于0.7,则为锚点分配正标签,如果其任何联合框的IOU低于0.3,则为负标签。回归函数含有6个回归项:u,w,u1,w1,v,h。u,v,代表2D框中心的水平和垂直坐标,w,h代表框的宽和高,u1,w1代表右图中的相应项。由于左右提议是从同一个锚点生成并共享的得分,所以它们可以一个接一个的自然并联。)

本人这里有如下几个疑问:
疑问一:ROI Pooling的作用到底是什么?相比它,ROI Align的改进有哪些?
ROI Pooling 的作用是根据预选框的位置坐标在特征图中将相应区域池化为固定尺寸的特征图,以便进行后续的分类和包围框回归操作。由于预选框的位置通常是由模型回归得到的,一般来讲是浮点数,而池化后的特征图要求尺寸固定。故ROI Pooling这一操作存在两次量化的过程。

  • 将候选框边界量化为整数点坐标值。
  • 将量化后的边界区域平均分割成 k x k 个单元(bin),对每一个单元的边界进行量化。

事实上,经过上述两次量化,此时的候选框已经和最开始回归出来的位置有一定的偏差,这个偏差会影响检测或者分割的准确度。在论文里,作者把它总结为“不匹配问题(misalignment)。

ROI Align 的思路很简单:取消量化操作,使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值,从而将整个特征聚集过程转化为一个连续的操作。

  • 遍历每一个候选区域,保持浮点数边界不做量化。
  • 将候选区域分割成k x k个单元,每个单元的边界也不做量化。
  • 在每个单元中计算固定四个坐标位置,用双线性内插的方法计算出这四个位置的值,然后进行最大池化操作。

疑问二:RPN的步骤?为什么 RPN能够预测 groud truth 的位置?锚点是什么?
答案在这里
然后
1,立体框回归:经过立体声RPN之后得到相应的左右提议对,让ROI Align分别作用在左右特征图上,得到固定大小的特征图,左右ROI特征图被连接并馈送到两个连续的全连接层(每层后面跟着ReLU层)以提取语义信息。使用四个分支来预测对象类,立体边界框,尺寸和视角。
2,关键点预测:我们定义了四个三维语义关键点,表示三维边界框底部的四个角。只有一个三维语义关键点可以明显地投射到框的中间(而不是左右边缘)。我们将这个语义关键点的投影定义为每个内省关键点。

Stereo R-CNN 3D 目标检测论文解析:_第2张图片
根据Mask R-CNN中提出的关键点进行了预测。只用左特征图用于关键点预测。我们将14 * 14 RoI对齐的feature map映射到6个顺序的256-d 3 * 3卷积层,如上图所示,每个层后面都有一个ReLU层。使用2*2反卷积层将输出比例提升到28 * 28。可以注意到除了2D框外,只有键的u坐标提供额外的信息。为了简化任务,我们将6 * 28 * 28输出中的高度通道相加,得到6 * 28的预测结果。因此,RoI特征中的每一列都将被聚合,并有助于关键点预测。
最终: 利用稀疏的关键点和二维框信息求解了一个粗糙的三维边界框。

你可能感兴趣的:(Stereo R-CNN 3D 目标检测论文解析:)