【论文阅读】【3d目标检测】CIA-SSD

论文标题:CIA-SSD: Confident IoU-Aware Single-Stage Object Detector From Point Cloud

2021AAAI 香港中文大学出品
达到了不错的ap,速度也挺快的。
【论文阅读】【3d目标检测】CIA-SSD_第1张图片
老规矩,上图!
【论文阅读】【3d目标检测】CIA-SSD_第2张图片
文章框架很明了,主要是进行了三步操作:

首先是encode

利用second的框架,首先对于原始点云进行voxel化,随后ssc卷积生成dense feature map 这个dense是针对于z方向而言的。生成BEV feature map后输入到ssfa模块。

SSFA

SSFA模块分为两个group,对于spatial group,我们保持维度不变,进行卷积,使得feature的感受野变大。
对于semantic group 作者指出为了得到更高维的信息,进行一个spatial维度的降低,同时增大feature
的channel。
最后利用deconv恢复semantic group的feature维度。一支输送到spatial group将两个group的feature进行concat拼接。
另一分支则进行两个group的特征融合:
【论文阅读】【3d目标检测】CIA-SSD_第3张图片

引入了自注意力机制。

随后对于得到的feature map执行多任务

head

为了消除confidence和iou预测值两者不匹配的问题,作者提出了一个新的辅助变量: IoU-Aware Confidence
主要思想就是原来的nms依靠于confidence,而作者通过实验发现预测出来的iou是有判别力的:
【论文阅读】【3d目标检测】CIA-SSD_第4张图片
为了让预测出来iou较高的bbox能contribute更多,作者引入了一个超参数β,在这里插入图片描述
随后与class score进行相乘,用这个数来进行nms操作。
这样做的好处是:让使得iou高与低的bbox的效果得到极化。
在训练过程中 iou与class score的预测分开来训练,只有推理的时候采用f来进行nms操作。

新nms:
【论文阅读】【3d目标检测】CIA-SSD_第5张图片
主要思想就是多个bbox回归proposals。
感觉是一个通用的框架

我的思考:

快在哪?
文章前半部分仿照了second 后半部分进行2d卷积,主要的计算存在于3d卷积中,要说快在哪 我觉得是文章没有采用vfe来提取体素特征,而是直接采用平均法代表每个体素。
【论文阅读】【3d目标检测】CIA-SSD_第6张图片
这样做的坏处就是体素化后 单个体素内点的信息损失了一部分。ap会有一些损失。

好在哪?
提出了iou来监督nms,iou的预测来进行网络参数后向传播也对于网络优化有一定的作用。

总之 文章提出了一个通用的nms 以后写文章可以借鉴

你可能感兴趣的:(论文阅读,目标检测,人工智能,计算机视觉,深度学习,算法)