AdaMixer--真正的降维打击!!

文章目录

  • 一:2D检测模型的一些问题
  • 二:AdaMixer核心创新点
  • 三:具体实现细节
      • adaptive 3D feature sampler
      • ACSM
      • 总体框图
  • 四:总结

一:2D检测模型的一些问题

检测模型可以分为三大类Dense ModelDense-To-Sparse ModelSparse Model

Dense Model的代表作就是YOLO了,对应的缺点也很明显,anchor的超参数设定、训练样本的选择、预测结果的postprocess操作等。传统的DETR也是其中的一种,收敛慢,小物体检测精度差,不过鉴于trans在检测领域上的开山之作,也是能理解的。

Dense-To-Sparse Model代表作就是faster rcnn等,缺点是速度慢、收敛慢,优点就是精度高,毕竟是two-stage。

Sparse Model的代表作就是Sparse RCNN、Deformable DETR了,对于Sparse RCNN而言anchor框的大小和feature是自己学习得到的,并且通过interactive head进行融合,效果也是很不错的。Deformable DETR通过设定每个query在多个feature map上采样m个key,来大大缩短收敛时间,但是依然有如下几个缺点

  • 采样点的选取还是不太adaptive,限制在了每个feature map的二维平面上,而且每个平面上固定选取了m个点。固定数量的query在decoder时处理不同尺度、不同物体数量的图片而言,采样点的适应性显然不行。
  • 对采样点特征的content decoderng处理过于简单,只是一个简单的Linear transformation。没有给queries提供充分的semantic adaptability。

二:AdaMixer核心创新点

  • 使用了adaptive 3D feature sampler,升维度解决了采样点的适应性问题
  • 使用了adaptive channel mixing和adaptive space mixing,即ACM和ASM,从两个维度充分利用了采样点特征

三:具体实现细节

adaptive 3D feature sampler

AdaMixer--真正的降维打击!!_第1张图片

  • 首先将C2~C5的feature maps投射到3D feature space上,利用如下公式计算每层的 z j z_j zj(其中的 S b a s e S_{base} Sbase=4,也就是C2的缩放倍数),同时将每个特征图的长宽rescale成 W / S b a s e W/S_{base} W/Sbase H / S b a s e H/S_{base} H/Sbase,对齐 x − x- x y − a x i s y-axis yaxis

在这里插入图片描述

  • 构造好了3D特征空间,queries也仿照了conditional Detr中的解耦思想,q_content和posotional vector。重点来了,posotional vector不是(x, y, w, h),而是利用下面公式转化为了(x, y, z, r),分别代表中心坐标,bounding box面积的log,bounding box的长宽比的log。这样就将posotional vector转换到了3D坐标系中,方便后面的采样:

在这里插入图片描述

  • 根据q_content,生成x, y, z的offsets,加到原先的坐标上作为最终采样点坐标,利用公式如下:

AdaMixer--真正的降维打击!!_第2张图片

  • 现在每一个query都在3D feature space中找到了 P i n P_{in} Pin个采样点坐标了,那么就差特征融合了。根据(x, y)做线性插值,可以在四个特征面上各得到一个特征向量,最后利用z坐标计算采样点离每个特征面的距离远近,softmax后作为每个特征向量的权重,最后相加作为采样点的特征。利用的公式如下 :

在这里插入图片描述

  • 每个query得到了 P i n P_{in} Pin个采样点特征,难免有点少。作者利用了grouping mechanism,类似multi-heads,设立num_groups个3D feature space,channel是feature_dim/num_groups,彼此独立采样。最终得到的采样结果是num_groups组(num_queries* P i n P_{in} Pin, feature_dim/num_groups)

ACSM

AdaMixer--真正的降维打击!!_第3张图片AdaMixer--真正的降维打击!!_第4张图片
AdaMixer--真正的降维打击!!_第5张图片

注意!!!ACSM输出的结果最后和q_content相加了,没有所谓的cross-attention,其实和Deformable DETR有异曲同工之处。Deformable DETR中的weight是Linear直接生成的,加给各个采样特征,太过随意了。而ACSM则更像是一种更细致的weight加权过程。

总体框图

AdaMixer--真正的降维打击!!_第6张图片最后,有一个细节,黄色框MHSA的自注意力和往常不一样,考虑到q_content中不含position信息,所以进行了位置信息的添加,然后才进行自注意力。当然,其中还有不少其他细节,这里我就不一一讲述了,可看下图论文原话:

AdaMixer--真正的降维打击!!_第7张图片

四:总结

在我看来,这是DETR研究收敛分支——采样方法中,开天辟地的一篇文章,可以说未来会取代Deformable DETR的地位。xyzr的bbox表示方法,让我拍案叫绝,真心敬佩。升维后采样,实现了真正意义上的adaptive sampling!!!!


  至此我对AdaMixer模型中全部的流程与细节,进行了深度讲解,希望对大家有所帮助,有不懂的地方或者建议,欢迎大家在下方留言评论。

我是努力在CV泥潭中摸爬滚打的江南咸鱼,我们一起努力,不留遗憾!

你可能感兴趣的:(Transformer,计算机视觉,目标检测,深度学习)