目标检测之TOOD:Task-aligned One-stage Object Detection

ICCV21

0.摘要

one-stage和two-stage的最大区别就是分类回归任务是否是同时进行,本文的目的是解决两类任务并行进行时候的冲突。
用两个任务对齐的预测头(分类,回归任务),对预测结果进行进行微调,使两种不同的并行进行的任务尽量对齐。

1.背景

One-stage的目标检测是对目标的分类和定位进行同时进行,这种目标检测有两个平行分支的头部,这可能会导致两个任务之间的预测出现一定程度的空间错位。
目标检测之TOOD:Task-aligned One-stage Object Detection_第1张图片

现有的单阶段方法都通过一定的手段来实现两个任务的统一,也就是使用目标的中心点。最近的单级物体探测器试图通过聚焦物体的中心来预测两个独立任务的一致输出。位于物体中心的锚(无锚探测器的锚定点,或基于锚的探测器的anchor-box)可能会对分类和定位给出更准确的预测 。如 FCOS/ATSS 都使用 centerness 分支来提高在物体中心附近的anchor的分类得分,并且给对应的anchor的定位 loss 更多的权重。但这些方法大都有两个问题:
1.分类和定位不是统一的
如下图所示,分类效果不好但是定位效果很好,是因为将分类和定位分为两个分支,这样可能回导致两个任务的互相交互很少,所以导致预测的不一致性。
2.分类和定位的anchor不统一
最佳定位锚点的空间位置可能不在对象的中心,并且它与最佳分类锚点没有很好地对齐。因此,在非最大值抑制过程中,精确的边界框可能会被精度较低的边界框抑制。
目标检测之TOOD:Task-aligned One-stage Object Detection_第2张图片

2.方案

本文是通过设计一个新的 head 结构来更好的将分类和定位任务对齐,整体解构如下图。
目标检测之TOOD:Task-aligned One-stage Object Detection_第3张图片

2.1任务对齐的头部T-head

2.1.1目的:

(1)增加两个任务之间的交互;(2)增强检测器学习对齐的能力

2.1.2结构:

T-head 的结构如下所示,由一个特征提取器和两个Task-aligned Predictors(TAP) 构成。由fpn产生的特征会通道数会被升到原来的n倍数,并称之为任务交互特征图来供TAP使用。
目标检测之TOOD:Task-aligned One-stage Object Detection_第4张图片
为了加强两个任务的交互,作者使用了一个特征提取器来从卷积层中学习 task-interactive 特征,如图3b所示,这样的设计不仅仅可以加强任务的交互,而且可以给这两个任务提供多尺度感受野的多级特征。因此,可以使用单个分支从 FPN 特征中获得丰富的多尺度特征。

在这里插入图片描述

2.1.3 任务对齐的预测TAP:

目标检测之TOOD:Task-aligned One-stage Object Detection_第5张图片
第一个分支:任务交互信息会不可避免的引入两个任务的特征冲突,因为两个任务的注意点是不同的。因此提出了一种层级注意机制,类似通道注意力,计算方式不同,先把特征拉平在通过全连接和sigmoid提前注意力。注意力和原来的任务交互特征图乘积得到新的任务交互特征图。

第二个分支,作者称为空间概率图M/空间偏移图O,计算方式也很简单。
但是对于分类和定位任务,MO作用方式不同

在这里插入图片描述
来对每个位置上的 bbox 进行调整。这些学习到的offset能够使得 aligned anchor point 识别出其周围最好的预测框。
其中offset特征阵中通道数是奇数的特征图是横坐标的调整,偶数是纵坐标。调整后每个点的预测框都发生了改变。
在这里插入图片描述

2.2 任务对齐的学习TAL

2.2.1新的NMS

提出了一种任务对齐学习(Task Alignment Learning,TAL),来拉近两个任务的最佳锚的位置。衡量一个anchor是否对齐的指标:
在这里插入图片描述
分类得分为s和预测框和gt的IoU为u,然后分别由α和β来控制得分和IoU对这个指标的影响程度。得分最高的前m个目标就是正样本,否则为负样本。

2.2.2新的损失函数

2.2.2.1分类损失

为了提高分类和回归有关联的anchor的得分,作者对t进行归一化之后再得到t’,再用bce就能获得分类损失

在这里插入图片描述

然后使用focal loss来解决正负样本不均衡
在这里插入图片描述

2.2.2.2 回归损失

在这里插入图片描述
目标检测之TOOD:Task-aligned One-stage Object Detection_第6张图片

参考:https://blog.csdn.net/jiaoyangwm/article/details/119837303

你可能感兴趣的:(论文学习,深度学习,计算机视觉,人工智能,目标检测)