CVPR 2023 |半监督目标检测:Active Teacher for Semi-Supervised Object Detection

CVPR 2023 |半监督目标检测:Active Teacher for Semi-Supervised Object Detection_第1张图片

论文:https://arxiv.org/pdf/2303.08348.pdf
代码:https

文章目录

  • 一、动机
  • 二、创新点
  • 三、具体实现
    • 1、Framework
    • 2、损失函数
    • 3、Active Teacher
      • 3.1 Active Teacher的算法
      • 3.2 Active Sampling

一、动机

一些从业者采用师生学习的知识蒸馏方法进行半监督目标检测,即使用具有弱增强标记数据的教师网络来为具有强数据增强的学生网络生成高质量的伪标签。虽然自训练产生了大量的伪标签,但ground-truth信息在训练初期仍然起着关键作用,它决定了伪标签的质量和教师网络的性能下限。本文研究了如何在SSOD中为师生学习选择最佳的有标签样本。

二、创新点

从数据初始化的角度出发,本文为SSOD提出了一种新的师生框架Active Teacher。Active Teacher将师生框架扩展到迭代版本,教师通过评估未标记样本的三个关键因素,即难度、信息和多样性,对标签集进行部分初始化并逐步扩充。并对不同的采样策略进行了广泛的实验。这些定量和定性分析可以为实际应用中的数据标注提供有用的参考。

三、具体实现

1、Framework

CVPR 2023 |半监督目标检测:Active Teacher for Semi-Supervised Object Detection_第2张图片
总体框架由一个迭代的师生结构所组成,使用Faster RCNN作为baseline network,包括两个具有相同配置的检测网络,即教师和学生。原始数据集Raw Dataset分为有标签样本和随机抽取的部分无标签样本,对有标签样本进行人工标注。Teacher根据所提出的度量,即信息、多样性和难度计算无标签数据的得分,根据得分进行排列,选取得分高的进行标注,加入有标签样本,有限的标签集被部分初始化并逐渐扩充。Student通过 EMA更新Teacher的参数。

2、损失函数

学生网络的优化损失定义为:
在这里插入图片描述
其中Lsup和Lunsup分别表示有监督和无监督学习的损失,λ是Lsup与Lunsup之间的超参数。
在这里插入图片描述
Lsup包括RPN和ROI头部的分类损失Lcls和边界框回归的分类损失Lloc。
CVPR 2023 |半监督目标检测:Active Teacher for Semi-Supervised Object Detection_第3张图片
Xl代表有标签样本标记的例子,ycls和yloc是它的标签,Nl表示xl的数量。tc是输出图像xi的第c个坐标。就Lloc而言,我们使用平滑的L-1损失进行边界框回归:
CVPR 2023 |半监督目标检测:Active Teacher for Semi-Supervised Object Detection_第4张图片
在这里插入图片描述
Lunsup,我们只使用RPN和ROI头部预测的伪标签,类似于[24]中的伪标签。它被公式化为
为了避免样本不平衡和过拟合问题,在半监督训练期间冻结教师网络的优化,并通过指数移动平均(EMA)从学生网络更新其参数。
在这里插入图片描述

3、Active Teacher

3.1 Active Teacher的算法

CVPR 2023 |半监督目标检测:Active Teacher for Semi-Supervised Object Detection_第5张图片

3.2 Active Sampling

本文引入了三种主动采样度量,即难度、信息和多样性来为师生学习选择最佳的有标签样本。
1、Difficulty困难
难度是主动学习AL的常用度量,通常基于模型预测的概率分布的熵进行测量。更高的熵表明该模型对其预测更不确定。基于教师网络的类别预测来测量无标签样本的难度分数定义为:
CVPR 2023 |半监督目标检测:Active Teacher for Semi-Supervised Object Detection_第6张图片
在这里插入图片描述是在NMS和置信度过滤之后的预测边界框的数量。
在这里插入图片描述是目标类别的数量; 在这里插入图片描述是教师网络对第k类的预测概率。
2、Information信息
信息是用于测量无标签样本信息量的度量。在物体检测中,更丰富的信息意味着更多的视觉概念出现在图像中。为此,我们使用预测置信度来衡量这一指标:
CVPR 2023 |半监督目标检测:Active Teacher for Semi-Supervised Object Detection_第7张图片
其中置信度(bj,θt)是教师网络预测的第j个边界框中的最高置信度得分。
3、Diversity多样性
多样性是一种衡量图像中目标类别分布的指标。多样性得分的计算公式为:
在这里插入图片描述
其中cj是第j个边界框的预测类别,|·|是基数。

4、度量合并
处于不同状态的模型可能对标签信息有不同的要求。本文使用一种简单而有效的解决方案来自动组合这些指标,称为AutoNorm。由于三个度量值差异较大,组合的第一步是对它们的值进行归一化:
在这里插入图片描述
m∈{难度,信息,多样性}表示度量 在这里插入图片描述是度量的最大值。

第二步是使用L-p将数据点归一化为单个标量sLp
CVPR 2023 |半监督目标检测:Active Teacher for Semi-Supervised Object Detection_第8张图片
在这里插入图片描述使用L1范数来组合这三个度量。
当使用L-p(p>1)范数时,具有较高值的度量将接收更多的采样权重。

你可能感兴趣的:(论文精读,目标检测,计算机视觉,深度学习)