[目标检测知识蒸馏4] [CVPR22] Focal and Global Knowledge Distillation for Detectors

[CVPR22] Focal and Global Knowledge Distillation for Detectors

Motivation

  • 在目标检测中,前景、背景的不平衡是目标检测中的一个关键问题;

  • 教师和学生网络的特征在不同区域有很大差异,尤其是在前景和背景中。如果进行平均蒸馏,特征图之间的不均匀差异会产生负面影响。
    [目标检测知识蒸馏4] [CVPR22] Focal and Global Knowledge Distillation for Detectors_第1张图片

  • 局部和全局蒸馏(FGD):

    • 局部蒸馏:分离了前景和背景,迫使学生网络将注意力集中在教师网络的关键像素和通道上;
    • 全局蒸馏:重建不同像素之间的关系,并将其从教师网络传递给学生网络,以补偿局部蒸馏中丢失的全局信息。
      [目标检测知识蒸馏4] [CVPR22] Focal and Global Knowledge Distillation for Detectors_第2张图片

Method

包含局部蒸馏和全局蒸馏。

Focal Distillation

对于前景和背景的不平衡,提出局部蒸馏来分类图像,引导学生网络聚焦于关键像素和通道。
[目标检测知识蒸馏4] [CVPR22] Focal and Global Knowledge Distillation for Detectors_第3张图片

  • Binary Mask: 将图片的前景和背景信息进行分离:如 ( i ,   j ) (i,~j) (i, j) 落在 gt 中,则 M ( i , j ) = 1 M(i,j)=1 M(i,j)=1;否则为0.
    M i , j = { 1 ,   if  ( i ,   j ) ∈ r 0 ,   otherwise M_{i,j}= \begin{cases} 1,~&\text{if}\ (i,~j)\in r\\ 0,~&\text{otherwise} \end{cases} Mi,j={1, 0, if (i, j)rotherwise

  • Scale Mask: 为处理蒸馏过程中的目标尺寸问题:大目标占有的像素多,在 loss 中的占比高。一定程度上会影响小目标的蒸馏效果。

    • 前景像素在计算对应 loss 时要除以 gt 的面积;同理非 gt 像素。
      S i , j = { 1 H r W r ,   if  ( i ,   j ) ∈ r 1 N b g ,   otherwise N b g = ∑ i = 1 H ∑ j = 1 W ( 1 − M i , j ) S_{i,j}= \begin{cases} \frac{1}{H_rW_r},~&\text{if}\ (i,~j)\in r\\ \frac{1}{N_{bg}},~&\text{otherwise} \end{cases}\\ N_{bg}=\sum^H_{i=1}\sum^W_{j=1}(1-M_{i,j}) Si,j={HrWr1, Nbg1, if (i, j)rotherwiseNbg=i=1Hj=1W(1Mi,j)
  • **Attention Mask:**让蒸馏过程更关注 feature map上的关键区域。使用特征值绝对值平均值的 softmax 作为 feature map 的空间/通道(spatial/channel)的权重。
    G S ( F ) = 1 C ∑ c = 1 C ∣ F c ∣ G C ( F ) = 1 H W ∑ i = 1 H ∑ j = 1 W ∣ F i , j ∣ G^S(F)=\frac{1}{C}\sum^C_{c=1}|F_c|\\ G^C(F)=\frac{1}{HW}\sum^H_{i=1}\sum^W_{j=1}|F_{i,j}| GS(F)=C1c=1CFcGC(F)=HW1i=1Hj=1WFi,j

Global Distrillation

  • 利用局部蒸馏 (FD) 来分离图像,使得学生网络将注意力集中在关键部位。然而 FD 切断了前景和背景之间的关系。

  • 全局提取(GD)通过增加 attention loss ,使得学生网络和教师网络生成的 attention map 尽量接近。其目的是从特征图中提取不同像素之间的全局关系,并将其从教师蒸馏到学生
    L a t = γ ( l ( A t S ,   A S S ) + l ( A t C ,   A S C ) ) L_{at}=\gamma(l(A_t^S,~A^S_S)+l(A_t^C,~A_S^C)) Lat=γ(l(AtS, ASS)+l(AtC, ASC))[目标检测知识蒸馏4] [CVPR22] Focal and Global Knowledge Distillation for Detectors_第4张图片

Experiment[目标检测知识蒸馏4] [CVPR22] Focal and Global Knowledge Distillation for Detectors_第5张图片

[目标检测知识蒸馏4] [CVPR22] Focal and Global Knowledge Distillation for Detectors_第6张图片

你可能感兴趣的:(知识蒸馏,机器学习,目标检测,算法,计算机视觉)