[GFL]Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Dete

Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

[GFL]Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Dete_第1张图片

会议:CVPR 2021

论文:https://arxiv.org/pdf/2006.04388.pdf

代码:https://github.com/implus/GFocal

Abstract

目前的模型大多存在两个问题:

问题一:在训练和推理的过程中,质量评估和分类的方法不一致:

  • 他们往往被独立训练,但在推理过程中却被相乘起来联合使用;

  • 监督目前只分配给正样本,但有时候负样本可能会提供更高质量的监督,必然会存在一部分分数较低的“负样本”的质量预测是没有在训练过程中有监督信号的,有就是说对于大量可能的负样本,他们的质量预测是一个未定义行为。可能出现的情况就是:一个分类score相对低的真正的负样本,由于预测了一个不可信的极高的质量score,而导致它可能排到一个真正的正样本(分类score不够高且质量score相对低)的前面。

    [GFL]Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Dete_第2张图片

问题二:在复杂的场景中,回归的表示不够灵活,用狄拉克函数(类似于脉冲函数)来进行定位是不准确的:

bbox的坐标可以被视为一个狄拉克分布,但往往没有考虑到模糊边界框,或者被严重遮挡的边界框。虽然最近的一些工作用高斯分布来进行描述,但它过于简单从而不能精确地捕捉到真实的bbox。事实上,这种分布可以更加灵活。

[GFL]Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Dete_第3张图片

解决一:定位质量评估

保留了分类向量,对于一个类别向量,但是对应类别位置的置信度的物理含义不再是分类的score,而是改为质量预测的score,这样就做到了两者的联合表示,可以端到端的方式进行训练,同时在推理过程中直接使用。

image-20210709103457135

Bounding box 表示

直接学习连续空间上的离散化概率分布来表示盒子位置的任意分布,而不引入任何其他更强的先验。

然而,对于提出的分类IoU联合表示,除了仍然存在的类别不平衡风险外,还面临一个新的问题,即连续IoU标签(0∼1) 作为监督,而原来的FL目前只支持离散的{1,0}类别标签,作者提出了一个Generalized Focal Loss来解决这个问题。又进一步将GFL分解为质量焦损(QFL)和分布焦损(DFL),分别对改进的两种表示进行优化。QFL关注一组比较稀疏的难例,并产生一组连续的0~1的质量评估;DFL使得网络能够在任意灵活分布的情况下,快速地集中学习目标bbox连续位置周围值的概率。

Loss的详细表示

Focal Loss

传统的FL用来解决one-stage检测器前景背景样本不平衡的问题,往往用于训练期间,数学表达式如下:

image-20210712110756217

其中 y y y是前景背景的分类, p p p代表正例类别的估计概率, γ \gamma γ是一个比例调节因子,通过与交叉熵损失的结合可以调节正负样本在loss中的比重。

Quality Focal Loss

为了解决训练和测试阶段的不一致问题,提出了QFL,它将分类分数和IoU结合起来,将FL中 y = 0 y=0 y=0或者 1 1 1的标准软化了。 y = 0 y=0 y=0代表质量得分为0的负样本, 0 < y ≤ 1 00<y1代表IoU得分不同的正样本。因此作者从两个方面对FL进行了改进:

  • 交叉熵损失: − l o g ( p t ) -log(p_t) log(pt)拓展为更充分的表示 − ( ( 1 − y ) l o g ( 1 − σ ) + y l o g ( σ ) ) -((1-y)log(1-\sigma)+ylog(\sigma)) ((1y)log(1σ)+ylog(σ))
  • 比例因子: ( 1 − p t ) γ (1-p_t)^\gamma (1pt)γ拓展为估计值和真值的绝对距离 ∣ y − σ ∣ β |y-\sigma|^\beta yσβ

所以QFL的数学表达式就是

image-20210714170021613

σ = y \sigma=y σ=y的时候,总的loss是最小的;相差较大时,被判定为难例,调节因子会加大它在loss中的比重;而两者近似时,当前loss值很小。实验证明 β = 2 \beta=2 β=2是最合适的。

Distribution Focal Loss

考虑到真实的分布通常不会距离标注的位置太远,所以我们又额外加了个loss,希望网络能够快速地聚焦到标注位置附近的数值,使得他们概率尽可能大。基于此,作者将其取名为Distribution Focal Loss (DFL):

image-20210714165945980

它的含义是含义是以类似交叉熵的形式去优化与标签y最接近的一左一右两个位置的概率,从而让网络快速地聚焦到目标位置的邻近区域的分布中去。最后,QFL和DFL其实可以统一地表示为GFL:

image-20210714170145268

Conclusion

  • 这两个方法,即QFL和DFL的作用是正交的,他们的增益互不影响,所以结合使用效果更好,基本上可以做到无cost涨点。
  • 相当不错的speed-accuracy trade-off。
    [GFL]Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Dete_第4张图片

你可能感兴趣的:(目标检测)