【学习记录】WBF--加权框融合,优化目标检测的SOTA

WBF–加权框融合,已经成为优化目标检测的SOTA了。
如果你熟悉目标检测的工作原理,你可能知道总有一个主干CNN来提取特征。还有一个阶段是,生成区域建议(region proposal)–可能的建议框,或者是过滤已经提出的建议区域。这里的主要问题是,要么物体检测任务出现一物多框,要么生成的边框不够,最终导致平均精度较低的原因。目前其实已经提出了一些算法来解决这个问题。

1.比如我们常见的NMS–非极大抑制。但是其实,对于遮挡问题较为严重的检测任务,在一些目标密集的区域,可能包含多个标签,这意味着将出现一框多物的现象,如果使用非极大抑制NMS这类策略,它是通过iou来过滤框的,因此,很难确定一个较好的阈值,所以这类策略可能会删除有用的检测框。

2.另外还有soft-NMS,它试图通过一种更soft的方法来解决NMS的主要问题。它不会完全移除那些iou高于阈值的框,而是根据iou的值来降低它们的置信度分数。它是NMS的优化,相比于NMS会过滤掉过更少的框。

3.加权框融合(WBF)的工作原理与NMS不同。首先,它将所有的边界框按照置信度分数的递减顺序进行排序,然后生成一个可能的框来融合列表,并检查这些融合是否与原始框匹配。这里也会给定一个iou的阈值来判断匹配效果,它通过检查iou是否大于指定阈值来实现。

然后,通过一系列公式来调整坐标和框列表中所有框的置信度分数。新的置信度仅仅是它被融合的所有框的平均置信度。新坐标以类似的方式融合(平均),除了坐标是加权的,既然是加权的,意味着不是每个框在最终的融合的框中都具有相同的贡献。这个权重的值是由置信度来决定的,但较低的置信度可能表明预测错误。

4.除此之外,还有第四种方法,非最大加权融合,它的工作机制和WBF类似,但性能不如WBF,因为它不会改变框的置信度,而是使用iou值来衡量方框,而不是更精确的度量。其实表现也相当接近。

你可能感兴趣的:(神经网络学习,crush的学习记录,目标检测,计算机视觉,深度学习)