论文标题:Mapping Degeneration Meets Label Evolution: Learning Infrared Small Target Detection with Single Point Supervision
代码:https://github.com/XinyiYing/LESPS
本文探讨了红外小目标检测领域的一个重要问题,即如何在降低标注成本的同时实现高性能的目标检测。红外小目标检测在诸如交通监控、海上救援和军事监视等民用和军用领域具有广泛的应用。然而,由于红外小目标通常具有小尺寸、弱信号、无规则形状和无纹理等特点,并且容易受到复杂背景干扰,因此传统方法需要复杂的手工特征工程和大量标注数据,成本高昂。
为了解决这一问题,本文引入了一种创新的方法,即基于单点监督的弱监督红外小目标检测框架(LESPS)。作者观察到,在单点标签的监督下,卷积神经网络(CNN)首先学会在图像中分割出靠近目标的像素区域,然后逐渐学会以高置信度预测目标的点级别标签。因此,作者提出LESPS 框架,通过迭代地更新标签和网络训练,最终使网络能够自动生成像素级伪标签,实现了端到端的红外小目标检测。
我们首次研究了弱监督SIRST检测,并引入了可以显著降低注释成本的LESPS
我们发现了映射退化现象,并利用这种现象通过LESPS从给定的点标签中自动回归出像素级的伪标签
实验结果表明,我们的框架可以应用于不同的现有红外小目标检测网络,使其在像素级交集联合(IoU)和目标级别检测概率(Pd)方面实现了超过70%和95%的全面监督性能。
红外小目标检测:在过去几十年里,已经提出了各种各样的红外小目标检测方法,包括传统方法(如基于滤波的方法、基于局部对比度的方法和基于低秩的方法)以及最近的深度学习方法。与传统方法相比,深度学习方法,尤其是卷积神经网络(CNNs),能够以数据驱动的方式学习输入图像与真实标签之间的非线性映射,因此在处理真实复杂场景时具有更好的泛化性能。最近的工作越来越注重红外小目标的定制解决方案,包括改进目标对比度、特征融合、形状感知和目标掩码预测等。然而,由于缺乏大规模公共数据集的像素级注释,CNN的性能和泛化能力受到限制。此外,像素级手动标注非常耗时和劳动密集。因此,作者的研究重点是在更弱的监督和更便宜的注释条件下实现像素级的红外小目标检测。
具有点级别监督的弱监督分割:最近,点级别注释在密集预测任务中引起了更多关注,如目标检测、人群计数和图像分割。作者特别关注图像分割任务。过去的研究已经尝试使用点级别监督来改进分割性能,通过引入对象潜力(objectiveness potential)等方法来提高分割性能,或者使用语义信息和距离度量来实现场景解析。然而,这些方法通常涉及复杂的先验约束,并且用于分割大型通用对象,这些对象具有丰富的颜色和纹理信息,并需要多个详细的点标注。与这些方法不同,本文充分利用红外小目标的局部对比度先验,通过单一粗略点逐步演化伪掩码,而无需任何辅助信息,实现端到端的学习。
红外系统的特殊成像机制:红外小目标只有强度信息,没有结构和纹理细节,导致目标区域内的像素非常相似。
红外小目标的高局部对比度:目标区域内的像素与周围背景杂乱区域相比,强度差异很大。
CNN的易学性质:CNN通常首先学习简单的映射,然后逐渐收敛到更复杂的映射。与区域到点的映射相比,区域到区域的映射更容易学习,因此往往是区域到点映射的中间结果。
图 2 展示了“单一样本训练”和“多样本训练”两种不同的训练方案下,对映射退化现象的影响以及泛化的作用。
多样本训练方案:在多样本训练方案中,使用了包含丰富的不同大小和形状的目标的所有图像来训练U-Net。结果显示,这种训练方案需要更长的时间来收敛,因为模型需要适应更多不同的情况。如图2(a).
泛化的影响:实验结果图2(b)显示,多样本训练方案下的平均IoU结果(橙色)稍低于单一样本训练方案下的结果(蓝色),特别是在较大的IoU值范围(0.5-1.0)上。这表明泛化会减缓但加重映射退化现象。
可视化:图2(c)展示了两种训练方案下的一些目标区域的图像示例及其预测结果。可以观察到,CNN在两种训练方案下都能够以尺寸感知的方式有效地分割目标像素。
框架概述:LESPS框架的基本思想是通过迭代地更新标签并进行网络训练,使CNN能够逐渐逼近更新的伪掩码标签,从而实现像素级别的红外小目标检测。具体地,在每一轮标签更新中,当前的网络预测被用于更新当前的单点标签,生成下一轮的更新标签,然后用于监督网络训练,如此往复。这个过程有助于CNN逐渐学习局部对比度先验,防止映射退化,并促使CNN收敛到更容易学习的区域到区域映射。如图3。
标签更新过程:
在每一轮标签更新中,给定当前标签 Ln 和网络预测 Pn,对每个目标进行标签更新,包括三个步骤:候选像素提取、误报排除和候选像素与当前标签的加权求和。
具体来说,对于标签 Ln 和预测 Pn 中的每个目标,首先根据标签中正像素的质心(即
)来裁剪标签 Ln 和预测 Pn 中第 i 个目标的 d × d 个局部邻域。然后,为了减少标签更新过程中的误差累积,作者使用了自适应阈值来提取局部邻域候选像素(即在图3中高于红色虚线的预测值)。标签更新过程如下所示:
Tadapt是与当前预测 P 在中和标签ˆL在中的正像素相关的自适应阈值,可以根据以下方法计算:
通过增加
的数量,阈值会逐渐增加,这可以减少对低对比度目标和强背景杂乱的误差累积。为了消除局部邻域中的误报,作者排除了候选像素的八个相邻区域,这些区域与标签的正像素没有交集。如图4 (b)所示。这个过程可以用以下公式表示:
然后,将候选像素 Ei_n 和当前标签 Li_n 进行加权平均,以实现标签更新。这个过程可以用以下公式表示:
第一项代表了低于红色虚线的真实标签,第二项代表了在红色虚线以上的预测和真实标签之间的加权平均。这个过程确保了CNN在标签逐渐逼近真实标签的情况下逐渐收敛。
网络收敛条件:作者提供了三个条件以确保网络的收敛:
预测和标签之间的平均加权求和促使CNN在预测逼近标签时收敛。
像素自适应阈值随着更新标签中正像素的增加而增加,这会减慢或暂停标签更新。
随着标签演化引入更多的目标信息用于训练,CNN逐渐成熟,并学会区分目标和背景。
与SOTA方法的比较:
可视化结果:
研究不同因素对映射退化现象的影响,包括目标的强度、大小、点标签的位置和标签中的点数。
对训练过程中演化的目标掩码进行的评估:
可视化在训练过程中由LESPS回归的标签,以及在图中推理过程中的一些网络预测:
与其他伪标签的比较:
研究在不同背景点上计算负损失的损失函数,比较在质心点监督下的不同基线方法的平均结果:
本文提出了首个使用单点监督实现弱监督SIRST检测的方法
作者发现了映射退化现象,并提出了一个名为单点监督标签演化框架(LESPS)的标签演化框架,以自动实现点到掩码的回归。通过LESPS,网络可以被训练成以端到端的方式进行SIRST检测。
大量的实验和深刻的可视化充分证明了我们方法的有效性和优越性。此外,我们的方法可以应用于不同的网络,实现在像素级IoU和对象级Pd方面超过完全监督性能的70%和95%。我们希望我们有趣的发现和结果可以启发研究人员重新思考:在更弱的监督下实现SIRST检测的最先进性能的可行性。
☆ END ☆
如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。
↓扫描二维码添加小编↓