——从分割的角度完成小目标红外检测
红外小目标使用红外热成像技术,使得红外目标检测能够全天候工作,可视距离远,抗干扰能力强。当像素距离较远时,目标所占比例小、亮度低,呈现弱小目标。红外图像中,弱小目标所占像素非常少,特征不明显、容易被杂波、热源等噪声干扰。
二阶泰勒有限差分
有限差分法以变量离散取值后对应的函数值来近似微分方程中独立变量的连续取值。
红外小目标检测是指从模糊背景中提取弱小目标。红外目标由于信噪比低、对比度低,容易淹没在强噪声和杂波背景中。本文提出了一种新的红外形状网络(ISNet),其中设计了泰勒有限差分(TFD)启发的边缘块和双向注意力聚集(TOAA)块来解决这一问题。TFD启发的边缘块从不同层次聚合和增强综合边缘信息,以提高目标与背景的对比度,同时也为数学解释的形状信息提取奠定基础。TOAA模块利用注意机制计算目标行、列方向的低层信息,并与高层信息融合,实现目标形状特征的捕获和噪声抑制。
两个新的组件,即TOAA双向注意力聚合块和TFD螺旋边缘块,前者促进跨层次特征融合,以增强高级特征的形状表示能力,而后者提取有用的边缘特征,以帮助预测具有精确形状的精确目标掩模。
红外小目标具有以下特点:1)暗淡:红外图像背景中有大量的噪声和杂波,目标容易淹没在背景中,导致对比度低,信杂比(SCR)低。2)小:由于相机与物体的距离较长,红外目标在图像中通常只占大约1 - 10个像素。3)形状变化:根据不同的目标类型,目标的形状和大小在不同的场景和情况下是不同的。
目前面临的问题:
1、准(正)确率 accuracy
反映对样本判断正确的能力,即能否将样本判断正确 acc=(TP+TN)P+N 缺陷:在负样本占大多数情况下,不能单纯追求准确率(因为如果将全部判断为负样本,这种情况下准确率是非常高的)。
2.精确率 precision
反映正确预测正样本进度的能力,即预测的正样本中有多少是真实的样本 precision=TP/(TP+FP) 缺陷:如果单纯追求精确率,会使得模型或分类器少预测为正样本,这样FP会比较低,进而提高了precision
3.召回率recall ——真阳率、命中率
正样本被预测为正样本占总的正样本的比例。 recall=TPR=TP(TP+FN) 缺陷在于:如果全部预测为正样本,那FN会比较低,导致召回率会很高.
4.虚警率falsealarm——误报率、假阳率、误检率
减少负样本预测为正样本——负样本被预测为正样本占总的负样本的比例。值越小,性能越好。 falsealarm=FP/(FP+TN)
5.漏报率 missrate —— 漏警率、漏检率
减少正样本预测为负样本——正样本被预测为负样本占总正样本的比例。值越小,性能越好。 missrate=FNR=FN/(TP+FN)
设计了一种新的红外形状网络(ISNet),该网络具有IRSTD(红外小目标探测)的两个关键组件。首先,我们设计了一个受泰勒有限差分(TFD)启发的边缘块,通过从神经常微分方程(neural ODE)区域汲取灵感来聚合边缘特征,其中ODE被解释为二阶泰勒有限差方程。然后,我们设计了一个双向注意力聚合(TOAA)块,通过从行和列方向提取低级特征并将其与高级特征集成来提取跨级别特征。之后,将交叉级特征馈送到受TFD启发的边缘块,以重建目标边缘。通过在序列中堆叠多个受TFD启发的边缘块和TOAA块,还可以捕获目标的长程上下文信息。此外,我们还构建了一个新的基准,由1000幅不同目标形状、不同目标尺寸和丰富杂波背景的逼真图像组成,并带有精确的像素级注释,称为IRSTD-1k。在流行的NUAA-SIRST数据集和IRSTD-1k上的实验结果表明,所提出的ISNet在虚警率、概率检测率、交集对并集(IoU)比率和归一化交集对并并集(nIoU)比率方面优于最先进的(SOTA)IRSTD方法。
可以检测轮廓清晰的小型红外目标,这有利于许多后续任务,例如识别目标类型。
设计了一个ACMNet和ALCNet来从不同的层提取上下文特征。然而,红外小目标通常很暗,形状各异,很难从多个特征层次提取和融合有用的形状特征,其中深层可能具有清晰的语义,但缺乏红外目标的精细细节。与上述方法相反,我们设计了一个双向注意力聚合块,该块可以合并到U-Net结构中,以有效地聚合来自不同级别的特征。
MFIRST中的大多数图像都是合成的,而NUAA-SIRST中只有有限数量的图像。其次,这两个数据集都不太关注目标形状的注释,这可以提供信息性的监督信号,并且对许多下游任务很重要。在本文中,我们通过收集1000幅不同目标的逼真图像,并用精确的像素级掩模对其进行注释,建立了一个名为IRSTD-1k的新数据集。
基于二阶泰勒有限差分方程设计了一种新的受TFD启发的边缘块,该边缘块能够聚合不同级别的边缘信息,并有助于获得精细的目标边缘。
二阶泰勒有限差分:
门控卷积可以被认为是一种部分可学习的卷积,其中使用软门控机制来更好地学习目标的边缘信息,同时抑制背景信息。ugate的输入是uj+1和来自U-Net的相应特征(表示为p(x))的总和,例如图1中的x4、x7和x10。
门控卷积:
这里的I是特征图,σ 是sigmoid()函数,ϕ是激活函数,可以是ReLU。实际就是对I分别做两次卷积,然后其中一个卷积用sigmoid()函数,将其值全部限制在0-1之间,然后与另外一个卷积得到的特征图进行逐像素的相乘。
由于低级特征通常包含目标的精细细节,而这些细节在高级特征中是不存在的.
T OAA(·)表示TOAA块学习的映射函数。alow和ahigh分别表示U-Net编码器和解码器的低级和高级特征。arow和acolumn是在行和列方向上的注意特征。
S(·)表示S形函数。Fb(·)代表瓶颈结构,包括两个1×1卷积层来约束高频噪声。瓶颈结构类似于非负矩阵分解(NMF-矩阵分解是指将一个矩阵分解成两个或者多个矩阵的乘积。)的作用,它可以在滤除冗余高频噪声的同时保留有用的特征。Fr表示在行方向上的1×k可变形卷积,而Fc表示列方向上的k×1可变形卷积。TOAA块中的这种双向注意力机制促进了从两个方向的低级特征中提取形状信息,并相应地指导高级特征的细化。将TOAA块插入U-Net解码器以执行跨级别特征融合。
首先,输入红外图像,由编码器中的干块处理,该干块由卷积层和最大池化层组成,每个层的步长为2,以对图像进行下采样。输出x2定义为:
然后,我们通过两个残差块进行非线性变换,以获得具有较少噪声和杂波的特征x3和x4。
对于解码器,我们在x4上以2的步长执行反卷积,使图像大小加倍,并获得高级特征x5。然后,我们通过TOAA块将x5和具有相同大小的低级别特征x3融合以获得细化的特征x6。
类似地,我们将TOAA块应用于低级特征x2和高级特征x8以获得x9,
在底部路径上,通过对输入图像应用Sobel算子获得的粗略边缘x11与来自U-Net编码器的特征x4一起被馈送到TFD螺旋边缘块中以提取边缘特征。类似地,使用两个额外的这样的块来利用从U-Net解码器中的TOAA块获得的高级特征进一步细化边缘特征。最后,将边缘特征输入到卷积层中,以获得精细的边缘预测。它还用于生成注意力以细化U-Net解码器的输出特征,分割头进一步使用该输出特征来预测最终目标掩码。
Dice Loss:骰子损失是一种常用的衡量标准,用于评估掩模预测和地面实况之间的差异,定义为:dice loss 对正负样本严重不平衡的场景有着不错的性能正负样本不平衡的情况就是前景占比较小。
Edge Loss:边缘损失是二进制交叉熵(BCE)损失(对输出向量的每个元素单独使用交叉熵损失函数)也用于测量预测掩码和地面实况之间的差异。我们利用Dice损失LDice和BCE损失LBCE来监督边缘预测:
其中λ是用于平衡两种损失的超参数,并根据经验设置为10。最终的训练目标是LEdge和骰子在掩码预测上的损失的组合:
NUAA-SIRST包含427幅红外图像,而IRSTD-1k包含1000幅红外图像。对于每个数据集,我们以50:30:20的比例将其分为训练集、验证集和测试集。
并集上的交集(IoU):IoU定义为:(其中Ai和Au分别表示相交区域和并集区域的大小)
并集上的归一化交集(nIoU):nIoU是IoU的归一化
采用AdaGrad作为优化器,学习率为0.04。训练过程总共持续500个时期,重量衰减为10−4,批量大小为8。