TBC网络:一种基于语义约束的红外小目标实时检测方法(2019.9)
摘要
本文提出一种用于红外小目标检测的轻量级卷积神经网络TBC网络。TBC网络由目标提取模块(TEM)和语义约束模块(SCM)组成,分别用于从红外图像中提取小目标和训练过程中对提取的目标图像进行分类。同时,提出了一种联合损失函数和训练方法。单片机通过结合高级分类任务对TEM进行语义约束,解决了类不平衡导致的特征学习困难的问题。在训练过程中,从输入图像中提取出目标,并用单片机进行分类。在推理过程中,只有TEM被用来检测小目标。我们还提出了数据合成的方法来生成训练数据。实验结果表明,与传统方法相比,TBC网络能更好地减少复杂背景引起的误报。
一.介绍
传统的基于形态学滤波的单帧检测方法容易受到背景中的杂波和噪声的影响,从而影响检测的稳健性。
基于HVS的小目标检测方法(例如,LCM,ILCM,NLCM,WLCM,MPCM,HB-MPCM)也容易受到边缘和噪声等因素影响。
大多数CNN算法(Mask R-CNN,YOLO...)在学习小目标特征方面表现不好[18],并且需要很长时间来运行推理。现实图像通常包含大量的形状、颜色和结构信息,而这些信息在小目标中是不可用的。迁移学习的有效性是有限的。
利用更广泛的图像特征,有助于抑制这些复杂的干扰,降低传统的基于局部特征的方法难以实现的虚警率。
图像分割网络的话,伪影问题严重影响了分割和检测性能。其次,小目标在整个图像中所占的比例很小,使得训练过程中遇到严重的级别失衡问题。
针对红外图像的小目标检测问题,利用卷积神经网络,提出TBC-net,贡献如下:
1) 提出了一种轻量化红外小目标检测神经网络TBC-Net,它包括目标提取模块和语义约束模块。
2) 提出了一种新的训练方法,通过在训练中加入图像的高层语义约束信息,解决了小目标图像中前景与背景极不平衡的问题。
3) 在NVIDIA Jetson AGX-Xavier嵌入式开发板上实现256×256幅图像的实时检测。
二.背景
A、 基于CNN的分割
B、 残差学习
C、 语义约束
三、TBC-NET
D:原是红外图像,T:小目标图像,B:背景图像,N:噪音
A、 网络体系结构
TBC网络由两个模块组成:目标提取模块(TEM)和语义约束模块(SCM),如图。
TEM是一个轻量级的图像分割网络,具有紧凑的操作和灵活的结构参数,以便进行有效的推理。单片机是一种用于实现高层次分类任务的多层CNN。
对输入的红外图像fD进行TEM处理,得到目标图像fT。单片机根据fD中包含的目标数目对目标图像fT进行分类。
B、 目标提取模块(TEM)
为了提高网络的推理效率,利用红外小目标数据的特点,设计了一个结构更为轻量级的TEM模块。
利用压缩运算实现了下采样和上采样模块,形成了图像分割领域常用的“编码器-解码器”结构。
其中上采样,下采样(最近临插值)如下图:通过残差连接将上采样特征与同尺度下采样特征融合。
红外图像为单通道灰度图像,BC:输入层扩展的通道称为基本通道,L:下采样操作数量
不使用零填充,避免目标图像的干扰边缘,也不使用反褶积,避免棋盘伪影。两者都会影响对小目标的检测,如下图:
C、 语义约束模块
1) 使用TEM提取目标图像fT0
2) 使用另一个网络预测fT0中包含的目标数
使用CNN对fT0进行分类,其结构如表1所示,其中CSCM是与全连接层相对应的类数。将分类网络称为语义约束模块,以说明其在TEM训练中的语义指导作用。
D、 分割与检测
在TEM得到目标图像后,采用自适应阈值法对目标图像进行二值化分割。自适应阈值的计算方法定义如下:
T:分割阈值,μ和σ:分别是TEM输出图像的平均值和标准差。k:实验中的经验参数
使用TBC网络进行小目标检测的完整工作流程如图:
E、 存储与计算分析
1) 计算复杂度分析
K:卷积核大小 C:输入输出通道 hw:输入特征图宽高 s:步长
2) 参数存储分析
四、损失函数与训练方法
TBC网络的联合损失函数,包括目标提取损失T、背景抑制损失B和分类损失C。
μx、σx和μy、σy分别是通过在图像x和y上滑动固定大小的窗口而计算的窗口中的像素平均值和标准偏差。c1,c2是稳定弱分母除法的两个变量。
分析说明联合损失函数在小目标特征学习中的有效性。CNN训练一般采用梯度下降算法,即根据以下公式更新网络权值:
第一部分,在目标区域和背景区域中的共同作用。
在背景区域
so that可以抑制由沿LC梯度方向的更新引起的背景和波动。
在目标区域,当>时也出现了同样的抑制现象,但当<时
l1与LB的联合作用可以在不损失l1良好抑制效果的前提下,通过Ll1在目标区域引起的梯度更新来减少伪影的发生:一排原始,二排TEM
在背景区域,无需担心目标特征被LB平滑。如下图:橙色:TBC 绿色T
同时,通过最小化LS,使目标区域和背景区域的fT和fT0尽可能接近。
第二部分,分类损失LC对小目标的消失敏感。
当TEM对目标较小的图像进行处理,得到无目标的空白图像时,LC损耗增大,改变fT‘,网络摆脱当前状态,即单片机对TEM的输出产生语义约束,解决了数据不平衡问题。
B、 数据综合与训练
根据先前的设计,计算损失函数需要原始图像fD、目标图像fT和指示原始图像fD中目标数量的标签yT。这三个部分构成了一个训练元组(fD,fT,yT)来计算损失函数LT BC,我们有大量的背景图像fB,所以关键是合成包含多个小目标的图像fD,并根据目标的个数给出标签yT。
1) 综合fD
将目标融合到背景中,算法:
结果:
2) 标签yT
合成数据,yT=n正样本,yT=0负样本,对应的训练元组为(fB,fB- fB,0)。算法:
根据尝试,在每个图像上添加3到6个小目标可以获得更好的效果。训练后的分类网络能达到97.5%的预测精度,对TEM训练有很好的指导作用。
3) 训练方法
训练时以fT为输入,yT为输出地面真值标签,对单片机进行训练。当单片机收敛时,先冻结权值,然后用fD作为TBC网络的输入,用LT BC训练TEM。完整训练方法,算法:
五。实验
以一张图片为例: