【TarDAL红外与可见光图像融合论文笔记】

Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection--论文笔记

  • ABSTRACT
  • INTRODUCTION
  • METHOD
    • Problem formulation
    • Cooperative training strategy
  • Multi-scenario Multi-modality Benchmark
  • Experiments
  • CONCLUSION

ABSTRACT

本研究解决了融合红外和可见图像的问题,这些图像在物体检测中表现不同。为了生成具有高视觉质量的图像,以前的方法发现了两种模式下的共同点,并通过迭代优化或深度网络融合在共同空间上。这些方法忽略了暗示互补信息的模态差异对于融合和后续检测任务都极为重要。本文针对融合和检测的联合问题提出了一个双层优化公式,然后展开到一个目标感知 ** 双对抗学习(TarDAL) ** 网络进行融合和一个常用的检测网络。具有一个生成器和双鉴别器的融合网络在学习差异的同时寻求共同点,它保留了来自红外的目标结构信息和来自可见光的纹理细节。此外,我们构建了一个带有校准的红外和光学传感器的同步成像系统,并收集了目前覆盖广泛场景的最全面的基准。在几个公共数据集和我们的基准上进行的大量实验表明,我们的方法不仅输出视觉上吸引人的融合,而且比最先进的方法输出更高的检测 mAP。

INTRODUCTION

随着传感硬件的快速发展,多模态成像在监控[28]和自动驾驶[5]等广泛的应用中引起了广泛关注。特别是红外和可见光传感器的结合对于后续的智能处理具有显着的优势[11,38,39]。可见光成像在定义明确的照明条件下提供具有高空间分辨率的丰富细节,而红外传感器捕捉物体发出的环境温度变化,突出显示对照明变化不敏感的热目标结构。不幸的是,红外图像通常伴随着空间分辨率较低的模糊细节。
由于它们明显的外观差异,融合具有视觉吸引力的图像和/或支持更高级别的视觉任务,如分割 [4,29]、跟踪 [2,7] 和检测 [32],通过充分利用利用红外和可见光的互补信息。
在过去的几十年中,已经开发了许多旨在提高视觉质量的红外和可见图像融合 (IVIF) 方法。传统的多尺度变换 [10, 24]、优化模型 [16, 20, 41]、备用表示 [37, 43] 和子空间方法试图发现两种模态的内在共同特征,并为融合设计适当的加权规则.这些方法通常必须调用耗时的迭代优化过程。最近,当冗余准备好的图像对可用于训练时,研究人员通过学习强大的特征表示和/或加权策略将深度网络引入 IVIF [8,12,21–23,35]。融合结果证明是一种有效的推理过程,可产生卓有成效的质量改进。
然而,无论是传统的还是深度 IVIF 方法都在努力提高质量,而忽略了后续检测,这是许多实际计算机视觉应用的关键。融合更强调“求同存异”,而忽略了这两种方式在呈现目标的结构信息和环境背景的纹理细节方面的差异。这些差异对于区分目标的不同特征以进行目标检测具有关键作用,同时产生有利于人类检查的高对比度清晰外观。
此外,从这些差异中学习(实际上是互补信息)需要从两种模式中全面收集成像数据。在随照明和天气变化的场景中捕获的图像表现出与两种模式显着不同的特征。不幸的是,现有的数据收集仅涵盖有限的条件,为学习补充信息和验证有效性设置了障碍。
本文针对融合和检测的联合问题提出了一种双层优化公式。该公式展开为精心设计的双对抗融合网络,由一个生成器和两个目标感知鉴别器以及一个常用的检测网络组成。一个鉴别器将前景热目标与红外成像的图像域区分开来,而另一个鉴别器将背景纹理细节与可见图像的梯度域区分开来。我们还推导出了一种合作训练策略来学习两个网络的最佳参数。图 1 表明,与最先进的技术 (SOTA) 相比,我们的方法以更少的时间和更少的参数准确地从目标不同和视觉吸引力的融合中检测到对象。我们的贡献有四方面:
(1)我们将图像融合和目标检测都包含在双层优化公式中,从而产生高检测精度以及具有更好视觉效果的融合图像。
(2)我们设计了一个目标感知双对抗学习网络(TarDAL),其参数较少,用于面向检测的融合。这个单生成器和双鉴别器网络“在从差异中学习的同时寻求共同点”,它保留了来自红外的目标信息和来自可见光的纹理细节。
(3)我们从双层公式中推导出一个合作训练方案,产生用于快速推理(融合和检测)的最佳网络参数。
(4)我们构建了一个带有校准良好的红外和光学传感器的同步成像系统,并收集了一个多场景多模态数据集(M3FD),其中包含 4 个; 177 个对齐的红外和可见图像对和 23 个; 635 个带注释的对象。该数据集涵盖了具有各种环境、光照、季节和天气的四种主要场景,具有广泛的像素变化,如图 1 所示。

METHOD

本节详细介绍了我们的方法,从融合和检测的双层优化公式开始。然后,我们详细阐述了用于融合的目标感知双对抗学习网络。最后,我们给出了一个合作训练方案来学习融合和检测的最佳参数。

Problem formulation

与以前满足高视觉质量的方法不同,我们指出 IVIF 必须生成有利于视觉检查和计算机感知的图像,即面向检测的融合。假设红外、可见和融合都是灰度,大小为m×n,分别表示为列向量x、y和u 2 Rmn×1。根据 Stackelberg 的理论 [14, 18, 27],我们将面向检测的融合制定为双层优化模型:
【TarDAL红外与可见光图像融合论文笔记】_第1张图片
其中 Ld 是特定于检测的训练损失,Ψ 表示具有可学习参数的检测网络!d。 f(·) 是包含融合图像 u 和源图像 x 和 y 的基于能量的保真度项,而 gT (·) 和 gD (·) 分别是定义在红外和可见光上的两个可行性约束。
图 2(a) 说明这种双层公式可以找到相互支持融合和检测的解决方案。然而,解决方程式并非易事。 (2) 通过传统的优化技术作为融合任务不是简单的等式/不等式约束。相反,我们引入了一个带有学习参数的融合网络 Φ!f 并将双层优化转换为单层:
在这里插入图片描述
因此,我们将优化展开为两个学习网络 Φ 和 Ψ。我们采用 YOLOv53 作为检测网络 Ψ 的主干,其中 Ld 也遵循其设置,并仔细设计融合网络 Φ 如下。
典型的深度融合方法努力学习两种不同模式下的共同特征。相反,我们的融合网络寻求共同点,同时从暗示这两种成像的互补特征的差异中学习。通常,红外线突出目标的不同结构,而可见光则提供背景的纹理细节。
我们引入了一个对抗性游戏,它由一个生成器和两个鉴别器组成,以便将两种模式的共同特征与不同的特征结合起来,如图 2(b) 所示。鼓励生成器 G 提供逼真的融合图像以同时欺骗两个鉴别器。目标鉴别器 DT 评估来自红外的目标与从 G 给出的融合中屏蔽的目标之间的强度一致性(图 2(b) 的第一行);细节鉴别器 DD 将可见的梯度分布与融合的梯度分布区分开来(图 2(b) 的底行)。这两个鉴别器在不同的域中工作,因为目标表现出一致的强度分布,而梯度则表征纹理。
生成器:生成器有助于生成融合图像,该图像保留整体结构并保持与源图像相似的强度分布。常用的结构相似性指数(SSIM)[34]作为损失函数:
在这里插入图片描述
其中 LSSIM 表示结构相似性损失。为了平衡源图像的像素强度分布,我们引入了基于显着度权重(SDW)的像素损失。假设x在第k个像素的显着性值可由Sx(k) = 255 Pi =0 Hx(i)jx(k) − ij 得到,其中x(k)为第k个像素的值,Hx为像素值 i 的直方图,我们将像素损失 Lpixel 定义为:
在这里插入图片描述
我们采用 5 层密集块 [6] 作为 G 来提取共同特征,然后使用具有三个卷积层的合并块进行特征聚合。每个卷积层由一个卷积操作、批量归一化和 ReLU 激活函数组成。生成的融合图像 u 与源具有相同的大小。
目标和细节鉴别器:目标鉴别器DT用于将融合结果的前景热目标与红外区分开来,而细节鉴别器DD用于将融合结果的背景细节与可见光区分开来。我们采用预训练的显着性检测网络 [3] 从红外图像中计算目标掩码 m,以便两个鉴别器可以在各自的区域(目标和背景)上执行。因此,我们将对抗性损失 Ladv f 定义为:
【TarDAL红外与可见光图像融合论文笔记】_第2张图片
其中 R = x m 和 R^ = 1 - R,将目标与背景区分开来,并表示逐点乘法。 r(·) 表示梯度运算,例如 Sobel。
这些判别器的对抗性损失函数计算 Wasserstein 散度,以相互识别前景热目标和背景纹理细节是否真实,定义为:
在这里插入图片描述
其中 r~(x) 表示与 p~(x) 相似的样本空间。
通常,k 和 p 分别设置为 2 和 6。
两个判别器 DT 和 DD 共享相同的网络结构,具有四个卷积层和一个全连接层。图 3 展示了生成器和双重鉴别器的详细架构。
总的来说,Lf 是上述三个主要部分的组合:
在这里插入图片描述
其中 α 和 β 是权衡参数。
【TarDAL红外与可见光图像融合论文笔记】_第3张图片

Cooperative training strategy

双层优化自然衍生出一种合作训练策略来获得最优的网络参数! = (!d; !f)。我们引入了一个融合正则化器 Lf 并转换 Eq。 (3) 将融合约束下的检测优化为相互优化:
在这里插入图片描述
其中 λ 是权衡参数。该正则化器无需设计加权规则,而是可以很好地平衡融合和检测。
图 2(c)说明了梯度传播的流程,以协同训练融合和检测网络。 !d 和 !f 的损失梯度计算如下:
在这里插入图片描述
这些方程揭示了检测损失 w.r.t 的梯度。检测参数以及那些 w.r.t.
融合参数都是反向传播的,后者还包括融合损失 w.r.t 的梯度。融合参数。
最后,该策略不仅可以生成视觉上吸引人的图像,而且可以在给定训练好的网络参数的情况下输出准确的检测,使我们能够找到面向检测的融合的最佳解决方案,并且比独立训练方案更有效地收敛。

Multi-scenario Multi-modality Benchmark

现有的具有红外和可见图像的数据集很难用于从多模态数据中学习和/或评估检测。我们的基准 M3FD 包含高分辨率的红外和可见图像,涵盖各种场景下的各种对象类型,如表 1 的最后一行所示。
我们构建了一个包含一个双目光学相机和一个双目红外传感器的同步系统(如图 5 所示),以捕获自然场景的相应双模态图像。可见光和红外双目相机的基线(双目镜头焦心之间的距离)分别为12cm和20cm。可见光传感器和红外传感器之间的光学中心距离为 4cm。可见光图像具有1024×768的高分辨率和宽广的成像范围,而红外图像的标准分辨率为640×512,波长范围为8-14μm。
我们首先校准所有相机以估计它们的内部和外部参数,然后计算一个单应矩阵,将红外图像的坐标投影到可见光的坐标。最终,我们通过将所有图像扭曲到一个共同的坐标,获得了大小为 1024 × 768 的对齐良好的红外/可见图像对。
我们对所有 4 个进行了分类; M3FD 中的 200 个对齐对分为四种典型类型,即 Daytime、Overcast、Night 和 Challenge,其中有 10 个子场景如图 4 所示。同时,我们注释了 33 个;人、车、客车、摩托车、卡车、车灯六大类603个对象,常见于监控和自动驾驶中。 M3FD 的数量和多样性为通过融合图像学习和评估目标检测提供了可能性。

Experiments

【TarDAL红外与可见光图像融合论文笔记】_第4张图片
【TarDAL红外与可见光图像融合论文笔记】_第5张图片
【TarDAL红外与可见光图像融合论文笔记】_第6张图片
【TarDAL红外与可见光图像融合论文笔记】_第7张图片
【TarDAL红外与可见光图像融合论文笔记】_第8张图片

CONCLUSION

在本文中,提出了一种用于联合实现融合和检测的双层优化公式。通过将模型展开到设计良好的融合网络和常用的检测网络,我们可以为融合和目标检测生成视觉友好的结果。为了促进该领域的未来研究,我们提出了具有可见红外传感器的同步成像系统,并收集了多场景多模态基准。
链接: TarDAL

你可能感兴趣的:(红外与可见光融合,论文阅读,计算机视觉,深度学习,图像处理)