@inproceedings{zhao2023cddfuse,
title={Cddfuse: Correlation-driven dual-branch feature decomposition for multi-modality image fusion},
author={Zhao, Zixiang and Bai, Haowen and Zhang, Jiangshe and Zhang, Yulun and Xu, Shuang and Lin, Zudi and Timofte, Radu and Van Gool, Luc},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
pages={5906–5916},
year={2023}
}
原文地址
github
①图像融合定义:通过组合源图像融合生成信息丰富的融合图像。
②图像融合分类:数字、多模态(红外-可见光、医学)、遥感等。
③多模态图像融合定义:对多传感器跨模态特征进行建模从而生成融合图像。
④VIF的目标:保留红外图像的热辐射信息和可见光图像的纹理细节信息。从而避免可见光对光线条件敏感及红外图像噪声大、分辨率低的问题。
⑤多模态融合应用:提升下游任务(识别、多模态显著检测、目标检测、语义分割、协助医学诊断等)性能。
②现有方法缺点1:因为CNN内部机制难以控制和解释,所以跨模态特征提取不足。如图1a中的I和II,共享编码器无法区分特定模态特征,III中私有编码器忽略了共享特征。
③现有方法缺点2:上下文无关且感受野太小,导致只提取了局部信息忽略了全局信息。
④现有方法缺点3:前向传播会导致高频信息损失。
⑤提出方法:探索一种更合理的范式来应对特征提取和融合的挑战。
①对提取出的特征添加相关性限制并限制解空间,提升特征提取的可控性和可解释性。
②跨模态输入在低频处相关,代表模态共享信息;高频处不相关,代表模态特有信息。
③举例:VIF中,红外-可见光图像来自同一场景,低频信息包含统计共现(背景及大尺度环境特征);相反,高频信息互相独立,【可见光的纹理和细节信息】以及【红外图像的热辐射信息】。
④因此,分别通过增减低频高频特征相关性,促进模态特定及共享特征的提取。
①ViT介绍:ViT具有自注意力机制和全局特征提取,但是计算成本高。
②方法:整合了【CNN的局部上下文特征提取和计算效率】以及【ViT的全局注意力和远程依赖建模】的优势,来完成MMIF任务。
①挑战:为了解决丢失需要的高频信息挑战,采用了可逆神经网络(Invertible Neural Network, INN。
②方法:因为INN的设计具有可逆性,所以可以【防止输入及输出特征的相互生成从而丢失信息】,并且符合保留融合图像中高频特征的目标。
①因此,提出了CDDFusion,使用双分支编码器实现模态特定特征和共享特征提取,使用解码器重构融合图像。贡献分别如图1a和图2所示。
②分:
此节简短的回顾了基于DL的MMIF,以及CDDFusion中使用的LT,Restormer,INN模块。
①基于CNN的MMIF分类:GAN,AE,统一模型(unified models)和算法展开模型(algorithm unrolling models)。
②GAN:GAN被用来同时使融合图像分布与输入图像相似,并在感知上令人满意。
③AE:使用编码器和解码器。
④统一模型:通过跨任务学习,可以解决训练数据有限和缺少ground truth的问题。
⑤算法展开模型:在传统优化和DL方法建立了连接,建立了模型驱动的可解释CNN。
⑥其他近期研究:
①发展过程:用于自然语言处理(Natural Language Processing, NLP)的Transformer提出后,计算机视觉领域的Transformer也被提出,即ViT。许多基于Transformer的变体被应用于分类、目标检测、分割和多模态学习等任务并取得了令人满意的结果。
②对低级视觉任务,融合了多任务学习和Swin Transformer块的Transformer比基于CNN的方法效果更好。
③其他近期研究:
①介绍:INN是标准化流模型(一种生成模型)的一个重要模块。
③应用:因为可以提升backbone的特征提取能力并且节省内存,因此在分类、图像着色、图像隐藏、图像重缩放、图像视频超分等图像处理任务中被有效使用。
①相同:相似于基于AE的方法。
②不同:
此节介绍了CDDFusion的流程和各模块的详细结构。(为了便于表达,低频全局特征=基础(base)特征,高频局部特征=细节(detail)特征)。
②CDDFuse是通用的多模态图像融合网络。
①组成:编码器有3个组件:
基础/细节融合层的功能是分别融合基础/细节特征。
F B F_B FB和 F D F_D FD分别为基础和细节融合层。
在解码器DC(·)中,分解的特征在信道维度上被级联作为输入,并且原始图像(训练阶段I)或融合图像(训练阶段II)是解码器的输出,其公式为:
由于这里的输入涉及交叉模态和多频特征,因此保持解码器结构与SFE的设计一致,即使用Restormer块作为解码器的基本单元。
①MMIF中的一个挑战是没有ground truth,有监督学习无效,所以提出了2阶段训练
②训练阶段1:
③训练阶段2:
④训练损失
训练阶段1的损失函数为:
L i r \mathcal L_{ir} Lir和 L i r \mathcal L_{ir} Lir分别代表红外和可见光图像的重构损失。 L d e c o m p \mathcal L_{decomp} Ldecomp代表特征分解损失。 α 1 \alpha_1 α1和 α 2 \alpha_2 α2为可调参数。
重建损失是为了确保图像信息在编码和解码时不丢失。
其中 L i n t I = ∥ I − I ^ ∥ 2 2 \mathcal {L_{{\mathop{\rm int}} }^I} = \left\| {I - \hat I} \right\|_2^2 LintI= I−I^ 22 L S S I M ( I − I ^ ) = 1 − S S I M ( I − I ^ ) {L_{SSIM}}\left( {I - \hat I} \right) = 1 - SSIM\left( {I - \hat I} \right) LSSIM(I−I^)=1−SSIM(I−I^)
SSIM是结构相似性指数。 L i r \mathcal L_{ir} Lir可以用相同的方法获得。
特征分解损失 L d e c o m p \mathcal L_{decomp} Ldecomp可以表示为:
其中CC表示相关系数算子。 ϵ \epsilon ϵ为1.01用来确保分母为正。
设计理由:
{ Φ I B , Φ V B } \{\Phi_I^B, \Phi_V^B\} {ΦIB,ΦVB}包含更多的模态共享信息,如背景和大尺度环境。
{ Φ I D , Φ V D } \{\Phi_I^D, \Phi_V^D\} {ΦID,ΦVD}包含更多的模态私有信息,如在V(可见光)中纹理和细节信息,在I(红外)中表示热辐射和清晰边缘信息。因此特征图相关性很低。
经验表明,梯度下降时在 L d e c o m p \mathcal L_{decomp} Ldecomp的指导下, L C C D \mathcal L_{CC}^D LCCD逐渐接近0,而 L C C B \mathcal L_{CC}^B LCCB越来越大。分解的可视化如图5所示。
图5显示了分解的特征。显然,基本特征组中更多的背景信息被激活,并且被激活的区域也是相关的。在细节特征组中,红外特征更多地关注对象高光,而可见光特征更多地关注细节和纹理,这表明模态特定特征被很好地提取。
训练阶段2的损失为:
此节详解阐述了网络实施和配置的细节。通过实验验证了模型的有效性和网络结构的合理性。
①数据集
②评价指标
③实施细节
①对比方法:DIDFuse, U2Fusion , SDNet, RFNet, TarDAL, DeFusion and ReCoNet.
②qualitative comparison
图3和4展示了定性比较。本文方法更好的融合了红外图像的热辐射信息和可见光图像的细节纹理。黑暗中的物体被清晰的高亮出来,因此前景目标可以很容易的从背景中区分出来。
因为低光照导致难以识别的背景细节,具有清晰的边缘和充足的轮廓信息。
①主题:提出了一种用于多模态图像融合的双分支TransformerCNN架构。
②贡献:借助Restormer、Lite Transformer和可逆神经网络模块,更好地提取了模态特定特征和模态共享特征,并通过提出的相关性驱动分解损失对模态特定特征和模态共享特征进行了更直观有效的分解。
③实验:实验证明了CDDFuse的融合效果,并提高了下游多模态模式识别任务的准确率。
[FusionGAN: A generative adversarial network for infrared and visible image fusion]
[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
[Visible and Infrared Image Fusion Using Deep Learning]
[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
[U2Fusion: A Unified Unsupervised Image Fusion Network]
[图像融合论文baseline及其网络模型]
[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]
[CVPR2023、ICCV2023论文题目汇总及词频统计]
✨[图像融合论文及代码整理最全大合集]
✨[图像融合常用数据集整理]
如有疑问可联系:[email protected];
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位早发paper,顺利毕业~