@article{ma2022swinfusion,
title={SwinFusion: Cross-domain long-range learning for general image fusion via swin transformer},
author={Ma, Jiayi and Tang, Linfeng and Fan, Fan and Huang, Jun and Mei, Xiaoguang and Ma, Yong},
journal={IEEE/CAA Journal of Automatica Sinica},
volume={9},
number={7},
pages={1200–1217},
year={2022},
publisher={IEEE}
}
论文级别:SCI AI
影响因子:11.8
[论文下载地址]
[代码下载地址]
作者提出了一种基于【跨域远程学习】和【Swin Transformer】的【通用】图像融合框架SwinFusion。
Cross-domain long-range learning, image fusion,Swin transformer.
跨域远程学习,图像融合,Swin transformer
作者将所有的图像融合任务【建模】为:
并设计了CNN-Transformer通用图像融合框架
最终利用基于Transformer的【深度特征重建单元】和基于CNN的【融合图像重建单元】利用【全局和局部信息】重构融合图像。
参考链接
[什么是图像融合?(一看就通,通俗易懂)]
作者提出的网络结构如下图所示。3个部分为:特征提取、注意力引导的跨域融合以及重构
I 1 ∈ R H × W × C i n I_1∈\mathbb{R}^{H×W×C_{in}} I1∈RH×W×Cin和 I 2 ∈ R H × W × C i n I_2∈\mathbb{R}^{H×W×C_{in}} I2∈RH×W×Cin分别代表来自不同域的对齐源图像对, I f ∈ R H × W × C o u t I_f∈\mathbb{R}^{H×W×C_{out}} If∈RH×W×Cout是融合图像。 H H H、 W W W、 C i n C_{in} Cin和 C o u t C_{out} Cout分别是源图像的高、宽、通道数和融合图像的通道数。
首先,通过多层卷积 H S E ( ⋅ ) H_{SE}(·) HSE(⋅)提取 I 1 I_1 I1和 I 2 I_2 I2的浅层特征 F S F 1 F^1_{SF} FSF1和 F S F 2 F^2_{SF} FSF2:
然后,通过多层卷积 H D E ( ⋅ ) H_{DE}(·) HDE(⋅)提取浅层特征 F S F 1 F^1_{SF} FSF1和 F S F 2 F^2_{SF} FSF2的深层特征 F D F 1 F^1_{DF} FDF1和 F D F 2 F^2_{DF} FDF2:
设计了注意力引导跨域融合模块(attention-guided cross-domain fusion module ,ACFM)用来进一步挖掘域内和域间的全局上下文信息。
首先,设计了【基于自注意力机制的域内融合单元】来整合相同域内的全局交互。基于【转移窗机制】的注意力是融合单元的基础。给定大小为 W × H × C W×H×C W×H×C的特征 F F F,转移窗机制首先将输入分割为不重叠的 M × M M×M M×M个局部窗口,即将输入F reshape为 H W 2 × M 2 × C \frac{HW}{2}×M^2×C 2HW×M2×C, H W 2 \frac{HW}{2} 2HW是窗口的总数。
接下来,对每个局部窗口执行标准的自注意力机制。对局部窗口特征 X ∈ R M 2 × C X∈\mathbb{R}^{M^2×C} X∈RM2×C,三个可学习的权重矩阵 W Q ∈ R C × C W^Q∈\mathbb{R}^{C×C} WQ∈RC×C、 W K ∈ R C × C W^K∈\mathbb{R}^{C×C} WK∈RC×C和 W V ∈ R C × C W^V∈\mathbb{R}^{C×C} WV∈RC×C在不同窗口中共享,用来投影至 Q 、 K 、 V Q、K、V Q、K、V
此处可以参考Transformer和ViT的相关论文和讲解
参考链接
[史上最小白之Transformer详解]
[Transformer模型详解(图解最完整版)]
[ViT(Vision Transformer)解析]
[多头自注意力机制详解]
然后,Attention函数计算Q和所有K的点积后使用softmax归一化,从而获得注意力权重。注意力机制为:
d k d_k dk是K的维度。 B B B是可学习的相对位置编码。
局部窗口特征 X X X的域内融合单元的整个过程为:
MSA是多头自注意力,LN是层归一化(layer normalization, LN),FFN是前馈网络。 Z Z Z是域内融合单元的输出。
下图为连续两个Swin Transformer的框架,交替使用规则窗口划分和移位窗口划分实现跨窗口连接。
图4为ST和域内融合单元中用于计算注意力权值的移位窗口机制。
移位窗口意味着在划分之前将特征偏移了 ( M 2 , M 2 ) ({\frac{M}{2}},{\frac{M}{2}}) (2M,2M)像素。上图在层 l l l中使用规则窗口划分,即在每个窗口内计算注意力,在 l + 1 l+1 l+1层使用了移位窗口划分,导致窗口被移位,因此提供了窗口之间的连接。
(小编的理解是,四个团队,重塑为九个团队,你中有我我中有你,因此提供了“团队之间的连接”)
上面的是【域内】融合单元,接下来介绍【域间】融合融合单元
域间融合单元进一步整合了不同域间的全局交互。和域内的主要区别在于:
域间融合单元使用【多头交叉注意力机制】而不是【多头自注意力机制】来实现全局上下文信息交换。
给定两个来自不同域的局部窗口特征 X 1 X_1 X1和 X 2 X_2 X2,域间融合单元的整个过程为:
Q 1 Q_1 Q1来自域1,与来自域2的 K 2 K_2 K2和 V 2 V_2 V2进行注意力加权,从而合并跨域信息,同时通过残差连接保持域1的信息(即+ Q 1 Q_1 Q1)。【此处第二行公式感觉写错了,感觉等式左边应该是 { Q 2 , K 1 , V 1 } \{Q_2,K_1, V_1\} {Q2,K1,V1}】
之后,作者使用了一个空间不变卷积核来整合不同域的局部信息,增加SwinFusion的平移等变性(translational equivariance):
F A F 1 F^1_{AF} FAF1和 F A F 2 F^2_{AF} FAF2分别代表以 F D F 1 F^1_{DF} FDF1和 F D F 2 F^2_{DF} FDF2作为输入的,经过ACFM整合的输出特征。 H C o n v d ( ⋅ ) H_{Convd}(·) HConvd(⋅)代表空间不变卷积核, C o n c a t ( ⋅ ) Concat(·) Concat(⋅)为通道维度拼接。 F F D F F_{FDF} FFDF是特征重构模块的输入。
参考链接
[CNN中等变性和不变性]
作者设计了设计了基于transformer的深度特征重建单元和基于cnn的图像重建单元,将融合后的深度特征映射回图像空间。
首先,包含4层Swin Transformer的深度特征重构单元 H D R ( ⋅ ) H_{DR}(·) HDR(⋅)被用来从全局的角度融合深度特征并重构融合后的浅层特征:
然后,利用基于CNN的图像重构单元 H I R ( ⋅ ) H_{IR}(·) HIR(⋅)减少通道数并生成融合图像 I f I_f If:
损失函数=结构相似性损失+纹理损失+强度损失
其中,
本处认为两张源图像对融合结果贡献相同,故两个权重参数均为0.5。
纹理损失如下:
作者认为最大选择策略可以有效地聚合源图像中的纹理细节。
强度损失如下:
上式中, M ( ⋅ ) M(·) M(⋅)为面向元素的聚合操作。受【IFCNN】的启发,本文使用了平均操作。
参考链接
[IFCNN: A general image fusion framework based on convolutional neural network]
图像融合数据集链接
[图像融合常用数据集整理]
参考资料
✨✨✨强烈推荐必看博客 [图像融合定量指标分析]
参考资料
[图像融合论文baseline及其网络模型]
更多实验结果及分析可以查看原文:
[论文下载地址]
[代码下载地址]
[(MFEIF)Learning a Deep Multi-Scale Feature Ensemble and an Edge-Attention Guidance for Image Fusion]
[DenseFuse: A fusion approach to infrared and visible images]
[DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pair]
[GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF]
[DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion]
[IFCNN: A general image fusion framework based on convolutional neural network]
[(PMGI) Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity]
[SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion]
[DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion]
[FusionGAN: A generative adversarial network for infrared and visible image fusion]
[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
[U2Fusion: A Unified Unsupervised Image Fusion Network]
综述[Visible and Infrared Image Fusion Using Deep Learning]
[图像融合论文baseline及其网络模型]
[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]
[CVPR2023、ICCV2023论文题目汇总及词频统计]
✨[图像融合论文及代码整理最全大合集]
✨[图像融合常用数据集整理]
如有疑问可联系:[email protected];
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位早发paper,顺利毕业~