图像融合论文阅读笔记:SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme

@article{ma2022swinfusion,
title={SwinFusion: Cross-domain long-range learning for general image fusion via swin transformer},
author={Ma, Jiayi and Tang, Linfeng and Fan, Fan and Huang, Jun and Mei, Xiaoguang and Ma, Yong},
journal={IEEE/CAA Journal of Automatica Sinica},
volume={9},
number={7},
pages={1200–1217},
year={2022},
publisher={IEEE}
}


论文级别:SCI AI
影响因子:11.8

[论文下载地址]
[代码下载地址]


文章目录

  • 论文解读
    • 关键词
    • 核心思想
    • 网络结构
      • 特征提取
      • 注意力引导的跨域融合ACMF
      • 特征重构
    • 损失函数
    • 数据集
    • 训练设置
    • 实验
      • 评价指标
      • Baseline
      • 实验结果
  • 传送门
    • 图像融合相关论文阅读笔记
    • 图像融合论文baseline总结
    • 其他论文
    • 其他总结
    • ✨精品文章总结


论文解读

作者提出了一种基于【跨域远程学习】和【Swin Transformer】的【通用】图像融合框架SwinFusion。

  • 注意力引导的跨域模块,用来实现互补信息和全局信息的充分整合
    • 基于自注意力机制的域内融合单元,用来提取特有特征
    • 基于跨域注意力机制的域间融合单元,用来提取互补特征
    • 上述两种注意力机制都是由移位窗口(SwinTransformer)机制实现的,ST允许框架处理任意尺寸的图像
  • 提出了一个多场景图像融合问题的统一框架
  • 设计了由SSIM、纹理、强度损失构成的损失函数

关键词

Cross-domain long-range learning, image fusion,Swin transformer.
跨域远程学习,图像融合,Swin transformer

核心思想

作者将所有的图像融合任务【建模】为:

  • 【结构维护】
  • 【纹理保留】
  • 【适当的强度控制】

并设计了CNN-Transformer通用图像融合框架

  • 【CNN】的浅层特征提取单元负责提取【局部信息】
  • 【Transformer】的深度特征提取单元负责提取【全局交互信息】
  • 通过【注意力引导的跨域融合模块】整合域间和域内信息
    • 【域内融合单元】通过【自注意力机制】将全局上下文信息整合到相同域
    • 【域间融合单元】通过【跨域注意力机制】对多个源图像的长期依赖建模,然后通过【交换不同域的QKV】实现全局特征融合

最终利用基于Transformer的【深度特征重建单元】和基于CNN的【融合图像重建单元】利用【全局和局部信息】重构融合图像。

参考链接
[什么是图像融合?(一看就通,通俗易懂)]

网络结构

作者提出的网络结构如下图所示。3个部分为:特征提取、注意力引导的跨域融合以及重构
图像融合论文阅读笔记:SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme_第1张图片
I 1 ∈ R H × W × C i n I_1∈\mathbb{R}^{H×W×C_{in}} I1RH×W×Cin I 2 ∈ R H × W × C i n I_2∈\mathbb{R}^{H×W×C_{in}} I2RH×W×Cin分别代表来自不同域的对齐源图像对, I f ∈ R H × W × C o u t I_f∈\mathbb{R}^{H×W×C_{out}} IfRH×W×Cout是融合图像。 H H H W W W C i n C_{in} Cin C o u t C_{out} Cout分别是源图像的高、宽、通道数和融合图像的通道数。

特征提取

首先,通过多层卷积 H S E ( ⋅ ) H_{SE}(·) HSE()提取 I 1 I_1 I1 I 2 I_2 I2的浅层特征 F S F 1 F^1_{SF} FSF1 F S F 2 F^2_{SF} FSF2
在这里插入图片描述
然后,通过多层卷积 H D E ( ⋅ ) H_{DE}(·) HDE()提取浅层特征 F S F 1 F^1_{SF} FSF1 F S F 2 F^2_{SF} FSF2的深层特征 F D F 1 F^1_{DF} FDF1 F D F 2 F^2_{DF} FDF2
在这里插入图片描述

注意力引导的跨域融合ACMF

设计了注意力引导跨域融合模块(attention-guided cross-domain fusion module ,ACFM)用来进一步挖掘域内和域间的全局上下文信息。
首先,设计了【基于自注意力机制的域内融合单元】来整合相同域内的全局交互。基于【转移窗机制】的注意力是融合单元的基础。给定大小为 W × H × C W×H×C W×H×C的特征 F F F,转移窗机制首先将输入分割为不重叠的 M × M M×M M×M个局部窗口,即将输入F reshape为 H W 2 × M 2 × C \frac{HW}{2}×M^2×C 2HW×M2×C H W 2 \frac{HW}{2} 2HW是窗口的总数。
接下来,对每个局部窗口执行标准的自注意力机制。对局部窗口特征 X ∈ R M 2 × C X∈\mathbb{R}^{M^2×C} XRM2×C,三个可学习的权重矩阵 W Q ∈ R C × C W^Q∈\mathbb{R}^{C×C} WQRC×C W K ∈ R C × C W^K∈\mathbb{R}^{C×C} WKRC×C W V ∈ R C × C W^V∈\mathbb{R}^{C×C} WVRC×C在不同窗口中共享,用来投影至 Q 、 K 、 V Q、K、V QKV
在这里插入图片描述

此处可以参考Transformer和ViT的相关论文和讲解
参考链接
[史上最小白之Transformer详解]
[Transformer模型详解(图解最完整版)]
[ViT(Vision Transformer)解析]
[多头自注意力机制详解]
然后,Attention函数计算Q和所有K的点积后使用softmax归一化,从而获得注意力权重。注意力机制为:

在这里插入图片描述
d k d_k dk是K的维度。 B B B是可学习的相对位置编码。
局部窗口特征 X X X的域内融合单元的整个过程为:
图像融合论文阅读笔记:SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme_第2张图片
MSA是多头自注意力,LN是层归一化(layer normalization, LN),FFN是前馈网络。 Z Z Z是域内融合单元的输出。
在这里插入图片描述
下图为连续两个Swin Transformer的框架,交替使用规则窗口划分和移位窗口划分实现跨窗口连接。
图像融合论文阅读笔记:SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme_第3张图片
图4为ST和域内融合单元中用于计算注意力权值的移位窗口机制。
图像融合论文阅读笔记:SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme_第4张图片
移位窗口意味着在划分之前将特征偏移了 ( M 2 , M 2 ) ({\frac{M}{2}},{\frac{M}{2}}) (2M,2M)像素。上图在层 l l l中使用规则窗口划分,即在每个窗口内计算注意力,在 l + 1 l+1 l+1层使用了移位窗口划分,导致窗口被移位,因此提供了窗口之间的连接。
(小编的理解是,四个团队,重塑为九个团队,你中有我我中有你,因此提供了“团队之间的连接”)


上面的是【域内】融合单元,接下来介绍【域间】融合融合单元
域间融合单元进一步整合了不同域间的全局交互。和域内的主要区别在于:
域间融合单元使用【多头交叉注意力机制】而不是【多头自注意力机制】来实现全局上下文信息交换。
给定两个来自不同域的局部窗口特征 X 1 X_1 X1 X 2 X_2 X2,域间融合单元的整个过程为:
图像融合论文阅读笔记:SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme_第5张图片
Q 1 Q_1 Q1来自域1,与来自域2的 K 2 K_2 K2 V 2 V_2 V2进行注意力加权,从而合并跨域信息,同时通过残差连接保持域1的信息(即+ Q 1 Q_1 Q1)。【此处第二行公式感觉写错了,感觉等式左边应该是 { Q 2 , K 1 , V 1 } \{Q_2,K_1, V_1\} {Q2,K1,V1}
之后,作者使用了一个空间不变卷积核来整合不同域的局部信息,增加SwinFusion的平移等变性(translational equivariance):
在这里插入图片描述
F A F 1 F^1_{AF} FAF1 F A F 2 F^2_{AF} FAF2分别代表以 F D F 1 F^1_{DF} FDF1 F D F 2 F^2_{DF} FDF2作为输入的,经过ACFM整合的输出特征。 H C o n v d ( ⋅ ) H_{Convd}(·) HConvd()代表空间不变卷积核, C o n c a t ( ⋅ ) Concat(·) Concat()为通道维度拼接。 F F D F F_{FDF} FFDF是特征重构模块的输入。

参考链接
[CNN中等变性和不变性]

特征重构

作者设计了设计了基于transformer的深度特征重建单元和基于cnn的图像重建单元,将融合后的深度特征映射回图像空间。
首先,包含4层Swin Transformer的深度特征重构单元 H D R ( ⋅ ) H_{DR}(·) HDR()被用来从全局的角度融合深度特征并重构融合后的浅层特征:
在这里插入图片描述
然后,利用基于CNN的图像重构单元 H I R ( ⋅ ) H_{IR}(·) HIR()减少通道数并生成融合图像 I f I_f If
在这里插入图片描述

损失函数

损失函数=结构相似性损失+纹理损失+强度损失
在这里插入图片描述
其中,
在这里插入图片描述
本处认为两张源图像对融合结果贡献相同,故两个权重参数均为0.5。
纹理损失如下:
在这里插入图片描述
作者认为最大选择策略可以有效地聚合源图像中的纹理细节。
强度损失如下:
在这里插入图片描述
上式中, M ( ⋅ ) M(·) M()为面向元素的聚合操作。受【IFCNN】的启发,本文使用了平均操作。

参考链接
[IFCNN: A general image fusion framework based on convolutional neural network]

数据集

图像融合数据集链接
[图像融合常用数据集整理]

训练设置

实验

评价指标

  • FMI
  • QABF
  • SSIM
  • PSNR

参考资料
✨✨✨强烈推荐必看博客 [图像融合定量指标分析]

Baseline

  • 统一图像融合算法
    • IFCNN
    • PMGI
    • SDNet
    • U2Fusion
  • VIF
    • GTF
    • DenseFuse
    • FusionGAN
  • VIS-NIR
    • ANVF
    • DenseFuse
    • GANMcC
  • MED
    • CSMCA
    • EMFusion
    • DDcGAN
  • MEF
    • SPD-MEF
    • MEFNet
    • MEF-GAN
  • MFF
    • SFMD
    • DRPL
    • MFFGANXXXXXX
      上面粗体斜体为传统方法,其余方法均为基于深度学习的方法。

参考资料
[图像融合论文baseline及其网络模型]

实验结果

图像融合论文阅读笔记:SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme_第6张图片
图像融合论文阅读笔记:SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme_第7张图片
图像融合论文阅读笔记:SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme_第8张图片
图像融合论文阅读笔记:SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme_第9张图片





图像融合论文阅读笔记:SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme_第10张图片
图像融合论文阅读笔记:SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme_第11张图片
图像融合论文阅读笔记:SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme_第12张图片
图像融合论文阅读笔记:SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transforme_第13张图片

更多实验结果及分析可以查看原文:
[论文下载地址]
[代码下载地址]


传送门

图像融合相关论文阅读笔记

[(MFEIF)Learning a Deep Multi-Scale Feature Ensemble and an Edge-Attention Guidance for Image Fusion]
[DenseFuse: A fusion approach to infrared and visible images]
[DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pair]
[GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF]
[DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion]
[IFCNN: A general image fusion framework based on convolutional neural network]
[(PMGI) Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity]
[SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion]
[DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion]
[FusionGAN: A generative adversarial network for infrared and visible image fusion]
[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
[U2Fusion: A Unified Unsupervised Image Fusion Network]
综述[Visible and Infrared Image Fusion Using Deep Learning]

图像融合论文baseline总结

[图像融合论文baseline及其网络模型]

其他论文

[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]

其他总结

[CVPR2023、ICCV2023论文题目汇总及词频统计]

✨精品文章总结

✨[图像融合论文及代码整理最全大合集]
✨[图像融合常用数据集整理]

如有疑问可联系:[email protected];
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位早发paper,顺利毕业~

你可能感兴趣的:(图像融合,论文阅读,笔记,图像处理,深度学习,论文笔记,人工智能)