图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion

@inproceedings{huang2022reconet,
title={Reconet: Recurrent correction network for fast and efficient multi-modality image fusion},
author={Huang, Zhanbo and Liu, Jinyuan and Fan, Xin and Liu, Risheng and Zhong, Wei and Luo, Zhongxuan},
booktitle={European Conference on Computer Vision},
pages={539–555},
year={2022},
organization={Springer}
}


论文级别:ECCV 2022
影响因子:-

[论文下载地址]
[代码下载地址]


文章目录

  • 论文解读
    • 关键词
    • 核心思想
    • 网络结构
      • 微配准模块 R \mathcal R R(Micro Registration Module)
      • 双相循环融合模块(Biphasic Recurrent Fusion Module)
      • 并行扩张卷积层(parallel dilated convolutional layer)
      • 循环学习
    • 损失函数
    • 数据集
    • 训练设置
    • 实验
      • 评价指标
      • Baseline
      • 实验结果
  • 传送门
    • 图像融合相关论文阅读笔记
    • 图像融合论文baseline总结
    • 其他论文
    • 其他总结
    • ✨精品文章总结


论文解读

大多数现有方法无法处理轻微【错位】图像(即未对齐、配准)且【计算消耗较高】,为了解决这两个问题,作者提出了ReCoNet,该模型分别使用【变形模块】来补偿未配准问题,使用【注意力机制】减轻重影伪影问题。同时,该网络包含了一个【循环运行的并行膨胀卷积层】,显著降低空间和计算复杂度。

关键词

Deep learning · Multi-modality image fusion
深度学习,多模态图像融合

核心思想

训练了一个微型配准模块( R \mathcal R R)预测输入图像的变形场,解决问题1
设计了一个循环并行扩张卷积层(PDC),解决问题2

参考链接
[什么是图像融合?(一看就通,通俗易懂)]

网络结构

作者提出的网络结构如下所示。一眼看过去有点乱,其实很清晰。右上角是最核心的流图,左上角得到未配准图像,左下角是微配准模块用来配准图像,正下方是循环融合模块。
图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion_第1张图片
图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion_第2张图片

微配准模块 R \mathcal R R(Micro Registration Module)

图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion_第3张图片

微配准模块可以解决因为几何畸变或者缩放引入的微配准误差,由两部分组成:形变场预测网络 R ϕ \mathcal R_\phi Rϕ和重采样层 R s \mathcal R_s Rs
在形变场预测网络 R ϕ \mathcal R_\phi Rϕ中,形变场 ϕ \phi ϕ用于表示形变,实现了图像的非均匀精确映射。
给定一个红外图像 x x x和形变可见光图像 y ~ \tilde y y~ R ϕ \mathcal R_\phi Rϕ用于预测形变场 ϕ y ~ → y = R ϕ ( x , y ~ ) {\phi _{\tilde y \to y}} = {\mathcal R_\phi }\left( {x,\tilde y} \right) ϕy~y=Rϕ(x,y~),描述了如何非刚性的对齐到 y ~ \tilde y y~
形变场 ϕ ∈ R h × w × 2 \phi \in \mathbb R^{h×w×2} ϕRh×w×2,每对 ϕ h , w = ( Δ x h , Δ x w ) ∈ 2 {\phi _{h,w}} = \left( {\Delta {x_h},\Delta {x_w}} \right) \in {^2} ϕh,w=(Δxh,Δxw)2表示在 y ~ \tilde y y~ ( h , w ) (h, w) (h,w)处像素 v h , w v_{h,w} vh,w的形变偏移量。
为了对图像进行几何变换,使用重采样层 R s \mathcal R_s Rs应用于由形变场预测网络 R ϕ \mathcal R_\phi Rϕ生成的形变场 ϕ y ~ → y {\phi _{\tilde y \to y}} ϕy~y,并将其应用于变形的可见光图像 y ~ \tilde y y~
转换后的可见光图像 y ˉ \bar y yˉ在像素 v h , w v_{h,w} vh,w处的值为:
在这里插入图片描述

双相循环融合模块(Biphasic Recurrent Fusion Module)

图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion_第4张图片

随着网络深度加深,背景细节特征逐渐退化,以往的方法多采用加入注意力机制、密集连接、残差连接等方法。但是作者认为这种方法无法有效描述上下文信息。
基于此,作者提出了双相循环融合模块,在提高计算效率的同时,在多个尺度上充分表达了上下文特征。
该模块由最大池化、平均池化和无偏差的卷积层组成。取两幅图像中各个像素的【最大值和平均值,合并后】作为卷积层的输入:
在这里插入图片描述
A \mathcal A A表示双相注意力层, I a I_a Ia I b I_b Ib是两个输入图像, ∗ * 是卷积操作, θ A \theta_\mathcal A θA是卷积层的参数,如图所示,注意力图 σ x \sigma_x σx σ y \sigma_y σy由图像组 { x , u , y ˉ } \{x,u,\bar y\} {x,u,yˉ}计算得出:
在这里插入图片描述
A x \mathcal A_x Ax A y \mathcal A_y Ay分别代表红外和可见光注意层, u i u_i ui表示最后一次递归的融合结果。

并行扩张卷积层(parallel dilated convolutional layer)

其实就是不同膨胀因子的空洞卷积,并行运算后concat。如下图所示

参考链接
空洞卷积

图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion_第5张图片
f i n i f_{in}^i fini代表第i次迭代的扩张卷积层,逐步更新迭代并行空洞卷积层输出特征图 f o u t i f_{out}^i fouti

在这里插入图片描述
上式中, θ C k \theta_C^k θCk b C k b_C^k bCk代表膨胀因子为k时卷积层的参数和偏置。

循环学习

作者提出了一个循环体系结构代替耗时的多层卷积,从粗到细提取上下文特征。
图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion_第6张图片

损失函数

总损失=融合损失+配准损失
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
上面的都是老生常谈,下面这个配准损失在之前的笔记里没有出现过,讲一下。
在这里插入图片描述
上式为:配准损失=相似损失+平滑损失
其中,相似损失和上面的SSIM不太一样:
在这里插入图片描述
ϕ y ~ → y {\phi _{\tilde y \to y}} ϕy~y代表形变场。 ϕ y → y ~ {\phi _{ y \to \tilde y}} ϕyy~代表生成的随机形变场。【下标顺序不一样】

对于2维空间 Ω \Omega Ω的一个体素 p p p,平滑损失为:
在这里插入图片描述

数据集

  • TNO ,RoadScene

图像融合数据集链接
[图像融合常用数据集整理]

训练设置

实验

评价指标

  • SD
  • EN
  • CC

参考资料
✨✨✨强烈推荐必看博客 [图像融合定量指标分析]

Baseline

  • DenseFuse, FusionGAN, RFN , GANMcC, MFEIF , PMGI , DIDFuse and U2Fusion

参考资料
[图像融合论文baseline及其网络模型]

实验结果

图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion_第7张图片
图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion_第8张图片
图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion_第9张图片
图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion_第10张图片
图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion_第11张图片
图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion_第12张图片
图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion_第13张图片
图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion_第14张图片
图像融合论文阅读:ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion_第15张图片

更多实验结果及分析可以查看原文:
[论文下载地址]
[代码下载地址]


传送门

图像融合相关论文阅读笔记

[RFN-Nest: An end-to-end resid- ual fusion network for infrared and visible images]
[SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible Images]
[SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer]
[(MFEIF)Learning a Deep Multi-Scale Feature Ensemble and an Edge-Attention Guidance for Image Fusion]
[DenseFuse: A fusion approach to infrared and visible images]
[DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pair]
[GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF]
[DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion]
[IFCNN: A general image fusion framework based on convolutional neural network]
[(PMGI) Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity]
[SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion]
[DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion]
[FusionGAN: A generative adversarial network for infrared and visible image fusion]
[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
[U2Fusion: A Unified Unsupervised Image Fusion Network]
综述[Visible and Infrared Image Fusion Using Deep Learning]

图像融合论文baseline总结

[图像融合论文baseline及其网络模型]

其他论文

[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]

其他总结

[CVPR2023、ICCV2023论文题目汇总及词频统计]

✨精品文章总结

✨[图像融合论文及代码整理最全大合集]
✨[图像融合常用数据集整理]

如有疑问可联系:[email protected];
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位早发paper,顺利毕业~

你可能感兴趣的:(图像融合,论文阅读,图像处理,论文笔记,深度学习,人工智能,图像融合)