@inproceedings{huang2022reconet,
title={Reconet: Recurrent correction network for fast and efficient multi-modality image fusion},
author={Huang, Zhanbo and Liu, Jinyuan and Fan, Xin and Liu, Risheng and Zhong, Wei and Luo, Zhongxuan},
booktitle={European Conference on Computer Vision},
pages={539–555},
year={2022},
organization={Springer}
}
论文级别:ECCV 2022
影响因子:-
[论文下载地址]
[代码下载地址]
大多数现有方法无法处理轻微【错位】图像(即未对齐、配准)且【计算消耗较高】,为了解决这两个问题,作者提出了ReCoNet,该模型分别使用【变形模块】来补偿未配准问题,使用【注意力机制】减轻重影伪影问题。同时,该网络包含了一个【循环运行的并行膨胀卷积层】,显著降低空间和计算复杂度。
Deep learning · Multi-modality image fusion
深度学习,多模态图像融合
训练了一个微型配准模块( R \mathcal R R)预测输入图像的变形场,解决问题1
设计了一个循环并行扩张卷积层(PDC),解决问题2
参考链接
[什么是图像融合?(一看就通,通俗易懂)]
作者提出的网络结构如下所示。一眼看过去有点乱,其实很清晰。右上角是最核心的流图,左上角得到未配准图像,左下角是微配准模块用来配准图像,正下方是循环融合模块。
微配准模块可以解决因为几何畸变或者缩放引入的微配准误差,由两部分组成:形变场预测网络 R ϕ \mathcal R_\phi Rϕ和重采样层 R s \mathcal R_s Rs。
在形变场预测网络 R ϕ \mathcal R_\phi Rϕ中,形变场 ϕ \phi ϕ用于表示形变,实现了图像的非均匀精确映射。
给定一个红外图像 x x x和形变可见光图像 y ~ \tilde y y~, R ϕ \mathcal R_\phi Rϕ用于预测形变场 ϕ y ~ → y = R ϕ ( x , y ~ ) {\phi _{\tilde y \to y}} = {\mathcal R_\phi }\left( {x,\tilde y} \right) ϕy~→y=Rϕ(x,y~),描述了如何非刚性的对齐到 y ~ \tilde y y~。
形变场 ϕ ∈ R h × w × 2 \phi \in \mathbb R^{h×w×2} ϕ∈Rh×w×2,每对 ϕ h , w = ( Δ x h , Δ x w ) ∈ 2 {\phi _{h,w}} = \left( {\Delta {x_h},\Delta {x_w}} \right) \in {^2} ϕh,w=(Δxh,Δxw)∈2表示在 y ~ \tilde y y~中 ( h , w ) (h, w) (h,w)处像素 v h , w v_{h,w} vh,w的形变偏移量。
为了对图像进行几何变换,使用重采样层 R s \mathcal R_s Rs应用于由形变场预测网络 R ϕ \mathcal R_\phi Rϕ生成的形变场 ϕ y ~ → y {\phi _{\tilde y \to y}} ϕy~→y,并将其应用于变形的可见光图像 y ~ \tilde y y~。
转换后的可见光图像 y ˉ \bar y yˉ在像素 v h , w v_{h,w} vh,w处的值为:
随着网络深度加深,背景细节特征逐渐退化,以往的方法多采用加入注意力机制、密集连接、残差连接等方法。但是作者认为这种方法无法有效描述上下文信息。
基于此,作者提出了双相循环融合模块,在提高计算效率的同时,在多个尺度上充分表达了上下文特征。
该模块由最大池化、平均池化和无偏差的卷积层组成。取两幅图像中各个像素的【最大值和平均值,合并后】作为卷积层的输入:
A \mathcal A A表示双相注意力层, I a I_a Ia和 I b I_b Ib是两个输入图像, ∗ * ∗是卷积操作, θ A \theta_\mathcal A θA是卷积层的参数,如图所示,注意力图 σ x \sigma_x σx和 σ y \sigma_y σy由图像组 { x , u , y ˉ } \{x,u,\bar y\} {x,u,yˉ}计算得出:
A x \mathcal A_x Ax和 A y \mathcal A_y Ay分别代表红外和可见光注意层, u i u_i ui表示最后一次递归的融合结果。
其实就是不同膨胀因子的空洞卷积,并行运算后concat。如下图所示
参考链接
空洞卷积
用 f i n i f_{in}^i fini代表第i次迭代的扩张卷积层,逐步更新迭代并行空洞卷积层输出特征图 f o u t i f_{out}^i fouti:
上式中, θ C k \theta_C^k θCk和 b C k b_C^k bCk代表膨胀因子为k时卷积层的参数和偏置。
作者提出了一个循环体系结构代替耗时的多层卷积,从粗到细提取上下文特征。
总损失=融合损失+配准损失
上面的都是老生常谈,下面这个配准损失在之前的笔记里没有出现过,讲一下。
上式为:配准损失=相似损失+平滑损失
其中,相似损失和上面的SSIM不太一样:
ϕ y ~ → y {\phi _{\tilde y \to y}} ϕy~→y代表形变场。 ϕ y → y ~ {\phi _{ y \to \tilde y}} ϕy→y~代表生成的随机形变场。【下标顺序不一样】
对于2维空间 Ω \Omega Ω的一个体素 p p p,平滑损失为:
图像融合数据集链接
[图像融合常用数据集整理]
参考资料
✨✨✨强烈推荐必看博客 [图像融合定量指标分析]
参考资料
[图像融合论文baseline及其网络模型]
更多实验结果及分析可以查看原文:
[论文下载地址]
[代码下载地址]
[RFN-Nest: An end-to-end resid- ual fusion network for infrared and visible images]
[SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible Images]
[SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer]
[(MFEIF)Learning a Deep Multi-Scale Feature Ensemble and an Edge-Attention Guidance for Image Fusion]
[DenseFuse: A fusion approach to infrared and visible images]
[DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pair]
[GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF]
[DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion]
[IFCNN: A general image fusion framework based on convolutional neural network]
[(PMGI) Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity]
[SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion]
[DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion]
[FusionGAN: A generative adversarial network for infrared and visible image fusion]
[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
[U2Fusion: A Unified Unsupervised Image Fusion Network]
综述[Visible and Infrared Image Fusion Using Deep Learning]
[图像融合论文baseline及其网络模型]
[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]
[CVPR2023、ICCV2023论文题目汇总及词频统计]
✨[图像融合论文及代码整理最全大合集]
✨[图像融合常用数据集整理]
如有疑问可联系:[email protected];
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位早发paper,顺利毕业~