RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion

1.Abstract

在这篇论文中,我们提出了一种新颖的方法,以实现多模态图像的配准和融合,该方法在一个相互强化的框架中被称为RFNet。我们以粗到精的方式处理配准过程。首次,我们利用图像融合的反馈来提高配准的准确性,而不是将它们视为两个独立的问题。精确配准的结果还改善了融合性能。具体而言,对于图像配准,我们解决了定义适用于多模态图像和促进网络收敛的配准度量的瓶颈问题。这些度量分别基于粗阶段的图像平移精阶段的图像融合来定义。通过设计的度量基于可变形卷积的网络来促进收敛。对于图像融合,我们注重纹理保护,这不仅增加了融合结果的信息量和质量,还改善了融合结果的反馈。我们在具有大的全局视差局部不对齐对齐图像的多模态图像上评估了所提出的方法,以验证配准和融合的性能。这些情况下的结果证明了我们方法的有效性。

2.Introduction

RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion_第1张图片

由于多模态图像来自不同的设备/传感器,它们之间的位置、角度等差异不可避免地导致视差。然而,几乎所有的融合方法都没有考虑到这些视差。它们要求在融合之前进行准确的配准,如图1(a)所示。当配准和融合作为两个独立的问题时,现有的融合方法只能“容忍”而不是“解决”预配准对齐问题

同时,在现有的研究中,图像融合是配准的下游任务,无法提供反馈以提高配准的准确性。然而,考虑到融合图像的特点,图像融合反过来可以消除对齐问题。

  • 首先,融合图像整合了两个模态的信息。当将融合图像与任一源图像对齐时,减轻的模态差异降低了配准的难度
  • 其次,融合图像中的未对齐问题无疑会导致更多但重复的显著结构,即密集的梯度。相比之下,准确的配准鼓励梯度的稀疏性。因此,融合结果的梯度稀疏性可以作为一种准则,以反馈的方式改善配准准确性,而不会丢失源图像中的场景信息。
  • 第三,融合图像保留了单个图像中明显的显著结构,并在融合过程中舍弃了一些多余和无用的信息。这减少了多余信息对图像配准的负面影响。当图像融合有助于消除对齐问题时,更准确对齐的数据又进一步促进了融合结果。因此,这两个任务可以相互加强,如图1(b)所示。

提出的框架如图1(b)所示。配准过程采用粗到精的方法进行处理。粗阶段通过基于图像平移的评估度量来修正全局对齐问题。粗配准结果有助于生成有意义但粗糙的融合图像图像融合和精确的配准在一个单一的网络中进行整合。然后,为了纠正局部对齐问题,我们依赖融合图像的特点来优化网络中与变形相关的部分。最后,网络生成精确配准和融合的图像。

RFNet的主要贡献总结如下:

  • 我们在本文中相互强化了多模态图像的配准和融合问题。这是第一次利用图像融合通过深度神经网络促进多模态图像的配准准确性。
  • 我们专注于设计约束以优化多模态配准性能。在粗阶段,我们采用图像平移来构建一个基于图像级的评估度量。我们提出了改进的网络架构,以帮助促进网络收敛。在精阶段,度量基于融合结果进行设计。
  • 考虑到图像融合中的纹理保留,我们采用了梯度通道注意机制来自适应调整特征的通道贡献。此外,我们设计了一个带有偏置的梯度损失。网络架构和损失函数都基于纹理丰富性。

️:怎样理解配准鼓励梯度的稀疏性?

答:当图像对齐准确时,相似的特征将在融合图像中的相同位置对齐,这会导致梯度的稀疏性。在对齐的区域,相似的像素值在空间上是连续变化的,而不是突变。这种连续变化会导致图像中的梯度值相对较小,因为相邻像素之间的差异较小。因此,融合图像中的梯度将更加稀疏,即梯度值较少且较小。

相反,当图像对齐不准确时,相似的特征可能没有正确对齐,导致不连续的像素值变化。在融合图像中,这些不连续的变化会导致较大的梯度值,因为相邻像素之间的差异较大。这会使梯度变得更加密集,即梯度值较多且较大。

3.Related works

多模态图像配准。传统的配准方法包括基于变换基于测量的方法。

  • 基于变换的方法将图像转换到一个共同的空间以展现更好的一致性。它们通过手动分析多模态特征并设计约束来强制一致性。然而,这些方法中的优化是棘手的。
  • 基于测量的方法旨在测量相似性,对模态变化的敏感性较低。代表性的方法包括互信息(MI),区域互信息等,这些方法计算复杂且不适合梯度下降。
  • 最近,提出了基于深度学习的方法。例如,Wang等人使用网络创建模态无关的特征,但仍存在稀疏性的缺点。与我们的工作最接近的是,Arar等人学习了一种跨模态的转换。然而,变换和配准网络的协同训练增加了优化配准网络的难度。在我们的工作中,我们发现将转换后的图像在同一域中输入网络可以同时提高配准准确性和加快收敛速度。此外,与现有的配准网络相比,我们在网络中采用了可变形卷积,因为可变形卷积可以处理未配准图像中的形变,从而提高配准的准确性和鲁棒性。与我们的工作最相关的是,SIRF证实,如果正确联合配准和融合确实可以改善结果。然而,这项工作是在传统的矢量全变差模型中实现的,并且针对具有严格局部不对齐的遥感图像设计的。

多模态图像融合。现有的融合方法针对已对齐的图像而不考虑对齐问题。传统方法包括六种类别:基于多尺度变换、稀疏表示、子空间、显著性、混合方法和其他方法。它们致力于手动设计分解方式和融合策略,而详细和多样化的设计使它们变得越来越复杂。为了解决这个问题,一些基于深度学习的方法被提出。其中一些方法不关注纹理保留,一些生成对抗网络方法会产生虚假和模糊的细节。即使一些方法关注纹理,它们是根据图像模态而不是特定区域的实际纹理来保留纹理。在这项工作中,我们采用了基于梯度的注意机制带有偏差的梯度损失来增强纹理保留。此外,该网络融合了变形,从而可以基于保留的纹理进行错位校正。

️:为什么可变形卷积起到作用?

答:在图像配准任务中,未配准的图像可能存在不同的形变,如旋转、缩放、拉伸等。为了准确地将这些未配准的图像进行配准,传统的卷积操作可能无法充分考虑到图像中的形变信息。而可变形卷积则具有一定的变形能力,能够根据图像内容自适应地调整卷积核的采样位置,以更好地适应图像中的形变

4.Proposed Method

RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion_第2张图片

我们设计了一个无监督网络来实现多模态图像配准和融合的相互增强,称为RFNet。整体流程如图2所示,包括两个主要部分。首先,粗略配准模块基于仿射变换模型进行全局校正。然后,多模态图像被粗略对齐,除了一些局部的平行线,这些地方不适用仿射模型。其次,精确的配准和融合在一个统一的模块/网络中实现,称为精确配准和融合模块(F2M)。

️:什么是仿射变换?

答:仿射变换是一种几何变换模型,可以用来对图像进行平移、旋转、缩放和剪切等变换操作。它是在二维空间中对点或图像进行线性变换和平移的组合操作。具体来说,仿射变换可以通过一个 2x3 的矩阵来表示,其中矩阵的前两列表示变换矩阵,最后一列表示平移矩阵。通过对原始图像中的所有点进行仿射变换,可以得到经过变换后的新图像

4.1. COARSE REGISTRATION MODULE

RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion_第3张图片

本文提出的粗略配准模块的流程如图3所示。首先,TransNet将多模态图像转换为相同的域(即将 I x I_x Ix转换为 I x → y I_{x→y} Ixy)。然后,AffineNet以 I x → y 和 I y I_{x→y}和I_y IxyIy作为输入,并输出仿射参数以生成 I x I_x Ix变形场

疑问️:如何将多模态图像转换为相同的域?为什么要转换到同一域中呢?

答:卷积神经网络(CNN)在图像转换任务中经常被使用,但单独使用卷积操作并不能直接实现多模态图像之间的转换。传统的卷积操作主要用于提取图像的局部特征,而无法对整个图像的模态差异进行建模和转换。为了实现多模态图像之间的转换,通常需要借助于特定的网络架构和训练方法。例如,可以采用生成对抗网络(GAN)或自编码器(Autoencoder)等结构。这些网络结构可以通过学习数据之间的映射关系,将多模态图像转换为相同的域,使它们在特征空间上更加接近。==生成对抗网络(GAN)==包括一个生成器和一个判别器。生成器负责将多模态图像转换为目标域,判别器则用于区分生成的图像和目标域图像。通过对抗性训练,生成器和判别器相互竞争,最终生成器可以学习到将多模态图像转换为目标域的能力。==自编码器(Autoencoder)==则是一种用于学习输入数据的低维表示的网络结构。通过将多模态图像输入到自编码器中,训练网络使其能够将多模态图像压缩为共享的低维表示,然后再通过解码器将其恢复为目标域图像。

我们发现将转换后的图像在同一域中输入网络可以同时提高配准准确性和加快收敛速度

4.1.1 Image Translation Network

TransNet旨在学习图像转换函数 T x y T^y_x Txy,其中 T x y T^y_x Txy表示将域x中的图像 I x I_x Ix转换为域y,同时保留内容信息。因此,我们使用编码器将 I x I_x Ix嵌入内容空间 c x = E x ( I x ) c_x = E_x(I_x) cx=Ex(Ix),同时去除域信息。为了确保 c x c_x cx包含内容信息,我们通过解码器 D x 和 D y D_x和D_y DxDy将其映射回域,如图4所示。

RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion_第4张图片

c x c_x cx映射回域x的结果应该重构为 I x I_x Ix,即 I x r e c o n = T x ( I x ) = D x ( E x ( I x ) ) I^{recon}_x = T_x(I_x) = D_x(E_x(I_x)) Ixrecon=Tx(Ix)=Dx(Ex(Ix))。映射到域y的结果应该是转换后的 I x I_x Ix,即 I x → y = T y ( I x ) = D y ( E x ( I x ) ) I_{x→y} = T_y(I_x) = D_y(E_x(I_x)) Ixy=Ty(Ix)=Dy(Ex(Ix))

类似地,对于域y中的 I y I_y Iy,重构和转换的结果分别是 I y r e c o n = T y ( I y ) 和 I y → x = T x ( I y ) I^{recon}_y = T_y(I_y)和I_{y→x} = T_x(I_y) Iyrecon=Ty(Iy)Iyx=Tx(Iy)。为了鼓励编码器提取内容信息和解码器恢复与域相关的信息,定义了重构损失和转换损失。重构损失和转换损失的定义如下:
L r e c o n = ∥ I x − I x r e c o n ∥ 1 + ∥ I y − I y r e c o n ∥ 1 , L_{recon} = ∥I_x − I^{recon}_x∥_1 + ∥I_y − I^{recon}_y∥_1, Lrecon=IxIxrecon1+IyIyrecon1

L t r a n s = ∥ I x − I y → x ∥ 1 + ∥ I y − I x → y ∥ 1 ( 1 ) L_{trans} = ∥I_x − I_{y→x}∥_1 + ∥I_y − I_{x→y}∥_1 \quad (1) Ltrans=IxIyx1+IyIxy1(1)

TransNet的最终损失函数如下,其中η是控制权衡的超参数:

L T r a n s N e t = L r e c o n + η L t r a n s , ( 2 ) L_{TransNet} = L_{recon} + ηL_{trans}, \quad (2) LTransNet=Lrecon+ηLtrans,(2)

TransNet的网络架构如下图所示。我们使用实例归一化而不是批归一化,因为它执行一种样式归一化。为了将不同的域映射到相同的内容空间,除了设计的损失函数之外,编码器的最后几层和解码器的第一层的权重是共享的。

RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion_第5张图片

️:为什么编码器的最后几层和解码器的第一层的权重是共享的?

答:首先

  • 编码器是一个用于提取输入数据的特征表示的模块。它将输入数据(如图像)转换为较低维度的表示,捕捉输入数据的重要特征。

  • 解码器是一个用于从编码器的特征表示中还原原始数据的模块。它将编码器提取的特征转换回原始数据的形式,以便在目标域中重建或生成与输入数据相似的内容。

    编码器的最后几层和解码器的第一层使用相同的权重参数,这意味着它们共享相同的变换规则。

    通过共享权重,编码器的特征表示可以被解码器更好地还原,从而使不同的域之间能够更好地进行映射和转换。

:笔记(关于Deconvlution layer)

  • Deconvolution layer 的作用是将输入特征图进行上采样,将其尺寸从较小的尺寸恢复到较大的尺寸。这与常规的卷积层相反,卷积层通常将输入特征图的尺寸减小。在实现上,Deconvolution layer 使用了卷积的转置操作。转置卷积将卷积核应用于输入特征图,但在进行卷积计算时,将填充值(padding)和步幅(stride)进行反转。这样可以在输出特征图上实现上采样,增加特征图的尺寸。

4.1.2 Affine Network

RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion_第6张图片

AffineNet学习生成相应的仿射变换函数C。当输入一对不对齐的图像 I x → y 和 I y I_{x→y}和I_y IxyIy时,它输出仿射参数 p a f f = C ( I x → y , I y ) p_{aff} = C(I_{x→y}, I_y) paff=C(Ixy,Iy)。根据 p a f f p_{aff} paff,我们通过在regular grid上应用 p a f f p_{aff} paff去生成大小为H×W×2的deformation filed φ φ φ φ φ φ表示 I x → y I_{x→y} Ixy中所有像素的变形。数学上,表示为:

I x → y C [ i + φ i , j , 1 , j + φ i , j , 2 ] = I x → y [ i , j ] , ( 3 ) I^C_{x→y}[i + φ_{i,j,1}, j + φ_{i,j,2}] = I_{x→y}[i, j],\quad (3) IxyC[i+φi,j,1,j+φi,j,2]=Ixy[i,j](3)

其中i和j表示像素的位置。 φ φ φ的两个通道分别表示垂直和水平方向的偏差(下标1和2)。

根据上述描述,多模态图像配准问题已转化为 I x → y C I^C_{x→y} IxyC和源图像 I y I_y Iy之间的相似性。因此,AffineNet的损失函数被定义为约束它们相似性的函数。为了便于计算和对光照幅度的线性变化的较弱敏感性,我们使用归一化互相关(NCC)作为相似性度量。因此,配准损失定义如下:

L c o a r s e = − N C C ( I x → y C , I y ) , ( 4 ) L_{coarse} = -NCC(I^C_{x→y}, I_y),\quad (4) Lcoarse=NCC(IxyC,Iy)(4)

其中NCC(s, g)定义为:

N C C ( s , g ) = E [ ( s − µ s ) ⊙ ( g − µ g ) ] ( √ ( E [ ( s − µ s ) 2 ] ) √ ( E [ ( g − µ g ) 2 ] ) ) ( 5 ) NCC(s, g) = \frac{E[(s − µ_s) ⊙ (g − µ_g)]} { (√(E[(s − µ_s)²]) √(E[(g − µ_g)²]))} \quad (5) NCC(s,g)=((E[(sµs)2])(E[(gµg)2]))E[(sµs)(gµg)](5)

其中 E [ x ] = 1 / H W Σ i = 1 H Σ j = 1 W x i , j E[x] = 1/HW Σ^H_{i=1} Σ^W_{j=1} x_{i,j} E[x]=1/HWΣi=1HΣj=1Wxi,j , , x i , j x_{i,j} xi,j是x在第i行和第j列的像素, µ s µ_s µs µ g µ_g µg是s和g的均值,⊙是Hadamard乘积。

当获得最佳的变形场 φ φ φ时,我们对 I x I_x Ix执行相同的空间变换,根据公式(3)生成粗略对齐的图像 I x C I^C_x IxC

AffineNet的网络架构如下图中所示。对于图像配准,两个未对齐图像中的对应对象的区域可能会发生相当大的移动。考虑到长距离的视差,需要使用较大的卷积核大小和深层网络层以获得较大的感受野。为了缓解多模态图像配准中的大视差和局部不对齐的问题,该方法采用了可变形卷积层来替代传统卷积层中的固定感受野可变形卷积层通过引入从前一层特征图中学习得到的偏移量来增强感受野。因此,它可以反映未配准图像中的变形情况,从而提高配准的准确性和鲁棒性。

RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion_第7张图片

可变形卷积层的使用允许网络根据输入图像的特定特征来自适应调整感受野。这样一来,网络可以更好地捕捉到多模态图像之间的局部变化和不对齐情况。此外,可变形卷积层通过使网络能够处理不同模态之间发生的变形和空间变换,增强了配准过程的鲁棒性。

️:有关于变形场的解释?

‍:变形场(deformation field)用于描述图像或物体的像素在空间中的偏移或变形情况。

变形场的维度为H×W×2的原因如下:

  1. 二维场:变形场是一个二维场,因为它描述了图像或物体在水平和垂直方向上的变形情况。每个像素对应一个二维向量,表示该像素在x和y方向上的偏移量。
  2. H×W:变形场的高度和宽度维度与图像或物体的尺寸相匹配。每个像素在变形场中有对应的位置,因此需要与图像或物体的尺寸保持一致。
  3. 2:每个像素在变形场中用一个二维向量表示其在x和y方向上的偏移量。因此,每个像素在变形场中需要两个值来表示其偏移量。

️:仿射参数如何在regular grid上使用呢?

‍:需要定义一个规则的网格,也称为regular grid。这个网格是由一系列均匀分布的点构成的,通常是在二维图像上形成的。每个点的坐标表示网格上的位置。然后,对于每个网格上的点,我们使用仿射参数进行变换。仿射参数描述了仿射变换所需的平移、旋转、缩放和剪切等操作。通过将仿射参数应用到网格点上,可以根据这些参数计算出每个点在变形后的位置。

具体来说,对于网格上的每个点 ( x , y ) (x, y) (x,y),我们可以使用仿射参数 p a f f p_{aff} paff来计算变形后的位置 ( x ′ , y ′ ) (x', y') (x,y)。这可以通过仿射变换公式实现:

x' = p_{aff}[0, 0] * x + p_{aff}[0, 1] * y + p_{aff}[0, 2]
y' = p_{aff}[1, 0] * x + p_{aff}[1, 1] * y + p_{aff}[1, 2]

通过对网格上的每个点进行仿射变换,我们可以计算出变形后的位置 ( x ′ , y ′ ) (x', y') (x,y)。这样,我们就得到了一个大小为H×W×2的变形场(deformation field),其中H和W表示图像的高度和宽度。

变形场中的每个像素值表示了原始图像中对应位置像素经过仿射变换后的新位置。通过应用变形场到原始图像中的所有像素,我们可以实现图像的变形和对齐,使得不对齐的图像能够更准确地与目标图像对齐。

️:可变形卷积?

‍:传统的卷积层中,每个卷积核的权重都是固定的,它们会在输入特征图上进行滑动以提取特征。而可变形卷积层通过引入偏移量的概念,使得每个卷积核的权重在输入特征图上的位置是可变的。

具体而言,可变形卷积层引入了一个额外的偏移量学习模块,该模块会从前一层的特征图中学习得到一组偏移量。这些偏移量表示了当前位置与卷积核中心位置之间的偏移量。通过将这些偏移量应用到卷积核的中心位置,可以使得卷积核在每个位置上都能够适应输入特征图的局部形状变化。

通过引入偏移量,可变形卷积层可以增强感受野。传统的卷积层中,每个卷积核的权重在滑动过程中都是固定的,无法适应输入特征图中的细微形状变化。而可变形卷积层通过根据学习得到的偏移量调整卷积核的位置,使得卷积核能够更好地适应输入特征图的局部形状变化,从而扩大了卷积核的感受野范围。

4.2. Mutually Reinforcing Fine Registration and Fusion Module (F2M)

RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion_第8张图片

第一阶段,F2M实现了以纹理为重点的图像融合,这也是精细配准的基础。其流程如图5所示。我们针对F2M中除了变形模块以外的参数进行图像融合的优化。变形模块依赖于初始化的参数来生成变形场,这些参数自动趋向于相同。在这种情况下, I f I_f If结合了 I x C 和 I y I^C_x和I_y IxCIy的场景信息,并在单张图像中呈现它们的视差。损失函数定义如下:

L f u s = L c o n t e n t + δ L g r a d i e n t , ( 6 ) L_{fus} = L_{content} + δL_{gradient},\quad (6) Lfus=Lcontent+δLgradient(6)

其中δ控制这两项之间的权衡。 L c o n t e n t L_{content} Lcontent用于约束图像级别的相似性,以融合场景内容,定义如下:

L c o n t e n t = ( 1 − γ ) ∥ I f − I x C ∥ 1 + γ ∥ I f − I y ∥ 1 , ( 7 ) L_{content} = (1 − γ)∥I_f − I^C_x∥_1 + γ∥I_f − I_y∥_1,\quad (7) Lcontent=(1γ)IfIxC1+γIfIy1(7)

由于近红外图像(NIR)通常比RGB图像包含更多的纹理细节,γ取值在0.5到1之间。由于显著的结构通常表现为较大的梯度,梯度损失 L g r a d i e n t L_{gradient} Lgradient定义如下:
L g r a d i e n t = ∣ ∣ ∇ I f − ∇ I x C + ∇ I y ∣ ∇ I x C + ∇ I y ∣ ⋅ m a x ( ∣ ∇ I x C ∣ , ∣ ∇ I y ∣ ) ∣ ∣ 2 , ( 8 ) L_{gradient} =||∇I_f −\frac{∇I^C_x +∇I_y}{|∇I^C_x +∇I_y|}· max(|∇I^C_x |, |∇I_y|)||_2,\quad (8) Lgradient=∣∣∇If∣∇IxC+IyIxC+Iymax(∣∇IxC,∣∇Iy)2(8)

其中∇表示图像的梯度。

第二阶段,F2M根据融合图像的特征实现精细配准。在此阶段,我们固定了在第一阶段已经优化的与融合相关的参数,并训练变形模块。(这里的意思就是第一阶段先进行融合,不进行精确配准,然后用融合后的图像去训练这个变形模块,训练完成后再利用精确配准的图像进行融合,这时候效果肯定比第一阶段要好

损失函数考虑了以下三个方面。

  • 首先, I y I_y Iy是提供参考纹理信息的固定图像 I f I_f If保留了 I x C I^C_x IxC的变形梯度。在正确的变形之后, ∇ I f ∇I_f If应该与 ∇ I y ∇I_y Iy具有高一致性。因此,第一项约束与参考信息的一致性。
  • 其次,很容易观察到,如果 I f I_f If中存在任何不对齐,将会降低梯度的稀疏性。我们使用第二项来鼓励 ∇ I f ∇I_f If的稀疏性,并惩罚应该被修正的显著梯度。
  • 第三,相邻像素应该具有类似的变形,直观上表示为变形场的平滑性。否则,场景结构将被扭曲。我们使用正则化项来防止变形模块生成非平滑的变形场。

因此,损失函数包含以下三个项:

L d e f o r = ∥ ∇ I f − ∇ I y ∥ 1 + ∥ ∇ I f ∥ 1 + λ L s m o o t h , ( 9 ) L_{defor} = ∥∇I_f −∇I_y∥_1 + ∥∇I_f∥_1 + λL_{smooth},\quad (9) Ldefor=∥∇IfIy1+∥∇If1+λLsmooth(9)

其中我们使用 l 1 l_1 l1范数,因为它鼓励稀疏性。

具体到 L s m o o t h L_{smooth} Lsmooth,假设变形为 φ f φ_f φf φ f φ_f φf的一阶梯度反映了变形的突变情况。此外,为了避免过度平滑,受到的启发,我们使用双边滤波器为不同的一阶变化分配变量权重,定义如下:

L s m o o t h = ∑ p n ∈ R e − α ∣ I f ( p ) − I f ( p n ) ∣ ⋅ ∣ φ f ( p ) − φ f ( p n ) ∣ , ( 10 ) L_{smooth} =\sum_{p_n∈R} e^{−α|I_{f(p)}−I_f(p_n)|} · |φ_f(p)−φ_f(p_n)|,\quad (10) Lsmooth=pnReαIf(p)If(pn)φf(p)φf(pn)(10)

其中p是 I f I_f If φ f φ_f φf中像素的位置索引。R表示p的邻居集合。 p n p_n pn 表示该集合中的位置索引。α是一个系数,设为0.5。

当变形模块被优化后,我们再次完整地执行F2M的前向过程,生成最终的对齐和融合图像 I f I_f If

RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion_第9张图片

网络架构:如图5所示,我们共享前三层的权重,以确保不同模态的特征类型的强度一致性。这样可以避免与另一个源图像相比,一种源图像中的信息衰减和扩散。否则,衰减和扩散将导致假梯度稀疏并影响配准性能的改善。

由于随着深度增加,感受野也会增大,深层特征图中的像素对应于图像中的较大区域,这不利于提高配准精度。因此,我们使用浅层特征来探索和生成空间变形。第一卷积层的非线性映射(激活函数可以让不同像素强度范围的数据映射到一个更统一的范围内)消除了 I x C 和 I y I^C_x和I_y IxCIy之间的像素强度差异。

deformation block(见下图)。我们使用重采样、批量归一化和残差块来应用于不同的变形。为了保留纹理,我们引入了梯度通道注意力块,如图5所示。我们聚合绝对梯度,因为它们更好地表示了特征图中的信息丰富程度。通过联合使用最大池化和平均池化操作来聚合信息。然后,将两个分支的结果相加,并输入到两个独立的多层感知机中生成共享的通道注意力权重。然后,通过几个卷积层将特征映射回来生成 I f I_f If

RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion_第10张图片

️:为什么要梯度稀疏呢?

‍:梯度稀疏(Gradient Sparsity)指的是图像中的梯度值具有较少非零元素的特性。梯度是指图像中像素强度变化的快速度和方向,通常通过计算像素在水平和垂直方向上的导数来表示。在稀疏梯度的情况下,图像中的边缘、纹理等结构性信息会以较少的梯度变化表示,而大部分像素的梯度值将接近于零。 在图像配准中,稀疏的梯度表示图像中的结构信息,可以用于寻找匹配的特征点或边缘线索。

️:L1范数是如何鼓励梯度稀疏?

‍:由于L1范数的导数在零点处是不可微的(具有不连续性),在优化过程中,当梯度元素趋向于零时,优化算法会倾向于将这些梯度元素设置为零。这样就实现了梯度的稀疏性,即大部分梯度元素为零,只有少数非零元素表示重要的结构信息。

️:什么是绝对梯度?

‍:绝对梯度是指梯度的绝对值,即梯度向量中每个元素的绝对值。在数学中,梯度表示函数在各个自变量方向上的变化率,包括正值和负值。而绝对梯度则是只考虑梯度的大小,忽略梯度的方向。在特征选择任务中,可以使用绝对梯度作为特征的重要性指标,选择具有较大梯度值的特征,以保留最具有信息量的特征

️:什么是双边滤波器?

​ ‍:双边滤波器(Bilateral Filter)是一种常用的非线性图像滤波方法,用于平滑图像并同时保留边缘信息。它在空域和灰度(或颜色)域上考虑了像素之间的相似性,通过对邻域像素进行加权平均来实现滤波。

双边滤波器的核心思想是基于两个因素对像素进行加权平均:

  1. 空间域权重:衡量像素之间的空间距离,越接近的像素具有更高的权重。这个权重衡量了相邻像素之间的空间相关性,保证了平滑的局部性。
  2. 灰度(或颜色)域权重:衡量像素之间的灰度(或颜色)差异,越相似的像素具有更高的权重。这个权重衡量了像素之间的相似性,使得边缘信息能够被保留下来。

通过空间域权重和灰度(或颜色)域权重的乘积,可以得到每个像素的最终权重。滤波器会在局部邻域内计算加权平均,使用这些权重对邻域内的像素进行加权平均,以得到平滑后的输出像素值。

双边滤波器的优点在于它能够有效地平滑图像,同时保留边缘细节。传统的线性滤波器(如均值滤波器或高斯滤波器)会模糊边缘,导致图像失真。而双边滤波器在平滑图像的同时,通过灰度(或颜色)域权重的考虑,可以保留边缘的清晰度

️:什么是一阶变化?

‍:一阶变化指的是在某个信号或图像中,沿着空间(一维、二维或三维)或时间轴的第一次导数或梯度。它描述了信号或图像在空间或时间上的变化程度

️:什么是NIR图像?

‍:RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion_第11张图片

近红外图像(Near-Infrared Image)是指位于可见光和红外光之间的电磁谱范围内的图像。红外图像(Infrared Image)则是指位于红外光谱范围内的图像

️:为什么要共享前三层的权重?

‍:不同模态的特征类型可以以一致的方式进行处理和表示。这有助于避免不同模态之间的信息衰减和扩散。如果不共享权重,不同模态的特征可能会在网络的后续层中逐渐失去一致性和对齐性,从而影响最终的任务表现。共享权重可以在网络的早期阶段就建立起一致性,从而更好地保留和利用不同模态的特征信息。

5.Experiments

实验细节。我们的方法的代码是在TensorFlow中实现的。实验是在NVIDIA Geforce GTX Titan X GPU和2.4 GHz Intel Core i5-1135 CPU上进行的。所有网络的参数都使用Adam优化器进行更新。粗略配准网络的训练轮数设置为100,F2Net的训练轮数设置为30。批量大小为4。学习率设置为0.0004,并进行指数衰减。超参数设置为:η = 2,δ = 100,γ = 0.7,λ = 0.1。我们基于公开可用的VIS-NIR场景数据集构建了训练和测试数据集。图像被裁剪为大小为384×384的块,并进行翻转以获得更多的训练数据。

5.1. Multi-modal Image Registration

我们将我们的粗略配准模块与最先进的多模态配准方法进行比较,包括传统方法(如MI ,DASC ,NTG ,SCB )和基于深度学习的方法NeMAR 。对于NeMAR,我们在我们的训练数据集上重新训练了800个epoch的模型。

定性结果如图6所示。在前两组中,与其他方法相比,提出的RFNet和NTG显示出更准确的配准结果。MI和SCB在第一对图像上表现几乎完美,但在第二对图像上出现较大的配准误差。DASC显示出严重的几何失真,特别是在两个源图像的非重叠区域。NeMAR相对于未配准的图像略有改进。在第三组中,源图像在不同区域展现出高度的结构相似性和可重复性。在这种情况下,与NTG等比较方法相比,提出的RFNet显示出更高的配准精度。这些结果表明我们的方法可以胜过最先进的方法。

定量评估方面,我们在每个图像对中构建了5对点标记(见补充材料进行说明)。预期变形的VIS图像中的点应与NIR图像中的点处于相同的位置。因此,我们测量变形源点与目标点之间的欧氏距离。我们从三个方面计算距离,包括均方根误差(RMSE)最大平方误差(MAE)中位数平方误差(MEE)。此外,我们使用峰值信噪比(PSNR)和结构相似性指数(SSIM)测量变形的VIS和NIR图像之间的图像级相似性。

所有指标都在45个未对准的多模态图像对上进行测试,并在表1中报告。RFNet的粗略配准模块在RMSE、MAE和MEE上取得了最佳结果。与之相比,MI和NTG在一些场景中表现良好,但在其他场景中表现不佳,导致均值较低但标准差较高。DASC在SSIM和PSNR上显示出最佳结果,因为结果在非重叠区域包含一些错误信息。然而,在其他结果中,非重叠区域为黑色,与NIR图像相似度很低。总的来说,我们的方法展示了相当的配准性能。

RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion_第12张图片

5.2. Multi-modal Fusion and Our Fine Registration

本节重点评估了我们F2M方法的融合和精细配准性能由于最先进的融合方法无法处理未对准的数据,我们使用配准方法NTG 作为预配准操作,因为它在第4.1节中排名第二。换句话说,我们将RFNet与NTG和最先进的融合方法的组合进行比较,以评估融合性能,并观察现有融合方法在配准方面的重要性。这些融合方法包括DenseFuse ,IFCNN ,U2Fusion ,PMGI 和MDLatLRR 。此外,还验证了F2M的精细配准性能,当输入数据遭受局部不对齐时。

定性结果如图7所示,展示了六个典型未对准图像对的结果。我们从三个方面分析结果。首先,我们的方法可以很好地对多模态图像进行配准,并融合它们的互补信息。如前两个例子所示,配准方法未能完全消除两个源图像中的视差。不对齐的问题仍然存在于融合结果中,导致场景内容混乱。相比之下,我们方法中的联合粗配准和图像融合的反馈有助于纠正不对齐问题,并改善融合性能。其次,我们的方法可以去除重叠阴影,呈现清晰的纹理。如第三和第四行所示,略微不足的配准精度导致了重叠的阴影,并使融合结果模糊。相比之下,我们的方法可以细致地去除重叠的阴影,并保留更多锐利的边缘。第三,我们的融合结果展示了最丰富和自然的纹理。在最后两个例子中,NIR图像包含比相应的VIS图像更丰富的内容。在竞争方法中,VIS图像中的模糊纹理细节或多或少地影响了融合结果的清晰度。第四行中,IFCNN的结果中的树与NIR图像中的树比较接近,而不是自然的树。相比之下,我们的结果适合人类的视觉感知系统。

定量评估方面,我们从两个方面对图像融合进行了评估。首先,我们使用平均梯度(AG),熵(EN)和标准差(STD)来评估融合图像的特性。其次,我们使用峰值信噪比(PSNR)来衡量融合图像与两个源图像之间的相似性。值得注意的是,如果源图像未对准,融合图像将受到不对准的影响,而定量结果可能显示出虚假的改进(例如平均梯度)。为避免这种情况的负面影响,我们选择了35对图像,经过NTG/粗配准模块处理后,没有明显的不对准。结果报告在表2中。我们在AG、EN和STD上的最佳结果表明,我们的结果包含最丰富的纹理细节、最多的信息量和最明显的对比度。此外,我们在PSNR上的最佳结果表明,提出的融合方法产生的失真最小,我们的融合图像与源图像最接近。

RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion_第13张图片

外部目标检测验证。为了评估图像融合及其改进性能的实际效益,我们进行了外部验证。我们使用YOLOv5作为检测器进行检测结果的比较。如图8所示,我们对未对准的图像对进行检测,以验证配准精度的效果,并对已对准的图像对进行检测,以验证融合性能的效果。在第一个例子中,融合结果中的不对准问题对汽车的检测产生了负面影响。当图像得到良好的配准时,来自两种模态的融合信息对提升检测结果起到积极作用,如我们的配准和融合图像的检测结果所示。在第二个例子中,图像是对准的。在这种情况下,其他融合方法相比VIS图像,降低了检测停止标志的准确性。相比之下,我们的方法通过融合NIR图像中的信息提高了检测准确性。

5.3. Ablation Study

粗配准模块中的关键因素。该模块的关键因素包括图像平移AffineNet的网络架构以及度量配准准确性的度量标准。我们设计了三个比较实验来分别验证它们的有效性。配准准确性统一通过NCC损失进行评估。

多光谱成像在计算机视觉和计算摄影领域起着至关重要的作用。由于成像设备的移动或更替,光谱带图像可能出现错位,因此图像配准是必要的,以避免光谱信息的失真。目前针对多光谱数据的配准方法通常具有鲁棒性但复杂,并且需要大量的计算。常见的度量方法如平方差和绝对差之和在计算效率上是高效的,但在多光谱数据上的表现较差。为了应对这一挑战,我们提出了一种结构一致性增强(SCB)变换,旨在提升多光谱图像的结构相似性。借助SCB,常见的度量方法可以用于多光谱图像配准。SCB变换利用了固有边缘结构在不同波段图像之间的非线性变化中保持相对显著性的事实。基于梯度-强度相关性,探索了自然图像的统计先验,从而建立了SCB的参数化形式。实验结果验证了SCB变换优于当前的相似性增强算法,并且优于最先进的多光谱配准方法。由于统计先验的普适性,SCB变换还适用于各种多模态数据,如闪光/非闪光图像和医学图像。

RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion_第14张图片

  • 我们改变AffineNet的输入,并根据输入定义损失。我们分别使用在SCB中定义的描述符,没有平移的 I x , I y {I_x,I_y} IxIy,以及由我们的TransNet生成的 I x → y , I y {I_{x→y},I_y} IxyIy。图9中损失的变化表明,图像级别的输入优于稀疏描述符。而同域输入进一步促进了收敛速度和性能。

  • 将AffineNet中的可变形卷积层替换为传统卷积层,而传统卷积层导致梯度爆炸。

  • 我们比较NCC/L1/L2损失作为度量的效果。L2损失会遇到梯度爆炸问题,图9显示NCC损失优于L1损失。

F2M的精细配准性能:为了验证F2M中的精细配准对消除局部不对准的有效性,我们通过将F2M与两个不同的竞争方法进行比较来进行两个实验。一种情况是源图像中仅存在局部视差。在这种情况下,现有的配准方法或我们的粗配准模块不会提前执行。相反,我们直接应用最先进的融合方法和F2M来处理不对准的图像。如图10(a)所示,我们的F2M成功消除了不对准,而在最先进的融合方法的结果中仍然可以区分出不对准。

从另一方面来看,我们基于粗配准结果验证了F2M的精细配准效果。由于粗配准模块没有融合功能,我们通过平均加权策略以成对显示粗配准的VIS和NIR图像,而不是融合图像。如图10(b)所示,F2M的精细配准功能有助于消除粗配准结果中的重叠阴影。

纹理保留策略:我们采用了梯度通道注意机制,引入了梯度损失,并将γ设定为相对较高的值以保留纹理细节。为了验证它们的有效性,我们移除了注意机制,移除了梯度损失(δ = 0),并将γ设置为0.5。比较结果如图11所示。具有纹理保留的结果显示比不使用这些策略的结果更多的纹理细节。

RFNet- Unsupervised Network for Mutually Reinforcing Multi-modal Image Registration and Fusion_第15张图片

局限性:在多模态图像之间建立严格的对应关系通常是困难的。在某些情况下,场景可能显示明显的跨模态结构差异,例如田野和森林(例如图12的第一个例子)。图像平移主要调整亮度,但很少改变场景内容或结构(产生或消除边缘很少)。换句话说,图像平移很难减少跨模态的结构差异。此外,在其他一些情况下,场景可能缺乏显著的结构,例如水(例如图12的第二个例子)。这些因素给基于图像平移和NCC损失的粗配准模块带来了挑战。因此,在这些情况下,粗配准模块的配准准确性容易下降,如图12的最后一列所示。

6. Conclusion

本文提出了一种新的无监督多模态图像配准和融合方法,通过相互增强的两个单独任务来实现。配准采用粗到精的方法进行处理。粗配准模型化为仿射变换,并通过基于可变卷积网络和基于图像转换的图像级损失函数实现。精配准依赖于融合的反馈。精配准的结果进一步改善了融合结果。此外,我们还着重考虑了融合的反馈和图像融合本身的纹理保护。实验证实了所提出的方法和相互增强的框架的有效性。

你可能感兴趣的:(ImageFusion,计算机视觉,人工智能)