【全局谐波偏置:局部上下文自适应卷积核】

LAGConv: Local-context Adaptive Convolution Kernels with Global Harmonic Bias for Pansharpening

(LAGConv:全局谐波偏置的局部上下文自适应卷积核用于全色锐化)

全色锐化是一个关键而又具有挑战性的低层次视觉任务,其目的是通过融合多光谱(MS)图像和全色(PAN)图像来获得更高分辨率的图像。虽然大多数pansharpening方法都是基于卷积神经网络(CNN)架构,具有标准卷积运算,但很少有人尝试使用上下文自适应/动态卷积,这在高级视觉任务上提供了令人印象深刻的结果。在本文中,我们提出了一种新的策略来生成局部上下文自适应(LCA)卷积核,并引入了一个新的全局谐波(GH)偏置机制,利用图像的局部特异性以及整合全局信息,被称为LAGConv。提出的LAGConv可以取代上下文无关的标准卷积,以充分认识到每个像素在遥感全色锐化任务的特殊性。此外,通过应用LAGConv,我们提供了一个图像融合网络架构,这是更有效的比传统的基于CNN的泛锐化方法。所提出的方法在广泛的数据集上实施的广泛的实验相比证明了其优越性。

介绍

Pansharpening旨在融合低分辨率多光谱图像(LR-MSI)和高分辨率全色图像(HR-PANI),以弥补某些类型遥感数据的不足,甚至促进遥感图像用于更高级别处理的适用性,例如分类,土地监测和检测。最近,由于新的和复杂的CNN架构,pansharpening有了相当大的改进,这些架构主要基于标准卷积运算。
然而,标准卷积在解决图像超分辨率和全色锐化等像素级任务时,固有地受到其空间不变性的限制。对于特定的特征图,在记录不同对象的不同位置上使用统一的卷积核可能会导致图像内容适应能力有限。为了克服这个缺点,已经设计了许多自适应卷积技术来动态地生成用于不同区域或像素的卷积核。他们在几个高水平的视觉任务中取得了有希望的表现。然而,现有的自适应卷积方法,无论是只关注小区域的局部性还是全图像的局部性,都会导致不期望的冗余或忽略图像中的细节。因此,它们几乎不适用于全色锐化。本文提出了一种新的自适应卷积运算,包括局部上下文自适应(LCA)卷积核和全局谐波(GH)的偏置,特别适用于遥感pansharpening。该方法能够充分提取和利用图像/特征的局部和全局信息,从而获得上级的性能。

贡献

1)我们提出了一种新的策略来生成基于每个像素及其邻居的LCA卷积核,它不仅继承了标准卷积的优点,但也提高了专注于局部特征的能力,并克服了上下文无关的限制。
2)引入GH偏置机制,将全局信息补充到局部特征中,从而减轻空间不连续性引起的细微失真,进一步使网络更加灵活,实现全局和局部关系的平衡。
3)标准卷积层可以由LCA卷积核和GH偏置机制的组合来代替。我们采用了残差块的结构,然后设计了一个简单的网络。据我们所知,这是第一次尝试使用自适应卷积来解决全色锐化任务。
4)我们的网络由于简单的实现、端到端学习和计算效率而具有优势。实验表明,尽管没有深层和大量的参数,我们的模型实现了出色的性能相对于国家的最先进的方法。

相关工作和动机

Pansharpening: The State of Art

现有的泛锐化方法可以分为模型驱动和数据驱动的方法。模型驱动方法考虑了成像机制,这是可预测的,理论上是合理的。模型驱动方法的一些代表性实例是基于平滑滤波器的强度调制(SFIM),广义拉普拉斯金字塔(GLP)MTF匹配滤波器,采用基于回归的注射模型的GLP(GLP-CBD),以及具有局部参数估计的频带相关空间细节(BDSD)。尽管如此,他们无法以有效的方式对复杂的非线性情况进行建模。
最近出现了几种基于CNN的数据驱动技术,将pansharpening的任务推向了一个新的时代,并缓解了模型驱动方法带来的问题。这类作品的一些代表性实例是PNN,PanNet,DiCNN1DMDNet和FusionNet。它们的共同点是使用相同卷积核和常规偏置进行特征提取,导致网络的学习能力有限。
【全局谐波偏置:局部上下文自适应卷积核】_第1张图片

Adaptive Convolution Techniques

最近,自适应卷积技术,其中采样位置和/或核值根据输入进行适配或推断,在计算机视觉领域中获得了很多关注。现有技术可分为以下三类:

1)Adaptive Receptive Fields:

为了解决手工修改感受野大小的需求,提出了一种尺度自适应卷积方法来获取可变大小的感受野。此外,Tabernik等人提出了位移聚合单元来学习空间位移,还调整了感受野大小。此外,Dai等人提供了通过额外学习的偏移来扩大空间采样位置的想法,从而增强了CNN的几何变换建模能力。

2)Learning Specialized Convolutional Kernels for Each Example:

Yang等人提出了条件参数化卷积(CondConv),通过输入样本计算卷积核参数,打破了传统标准卷积的特性。Chen等人提出的动态卷积(DYConv),它根据多个卷积核对每个样本的自定义关注度来聚合它们。类似的工作包括Ma等人提出的WeightNet和Zhang等人提出DYNet,其中卷积核是空间共享的。

3)Spatially Adaptive Convolution Kernel:

为了克服标准卷积的上下文不可知性,自适应卷积中深入探索的方向是通过使用不同的网络分支来学习每个像素处的独立内核,如图2所示(分别由Jia 等人、Zamora Esquivel等人、Tian, Shen和Chen提出),这导致了大量的参数。
由于计算限制,这些自适应卷积仅用于替换少数卷积层或用于小型框架中。此外,Sun等人提出了一种像素自适应卷积神经网络(PAC),它以像素特定的方式调整滤波器。PAC具有预定义的表单。由于固定形式的限制,它在全色锐化时容易出现过拟合现象。通过采用解耦的空间和信道自适应内核,解耦的动态滤波器网络(Zhou等人)即使与标准卷积相比也是轻量级的。这些空间自适应方法摒弃了标准卷积的核共享机制。虽然这些空间自适应方法对于许多应用是有用的,但是它们通常被视为增加内核冗余的方式。

Motivations

基于相关工作,我们知道标准卷积运算具有上下文无关的缺陷。同一特征图中的不同位置使用统一的卷积核进行特征提取,即使这些位置包含不同的语义信息。然而,对于全色锐化,逐像素卷积核需要实现更有效的特征表示。现有的逐像素自适应卷积核大多完全抛弃标准卷积的全局共享特性,通过设计网络分支直接引入卷积核,会产生计算量过大或冗余问题。因此,我们保留了标准的空间共享卷积核,并根据局部内容,我们估计他们的自适应权重
然而,在关注局部唯一性的同时,全局信息也不容忽视。为了调和局部和全局的平衡,我们设计了一个全局谐波偏置机制,从而将全局和局部特征的表示集成到一个卷积模块中,代替标准的卷积。

方法

在本节中,我们首先介绍所设计的LAGConv。然后,该LAGConv被进一步嵌入到残差网络架构中,该残差网络架构能够将图像细节从浅层传递到深层以锐化低分辨率多光谱图像。

LAGConv

在全色锐化中,每个像素的值应该被准确地确定,并且像素重建与其邻居密切相关。因此,我们对卷积核的设计进行了更改。在保留标准卷积核的同时,我们动态地学习每个像素的权重,最后,通过标准卷积核和权重的点积实现自适应卷积

Standard Convolution

首先,让我们回顾一下标准卷积。如图2(a)所示,无偏置的标准卷积对位于空间坐标(i,j)处的像素Iij R 1 × 1 × C i n R^{1×1×Cin} R1×1×Cin进行操作。其局部面片定义为Aij R k × k × C i n R^{k×k×Cin} Rk×k×Cin,其中Cin和k分别表示输入特征映射的通道和面片的大小。【全局谐波偏置:局部上下文自适应卷积核】_第2张图片
在标准卷积操作期间,输入特征图的所有局部块使用相同的内核K。因此,该操作可以表示如下:
【全局谐波偏置:局部上下文自适应卷积核】_第3张图片

Local-context Adaptive Kernels

与标准卷积不同,LAGConv中的内核会根据局部补丁自动调整。令~ Kij R C i n × k × k × C o u t R^{Cin×k×k×Cout} RCin×k×k×Cout表示用于对Aij执行卷积的核。所提出的LAGConv可以表示如下:在这里插入图片描述
特别地,~ Kij的生成包括以下三个步骤,如图3的顶部所示。
【全局谐波偏置:局部上下文自适应卷积核】_第4张图片
首先,Aij被发送到具有ReLU激活函数的卷积层以产生其浅特征。其次,浅层特征被发送到具有ReLU和sigmoid激活的全连接(FC)层。学习权重Wij R 1 × k 2 R^{1×k2} R1×k2,其可以感知中心像素Iij与其相邻像素之间的潜在关系。最后,将~ Wij R 1 × k 2 R^{1×k2} R1×k2整形为Wij R k × k R^{k×k} Rk×k,用作K中每个核的缩放因子。缩放的核表示为Kij,并且其可以计算如下:【全局谐波偏置:局部上下文自适应卷积核】_第5张图片
所获得的局部上下文自适应核允许网络产生考虑特征图的局部内容不一致的独特预测。

Global Harmonic Bias Mechanism

我们为LAGConv设计了一个全局谐波偏置机制。该机制的动机是强加输出特征图的整体连续性。LAGConv的整个操作过程可以表示如下:在这里插入图片描述
其中D ∈ R 1 × C o u t R^{1×Cout} R1×Cout定义为由以下两个步骤产生的全局谐波偏置。首先,输入特征I通过全局平均池化层(GAP)以获得~I ∈ R 1 × C i n R^{1×Cin} R1×Cin。其次,~I被发送到具有ReLU激活函数的FC层以获得输出D。该机制允许LAGConv产生考虑所有像素的相干输出。
与以前的实验相比,我们提出在网络中动态适应特征图。一方面,每个像素的特异性没有被忽略。另一方面,由于我们没有直接丢弃标准卷积运算中共享的核,因此在冗余信息的处理中不会浪费计算资源。

Local-context Adaptive Residual Network

基于所提出的LAGConv,我们构建了局部上下文自适应残差块(LCA-ResBlock)以形成如图4所示的整体网络。【全局谐波偏置:局部上下文自适应卷积核】_第6张图片我们将LR-MSI表示为“LR”并且将HR-PANI表示为“HR”。我们希望开发一种简单但有效的图像融合网络,该网络将上采样的“LR”(表示为LR)图像和“HR”数据作为输入。“SR”代替作为输出中的融合图像。
LCA-ResBlock与原始ResBlock完全相同,除了ResBlock中的标准卷积被提出的LAGConv取代。在下文中,我们将介绍所提出的总体架构。如图4所示,所提出的网络具有三个步骤。第一个包含LAGConv层和ReLU激活层,然后是几个堆叠的LCA-ResBlocks。最后一步也是LAGConv层。具体地,将HR和~LR连接在一起以获得包含两个输入图像的特征图M。之后,M通过网络传递。最后,将网络的输出加到 ~LR中,得到最终的SR图片。整个过程可以由以下内容表示方程式:
在这里插入图片描述
其中FΘ(·)表示具有其参数Θ的映射函数,其被更新以最小化SR与地面实况(GT)图像之间的距离。我们选择了简单的均方误差(MSE)损失函数,因为它足以产生良好的结果:【全局谐波偏置:局部上下文自适应卷积核】_第7张图片

你可能感兴趣的:(遥感图像,图像融合,计算机视觉,深度学习,人工智能)