基于部分特征迁移的图像分类技术

1、引言

近年来，深度学习技术已经成为卷积领域普遍关注的问题神经网络在计算机视觉、语言处理、故障诊断中得到了有效的应用和容错控制字段。越来越多的学者采用基于深度学习的计算机视觉方法对遥感图像进行场景分类，这些方法比Gist等经典方法具有更好的特征提取和语义理解能力。然而，复杂的模型结构和大量的网络参数对其应用提出了新的挑战卷积神经网络在遥感领域的应用。与获取大量标记样本相比，半监督学习、小样本学习、无监督学习等具有有限监督信号的策略更经济可行。

尽管基于深度神经网络的分类技术取得了飞速发展，但是获取足够的标记数据来训练复杂模型一直是一项艰巨的工作。当监测对象在不同时期、不同地区发生变化时，问题会更加严重。对于那些有效但复杂的深层网络，要对大量的数据进行相应的标记是不现实的。迁移学习被认为是解决这类问题的好方法。领域适应作为一种典型的迁移学习任务，在过去的十年中受到了许多研究者的关注。

有些学者引入了生成性对抗性网络(Generative Adversarial Network，GAN)实现域适应。对于这些模型，有一个前提是源域和目标域中的标签空间是相同的，即两者的标签数量和类别是一致的。然而，在大多数真实的迁移学习场景中，数据不平衡是非常常见的，源域中的数据和标签比目标域中的数据和标签越来越复杂，比如从ImageNet数据集向NWPU-RESISC45数据集迁移过程中就会遇到源域和目标域的标签数量不一致的情况，该问题被称为部分特征迁移学习。如何从大的、复杂的源域中进行正迁移并选择有用的域不变特征是解决部分特征迁移问题的关键。

针对迁移学习过程中存在的数据不平衡和源域类别比目标域类别多的问题，本文提出一种多对抗目标级注意力网络(Multi-adversarial Object-level Attention Network，MOAN)。MOAN的架构图如图1所示。

图1 MOAN架构图

MOAN主要包含2个子模块：

改进的目标级注意机制(Object-level Attention Network，OANet)，用于提取影像的深层特征。
多对抗单元的域适应模块。为了获得高质量的视觉信息，促进正迁移，从而利用有用的信息，消除不相关的信息，我们做了不同的改进。有效的训练方法也被应用于MOAN。

2、基于对象级注意力机制的特征提取技术

自注意力（Self-Attention）机制可以学习任意两个像素之间的相关性，能较好地获得物体特征。受此启发，本文提出一种改进的注意力机制OANet来深入提取物体的整体特征，这是因为对目标进行整体感知是提升分类精度的关键。

图2 OANet结构图

OANet的整体架构如图2所示。首先，将原始图像输入主干网络(本文使用ResNet)来提取初始特征，如公式(1)所示，其中M为通道数;H和W表示单个特征图的尺寸; 表示特征张量满足多维形状。

（1)

然后将作为两个卷积层的输入进行进一步处理，得到两组特征，分别表示为和。其次，对执行变形和转置操作，表示为，并对执行变形操作，表示为，其中。在OANet中，会对和之间执行一个矩阵乘法，并通过一个softmax操作逐行对相乘结果进行进一步处理。通过这些步骤，可以得到一个注意力掩模，如公式(2)所示。

(2)

其中，表示在特征图中，第j个点对于第i个点的权重系数。此外，本文将变形为，并在与的转置之间进行矩阵乘法，结果重新变形为。与其他方法不同，本文不直接在和之间执行点向求和操作，而是对它们执行级联操作，并将结果输入到卷积层中，得到最终的特征映射。

avatar

3、基于多对抗结构的部分迁移学习机制

为了解决源域上的标签空间大于目标域上的标签空间，并且目标域上的所有标签都包含在源域上的情况，在实际应用中，这种情况在实际应用中是很常见的，例如从ImageNet到Caltech-256的特征迁移或从NWPU-RESISC45到UCM的特征迁移。

传统的迁移学习方法大多是针对源域和目标域共享标签空间的情况设计的。也就是，不同域的标签是相同的。然而，对于大多数实际应用来说，单一的对抗结构可能并不合适，因为在源领域中有用的知识总是有限的。在一个庞大的源域数据集中，大多数的特征映射模块，如单一的对抗性学习单元，只能大致消除域间的差异。从源域出发，映射可能会受到其他不相关类别的影响，从而带来负迁移。域之间的不一致使得很难获得适当的适应。

在本文中，我们提出基于多对抗结构的部分迁移学习机制，如图3所示。该框架中嵌入了多个对抗性学习单元。我们分别为源域和目标域设置了两个特征提取器和。其目的是通过对域间差异的深入感知来提高域预测器的识别能力，并有效地对不同域的样本进行建模。此外，我们还引入了虚拟对抗训练机制，以进一步提高正迁移的有效性。

图3 基于多对抗结构的部分迁移学习架构图

在图3中，和分别是源域和目标域的特征提取器。C是需要预测数据标签的分类器。和分别是源域和目标域的图像。多GAN结构可以对不同领域的特征进行对齐，并通过选择离群类实现正迁移。D是域别预测器。是源域中的标签；d是域标签。L表示损失和θ表示每个模块的参数；是预测的类别标签，表示预测的域别标签。

首先基于有标签的源域数据构建标签分类器。损失函数如公式(3)所示。

(3)

其中为标签分类器，为其损失函数；是源域中的数据(在数据集中，Ds是有标签的源域数据)，是相关的标记；是源数据集中实例的数量。

另外，根据源域中类别的数量，本文构建一组域鉴别器，其中是源域标签的个数。域鉴别器主要目的是区分样本的所属域别，其损失函数可表示为下式。

(4)

其中和分别为源数据集和目标数据集的样本数；和分别表示源数据集和目标数据集；是第k个域鉴别器的损失函数。

本文还将聚类假设引入部分迁移学习中。在聚类假设中，处理后的数据集包含多个子集，每个子集都与一个典型的类别标签相关联。该聚类假设已成功地应用于许多分类任务中。基于此假设，不同集合之间的划分边界应远离高密度区域。由于优化高度依赖于对未标记数据的预测，所以为了提高未标记目标数据集的分类精度，本文对目标域采用最小化条件熵的操作，如公式（5）所示。

（5)

其中，表示目标域数据属于第k个标签的概率。

需要指出的是，由于目标数据是未标记的，在源域上训练的分类器只能预先给出一个近似的标记。因此，这里的条件概率是指根据分类器的输出存档的预先确定的标签概率分布。

通过最小化条件熵，可以有效地提高对未标记目标数据的预测能力。为了避免条件熵的无效估计和最小化，本文将分类器和鉴别器（域分类器）遵守locally-Lipschitz约束。该约束还可以帮助分类器（包括域分类器）做出绕过样本密集区域而不是穿过它们的决策边界。为此本文采用虚拟对抗性训练对分类器和对抗性学习单元进行优化，如式（6）所示。

（6)

其中，为超参数；(.)表示KL散度计算操作。

综上所述，整个框架的损失函数可以写成下式。

基于部分特征迁移的图像分类技术