【零样本学习】Rethinking Knowledge Graph Propagation for Zero-Shot Learning

Abstract

近年来,GCN在ZSL问题上取得了不错的效果,它关联在图结构上相关概念,使得能够泛化到unseen class。然而,由于多层GCN结构需要将知识传播到图中较远的节点(传递并吸收较远节点的知识),在每一层都要执行Laplacian平滑,会稀释知识导致性能降低。为了利用图结构的优势,同时防止较远节点导致的知识稀释问题,我们提出Dense Graph Propagation (DGP)模型(研究如何设计与较远节点的直接连边)。DGP模型通过这些直连边来利用知识图谱的层次图结构。这些连边是根据节点与其祖先和后代的关系添加的。为了进一步改进图中的信息传播,采用了一种权重方案,根据到节点之间的距离来对它们的贡献进行加权。DGP模型得到分类器参数后,采用两阶段训练方式来微调预训练的CNN特征提取网络。

Motivation

GCN模型通常被用于分类任务,先前的方法[1]是用回归的方式监督学习GCN参数。最近的研究表明,随着GCN层数的增加,由于每一层都要执行Laplacian平滑,特征向量会更加相似(类似Laplacian图像平滑的意思??),导致分类也更加容易。而回归的目的是在图中的节点之间交换信息,而且Laplacian平滑容易稀释信息而且不能够准确地回归。比如,当层数趋近于无穷时,所有信息都会被抹掉。
因此,方法[1]可能并不适合ZSL任务,而且为了避免平滑,GCN的层数应该更少,但是会导致知识不能很好地通过图来传播(1层GCN就只能利用它的邻接节点)。因此,我们提出一个稠密连接方案,节点直接连接到后代/祖先,以便提供较远处的信息。这些新增的连接使得信息传播不会被过度平滑,但是移除了图的结构信息,因为所有的后代/祖先都与节点直接相连,而且连边的权重也相同。为了解决这个问题,提出了一种考虑节点之间距离的权重方案,来衡量不同节点的贡献。这使得模型能够恢复图中的原始结构,而且进一步提供了模型的灵活性,从而增强了模型的推理能力。同时,它只增加了很少量的参数(计算量小),并且平衡了模型的灵活性和限制性,从而能够对unseen class更好地预测。
【零样本学习】Rethinking Knowledge Graph Propagation for Zero-Shot Learning_第1张图片
为了使预训练CNN模型的特征提取网络能够更好地适应DGP模型得到的分类器,我们提出了一种两阶段训练方案。在第一步中,训练DGP模型来预测分类器参数(CNN网络的最后一层分类权重)。第二阶段,我们将CNN的最后一层分类权值替换为DGP模型的预测分类权值,并固定权值,通过在seen class上优化交叉熵分类损失,对CNN的特征提取网络进行微调。

Contributions

1、DGP模型通过提出的稠密连接结构有效地传播知识,显式地利用知识图谱的层次结构,从而实现了ZSL;

2、提出基于节点距离的权重方案;

3、在ImageNet上进行实验,取得最佳性能

Note: 近年来的ZSL方法:流形对齐、线性自动编码器、基于低秩embedded字典学习、利用属性之间的语义关系、利用知识图谱的关系等

Method

【零样本学习】Rethinking Knowledge Graph Propagation for Zero-Shot Learning_第2张图片
Dense Graph Propagation Module
DGP模型的目标是利用层级图结构来处理ZSL问题,并且避免由于中间节点引起的知识稀释问题。所以提出稠密图连接方案,分为后代传播和祖先传播两个阶段,可以直接学习该节点与后代/祖先节点的关系。节点与祖先节点的连接矩阵为Aa,与后代节点的邻接矩阵为Ad,并且互为转置关系。
在这里插入图片描述
Distance weighting scheme

基于原始知识图谱中节点之间的距离来设计距离权重方案。在这里插入图片描述在这里插入图片描述分别表示与祖先/后代之间的权重。在这里插入图片描述表示与节点的距离为 i-hop 。
在这里插入图片描述
带权重的传播公式为:
在这里插入图片描述
该方法只引入了2×(K +1)个参数,本实验中K=4。
我们提出的权重方案有些类似于GCN中的attention机制,但是其参数更少并且内存开销更小。我们发现,如果加入attention机制,性能会急剧下降,可能是由于使用复杂模型导致了过拟合(ZSL场景下标记数据的数量有限)。

Finetuning
两阶段的训练过程,第一阶段用DGP模型预测预训练好的CNN模型的最后一层参数(分类器参数)。为了使CNN特征适应于新得到的分类器,第二阶段在seen class优化交叉熵分类损失来训练CNN特征提取网络,CNN模型的最后一层参数(分类器参数)固定不变。这可以看作是利用DGP作为CNN的约束,由于我们间接地图信息来约束CNN的输出。

Experiment

【零样本学习】Rethinking Knowledge Graph Propagation for Zero-Shot Learning_第3张图片
我们的方法比所有方法性能都好,DGP模型比SGCN模型也要好。
【零样本学习】Rethinking Knowledge Graph Propagation for Zero-Shot Learning_第4张图片
权重方案使得较远的节点权重较小,对dense图很重要。而且,finte-tuning过程提升了模型性能。
【零样本学习】Rethinking Knowledge Graph Propagation for Zero-Shot Learning_第5张图片
DGP能够在top-5结果中预测出opener,而其他方法都没有。而且此数据集包含细粒度类别,ZSL问题难度更大。
【零样本学习】Rethinking Knowledge Graph Propagation for Zero-Shot Learning_第6张图片
SGCN、DGP都比GCNZ方法好,在k较小时SGCN方法更好,在k较大时DGP方法更好(尤其是2-hop情形)
【零样本学习】Rethinking Knowledge Graph Propagation for Zero-Shot Learning_第7张图片
DGP和SGCN方法都比GCN方法好,能缓解domain shift问题。

权重方案:在祖先传播过程中,祖先节点主要从它直接相连的后代节点中聚合信息,再在后代传播过程中分配给它的后代节点。
【零样本学习】Rethinking Knowledge Graph Propagation for Zero-Shot Learning_第8张图片
过多的GCN层数会导致性能下降。
【零样本学习】Rethinking Knowledge Graph Propagation for Zero-Shot Learning_第9张图片
分析分别考虑祖先传播和后代传播( two-phase directed propagation rule),比用一个邻接矩阵效果好。
【零样本学习】Rethinking Knowledge Graph Propagation for Zero-Shot Learning_第10张图片
分析结果的鲁棒性,多次实验(观察均值方差)表明结果较稳定,而且unseen class数量增加时结果更加稳定。

为了获得良好的扩展性,邻接矩阵A要是稀疏矩阵,来使得D−1AXΘ的计算复杂性与A中的边数呈线性正比。
DGP和SGCN方法的参数比GCN方法要少。

改进方向:更好的权重方案来拉开SGCN与DGP的差距;挖掘额外的语义信息

[1] Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs. CVPR 2018

你可能感兴趣的:(Zero-Shot)