【论文阅读笔记】Watch Your Step: Learning Node Embeddings via Graph Attention

Abs

图嵌入方法表示连续向量空间中的节点,保存来自图的不同类型的关系信息。这些方法有很多超参数(例如随机游走的长度),必须为每个图手动调优。在本文中,我们将以前固定的超参数替换为通过反向传播自动学习的可训练超参数。特别地,我们提出了一种新的转移矩阵幂级数注意模型,它指导随机游走优化上游目标。和之前的注意力模型方法不同,我们提出的方法只利用数据本身的注意力参数(例如随机游走),而不被模型用于推断。我们对链接预测任务进行了实验,因为我们的目标是产生最好地保存图结构的嵌入,并推广到不可见的信息。我们在包括社交、协作和生物网络在内的一整套真实世界的图数据集上改进了最先进的结果,我们观察到我们的图注意力模型可以将误差减少20%-40%。文章展示了我们的自动学习的注意参数可以在每个图中显著变化,如果我们手动调整现有方法,则对应于超参数的最佳选择

1.Intro

无监督图嵌入方法寻求学习编码图结构的表示。这些嵌入在许多任务中表现出了出色的性能,包括节点分类[29,15]、知识库完成[24]、半监督学习[37]和链接预测[2]。一般来说,正如Perozzi等人[29]所介绍的那样,这些方法分为两个离散步骤:首先,它们通过随机游走和计算节点共现数从图中抽样成对关系。其次,他们训练一个嵌入模型,例如使用word2vec[25]的skiipgram,学习编码成对节点相似性的表示。

虽然这样的方法在许多任务中显示了积极的结果,但它们的性能可能会根据超参数的设置而显著不同。例如,[29]观察到学习表示的质量依赖于随机游走的长度(C)。在实践中,DeepWalk[29]及其许多扩展[例如15]使用word2vec实现[25]。相应地,[21]揭示了在word2vec[25]中称为训练窗口长度的超参数C,实际上控制的不是固定长度的随机游走。相反,它参数化了一个函数,我们定义了上下文分布并表示为Q,它控制了在特定距离内访问节点对时采样的概率。C和Q的选择在每个节点的邻域上隐式地创建了一个权值质量。一般情况下,邻近节点的权值较高,但质量函数的具体形式由上述超参数决定。在这项工作中,我们的目标是用可训练的参数代替这些超参数,使它们可以自动学习每个图。为此,我们将图嵌入设定为端到端学习,其中包含随机游走和共现抽样两个离散的步骤,随后是表示学习,使用图邻接矩阵上的封闭形式期望连接。

我们的灵感来自于注意力模型在诸如自然语言处理(NLP)[例如4,38]、图像识别[26]和检测视频中的罕见事件[31]等领域的成功应用。据我们所知,我们提出的方法与注意模型的标准应用有显著不同。在进行预测时,我们没有使用注意力参数来指导模型看哪里,而是使用注意力参数来指导我们的学习算法专注于对优化上游目标最有帮助的数据部分。

我们证明了上下文分布与转换矩阵幂级数系数之间的数学等价性。这使得我们可以通过学习幂级数上的注意力模型来了解上下文分布。注意力参数“指导”随机游走,允许它更多地关注最适合图的短期或长期依赖关系,同时优化上游目标。据我们所知,这项工作是注意方法在图嵌入中的首次应用。

具体而言,我们的贡献如下:

1.我们提出了一个可扩展的图形注意力模型家族,可以学习任意的(例如非单调的)上下文分布。

2.我们证明,通过手动调优找到的竞争方法的上下文分布超参数的最优选择与我们自动找到的注意参数一致。

3.我们评估了许多具有挑战性的链接预测任务,这些任务由现实世界的数据集组成,包括社交、协作和生物网络。实验表明,我们大大改进了我们的基线,减少了20%-40%的链接预测误差。

2.预备知识

2.1.图嵌入

给定一个无权图,其(稀疏)邻接矩阵可根据构造,其中如果其布尔参数为真,则指标函数的值为1。一般来说,图嵌入方法使目标最小化:

其中是d维节点嵌入字典;是邻接矩阵的一个变换;是一个对边函数;为损失函数。

许多流行的嵌入方法都可以从这个角度来看待。例如,奇异值分解(SVD)的随机版本是一种嵌入方法,它可以通过设置f(A) = A来转换到我们的框架中;将Y分解为两半,左、右表示为Y = [L|R],令g为它们的外积g(Y) = g([L|R]) = L × R>;最后设L为误差的Frobenius范数,得到:

minL,R ||A − L × R>||F

2.2.通过随机游走学习嵌入

由[29]引入的这组方法[包括15,19,30,10]通过从一个随机节点v0∈sample(V)开始,重复地抽样一条边以转换到下一个节点vi+1:=sample(N[vi])来进行随机游走,其中N[vi]是来自vi的出边。转换序列v0→v1→v2→…(即随机游走)可以传递给word2vec算法,该算法通过沿着序列vi随机取每个节点来学习嵌入,并使这个锚节点vi的嵌入表示更接近它的下一个邻居{vi+1, vi+2,…, vi+c},也就是上下文节点。在实践中,上下文窗口大小c是从分布中采样的,例如均匀U{1, c},如[21]中所解释的。有关图嵌入方法的更多信息,请参见[9]。

设D∈R|V |×|V|为随机漫步的共现矩阵,在所有模拟随机漫步中,每个元素Dvu包含在上下文距离c ~ u{1, c}内共访问节点v和u的次数。利用随机游走的嵌入方法也可以用Eq.(1)的框架来观察。例如,为了得到Node2vec[15],我们可以设f(A) = D,设边函数为嵌入外积g(Y) = Y × Yt,设损失函数为softmax的负对数似然,得到:

minY  log Z − X v,u∈V Dvu(Y >v Yu)   

其中配分函数Z = pv,u exp(Y >v Yu)可通过负抽样估计[25,15]。

2.2.1.图似然

最近提出的一个学习嵌入的目标是图似然[2]:

其中g(Y)v,u是在给定节点嵌入Y的情况下,在边(v, u)处求值的模型输出;激活函数σ(.)为逻辑函数;如果值Dvu较大,则最大化图似然将模型得分g(Y)v,u推向1,如果(v, u) /∈E则将模型得分g(Y)v,u推向0。

在我们的工作中,我们最小化方程3的负对数,用矩阵符号表示为:

 其中我们最小化w.r.t节点嵌入Y∈R|V |×d,其中◦是Hadamard产品;一个矩阵的L1-norm ||.|| 是它的所有元素的和。这个矩阵的元素都是正的,因为0<(.)<1。矩阵D∈R|V |×|V |可以通过计算模拟随机漫步中的节点共现数来创建与[2]中描述的类似的矩阵。

2.3.注意力模型

我们提到了和我们最相似的注意力模型【例如26,31,35】,其中注意力函数被用来建议分类函数在进行推断时应该注意的输入示例中的位置。该函数在正向通过的训练阶段和测试阶段用于预测。注意函数和分类器在上游目标(如交叉熵)上联合训练。在我们的例子中,注意力机制只是指导学习过程,并没有被模型用于推理。我们的机制建议在训练过程中关注部分数据,如下所述。

3.我们的模型

根据我们的一般框架(公式1),我们设置即模拟随机漫步产生的共现矩阵的期望。使用这种封闭形式,我们扩展了负对数图似然(NLGL)损失(公式4),以包含随机游走抽样的注意力参数。

3.1.共现矩阵的期望:E[D]

我们没有通过模拟随机游走和抽样共现来获得D,而是制定了该抽样的期望,如E[D]。一般来说,它允许我们调整随机游走过程中的采样参数,包括步数C。设T为图的转移矩阵,可以通过将a的行归一化使其和为1来计算。可以写成:

 给定随机游走的初始概率分布

Conclusion

在本文中,我们提出了一种用于学习图嵌入方法中的上下文分布的注意力机制。我们推导了DeepWalk[29]共现统计量的闭形式期望,显示了上下文分布超参数与图转移矩阵幂级数系数之间的等价性。然后,我们建议用可训练模型替换上下文超参数,我们与目标上的嵌入联合学习,以保留图的结构(负对数图似然,HLGL)。具体来说。我们提出了图注意力模型,使用softmax学习自由形式的上下文分布,每种类型的上下文相似度都有一个参数(例如随机游走的距离)。

没写完,完整版在word里,就这样吧,懒得写了。

你可能感兴趣的:(论文阅读笔记,论文阅读,深度学习,人工智能)