【论文阅读】Deep Neural Networks for Learning Graph Representations | day14,15

《Deep Neural Networks for Learning Graph Representations》- (AAAI-16)-2016

文章目录

      • 一、模型
        • 1.1解决了两个问题
        • 1.2优点
      • 二、背景知识
        • 2.1DeepWalk中的未加权图随机采样法
        • 2.2 两种从线性结构数据中学习词语表示的线性方法
          • 2.2.1Skip-gram with Negative Sampling带负抽样的跳跃图
          • 2.2.2 PMI matrix 结合 SVD 使用
          • 2.2.3深度神经网络
        • 三、DNGR模型
          • 3.1随机冲浪模型
          • 3.2优点

  提出了一个模型DNGR (deep neural networks for graph representations),用于加权图的表示学习。通过捕捉图数据的结构信息,基于随即冲浪(而非采样)为每个顶点生成一个低维向量表示。该模型可从理论和经验角度视为良好。

一、模型

1.1解决了两个问题

1.如何更准确、快速获取加权图的图结构信息。
答:设计了一个适用于加权图的随机冲浪模型,可直接生成一个概率共现矩阵。

2.如何更好的构造节点表示的线性结构。
答:PPMI矩阵是图的显式表示矩阵,使用SVD实现维度约简。为了增强模型的鲁棒性,使用了堆叠的去噪自动编码器来学习多层表示。

  学习到的表示可以被视为输入特征,这些特征可以被输入到其他任务中,例如无监督聚类和监督分类任务。

1.2优点

1.理论上:深度神经网络(随机冲浪模型)比传统线性降维方法(例如基于抽样),更能够捕获图数据的非线性信息。

2.实践证明:新模型能够更好地学习加权图的低维顶点表示,可以捕获有意义的图的语义、关系和结构信息。

二、背景知识

2.1DeepWalk中的未加权图随机采样法

以说明将顶点表示转换为线性表示的可行性。

  在一个未加权的图中,边权值表示两个顶点之间是否存在关系,因此是二进制的。相反,加权图中的边权值是实数,表示两个顶点之间的关联度。虽然权图中的边权可以是负的,但本文中只考虑非负权。

目的:试图获取图G的深层结构信息的矩阵R。

方法:
  DeepWalk提供了一种称为截断随机漫步,将未加权的图数据转换为表示图顶点之间关系的“线性序列”。
  所提出的随机游动是一种适用于非加权图的均匀抽样方法。
  1.他们首先从图中随机选择一个顶点v1,把它标记为当前的顶点,然后从当前顶点v1的所有邻居中随机选择下一个顶点v2。
  2.之后,将新选择的顶点v2标记为当前的顶点,并重复这样的顶点采样过程。
  3.当一个序列中的顶点数量达到一个预先设定的漫步长度η时,算法终止。
  在重复上述过程γ次(称为总行走)后,收集线性序列块。

2.2 两种从线性结构数据中学习词语表示的线性方法

2.2.1Skip-gram with Negative Sampling带负抽样的跳跃图

  词语表示方法分为基于神经网络嵌入和矩阵分解两种。之前提出的skip-gram模型是一种学习单词表征的方法。其改进方法分为负抽样(SGNS)和分层softmax,在本文中使用负抽样方法。

2.2.2 PMI matrix 结合 SVD 使用

  词语表示学习方法的另一种是基于矩阵分解技术。这种方法基于全局共现次数的统计来学习表示,在某些预测任务中优于基于独立局部上下文窗口的神经网络方法。
  矩阵分解方法的一个例子是:超空间模拟分析(Lund和Burgess, 1996),它分解一个词-词共现矩阵以产生词表示。
  这种方法和相关方法的一个主要缺点是,语义值相对较小的频繁单词(如停止词)会对生成的单词表示产生不成比例的影响。
  Church和Hanks的点态互信息(PMI)矩阵(Church和Hanks 1990年)可以解决这个问题。并且,如果将每个负数赋值为0,以形成PPMI矩阵,可以提高词语表示的效果。虽然PPMI矩阵是一个高维矩阵,但是使用截断的SVD方法进行降维(Eckart和Young 1936)可以得到矩阵的最优分解。

而我们使用非线性的深度神经网络试图取代线性奇异值分解法。

2.2.3深度神经网络

  在深度神经网络中,使用自动编码器来训练包含多层特征表示的神经架构。自动编码器包含(编码-解码)操作。

  在编码步骤中,将函数fθ1(·)应用于输入空间中的向量,并将其发送到一个新的特征空间。
  在这一过程中,激活函数通常用于模拟两个向量空间(输入向量空间潜向量表示空间)之间的非线性。
  在解码步骤中,使用一个重构函数gθ2(·)从潜在表示空间重构出原始输入向量

  设fθ1 (x) = σ(W1x + b1), gθ2 (y) = σ(W2y+b2),其中σ(·)为激活函数,θ1 = {W1, b1}为编码器中涉及的权值(参数),θ2 = {W2, b2}为解码器中涉及的权值(参数)。
  这里W1和W2是线性映射(矩阵)将输入空间中的向量进行变换,而b1和b2是偏置向量。我们的目标是通过求θ1和θ2来最小化重建损失函数(采样损失和)

  堆叠式自动编码器是由多层的这种自动编码器组成的多层深层神经网络。堆叠式自动编码器使用分层训练方法来提取基本规律,从数据中逐层捕获不同级别的抽象,更高的层从数据中传递更高级别的抽象。

三、DNGR模型

模型由三个主要步骤组成。

3.1随机冲浪模型

1.首先,我们引入随机冲浪模型来捕获图的结构信息并生成概率共现矩阵。
  将图形结构转换为线性序列的采样方法有缺点:
(1)采样序列的长度是有限的。这使得采样序列边界处的点的上下文信息很难捕捉。
(2)确定某些超参数,如游动长度η和总游动γ,对于大型图很难。
使用随机冲浪模型的PageRank模型用于排名任务。
1> 对图中的顶点进行随机排序。
2> 对当前第i个顶点,存在一个转移矩阵a,用于表示不同顶点之间的转移概率。
3> 引入一个行向量pk,其第j个条目。表示在k步之后到达第j个顶点的概率,p0是第一个热向量,第i个条目的值为1,所有其他条目的值为0。
2.根据我们的概率共现矩阵计算PPMI矩阵。
—详见2.2.2.
3.使用堆叠的去噪自动编码器(第3.2节)学习低维顶点表示。
目的是:从PPMI矩阵中为顶点构造高质量的低维向量表示。PPMI矩阵传达了图形形成的基本结构。SVD过程虽然有效,但基本上只产生线性变换,从PPMI矩阵包含的向量表示映射到最终的低维顶点向量表示。
因为在这两个向量空间之间可以建立一个潜在的非线性映射。因此,我们使用堆叠去噪自动编码器(一种用于深度学习的流行模型)从原始高维顶点向量生成压缩的低维向量。

3.2优点

•堆叠策略:堆叠结构实现了尺寸缩减的平滑方式。
•去噪策略:高维输入数据通常包含冗余信息和噪声。去噪策略可以有效地降低噪声并增强鲁棒性。
•效率:基于SVD的矩阵因子化方法相比,DNGR中使用的自动编码器的推理在图中的顶点数方面具有更低的时间复杂度。奇异值分解的时间复杂度至少是顶点数的二次方。然而,DNGR的推理时间复杂度与图中的顶点数呈线性关系。

你可能感兴趣的:(论文阅读,算法,机器学习,深度学习)