文献阅读(六)KDD2016-Asymmetric Transitivity Preserving Graph Embedding

本文是对《Asymmetric Transitivity Preserving Graph Embedding》一文的浅显翻译与理解,原文章已上传至个人资源,如有侵权即刻删除。
更多网络表示学习相关文章,请移步:文献阅读总结:网络表示学习

文章目录

  • 前言
  • Title
  • Main Body
    • 1 定义
    • 2 损失函数
    • 3 优化高阶接近度
    • 4 近似误差

前言

该文章认为,与无向图不同,有向图中的传递性是非对称的,提出 HOPE(High-Order Proximity Preserved Embedding)算法来学习无向图中的非对称传递性,该算法对非对称传递性的测量是可观测的。

HOPE 将嵌入分为两部分,即源嵌入和目标嵌入。通过近似高阶接近度,模拟多个接近度测量标准的通用公式,通过广义 SVD 保证了算法的可扩展性。并且对四种接近度的测量标准进行公式推导,最终都归为通用形式。避免了对接近度矩阵 S 的高复杂度 SVD 计算,将其视为中间变量不直接求解,而是使用最大奇异值 K 跳过 S 得到最终嵌入。


Title

《Asymmetric Transitivity Preserving Graph Embedding》(保持非对称传递性的图嵌入)
——KDD 2016: The 22th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
Author: Mingdong Ou


Main Body

针对有向图中的非对称传递性,将向量分为 source vector 和 target vector 两部分。节点 vi 与 vj 之间的路径越多且越短,vi 的源向量和 vj 的目标向量就越相似。从理论上讲,无向图和有向图都可以被表示为有向图。

1 定义

G=(V,E),V 是顶点集,E 是边集,A 是邻接矩阵,S 是高阶接近度矩阵, U=[Us,Ut] 是嵌入矩阵,分为源嵌入和目标嵌入。

2 损失函数

目标是通过近似高阶接近度来保持非对称传递性,损失函数为:
在这里插入图片描述
对 S,有多种高阶接近度的度量衡,其通用形式如下:
在这里插入图片描述
对四种度量衡分别推导:
(1)Katz Index:是两节点间所有路径的加权和,权重与路径长度呈指数关系,则有:
文献阅读(六)KDD2016-Asymmetric Transitivity Preserving Graph Embedding_第1张图片
其中 β 是衰变参数,要比邻接矩阵的谱半径小。A^l 即加和的每项,每次多乘一个邻接矩阵 A。
文献阅读(六)KDD2016-Asymmetric Transitivity Preserving Graph Embedding_第2张图片
(2)RPR(Rooted PageRank):表示 vi 稳定状态下随机游走连接 vj 的概率,设在一步随机游走中向其他相邻节点延伸的概率为 α,返回上一出发点的概率为(1-α),则有:
在这里插入图片描述
其中,P 是满足 ∑(i=1,…,N)P_i*j=1 的概率转移矩阵,即矩阵各元素非负,且各行元素之和为1,各元素用概率表示,在一定条件下是互相转移的。
文献阅读(六)KDD2016-Asymmetric Transitivity Preserving Graph Embedding_第3张图片
(3)CN(Common Neighbors):S_ij 即同时连接 vi 和 vj 两节点的的节点数量,对有向图而言,S_ij 即同时作为 vi 边目标和 vj 边源的节点数量,则有:
文献阅读(六)KDD2016-Asymmetric Transitivity Preserving Graph Embedding_第4张图片
(4)AA(Adamic-Adar):是 CN 的变体,其为每个邻居分配一个权重,这意味着一个节点连接的节点越多,该节点对某一节点的接近度就越小,则有:
文献阅读(六)KDD2016-Asymmetric Transitivity Preserving Graph Embedding_第5张图片
上述四个度量衡可以被分为两种类型:全局接近度的有 Katz index 和 rooted PageRank,都推导为递归形式;局部接近度的有 Common Neighbors 和 Adamic-Adar。Mg 与全局非对称传递性关系密切,其有形式为 I-α·B,其中 B 为转移矩阵,α 为参数,α 越大,越容易在图中观察到传递性;α 为0时,观察到的关系就只能在子图中传递,子图的范围受到 Ml 的限制。

3 优化高阶接近度

损失函数目的在于找到接近度矩阵 S 中最优的 K 阶接近度,对高阶接近度矩阵 S 执行 SVD 奇异值分解,使用其中最大的 K 值及其对应的向量来构建最优嵌入向量,则有:
文献阅读(六)KDD2016-Asymmetric Transitivity Preserving Graph Embedding_第6张图片
{σ1,σ2,…,σN} 是降序排列的奇异值,可以得到最优嵌入向量如下:
文献阅读(六)KDD2016-Asymmetric Transitivity Preserving Graph Embedding_第7张图片
然而,对 S 进行奇异值分解计算耗费过大,S 是计算的瓶颈,且其只是中间产物,因此提出新的算法避免对 S 的计算,直接得到嵌入向量。将原始 SVD 问题转化为广义 SVD 问题,以便使用通用公式进行接近度测量,则有:
文献阅读(六)KDD2016-Asymmetric Transitivity Preserving Graph Embedding_第8张图片文献阅读(六)KDD2016-Asymmetric Transitivity Preserving Graph Embedding_第9张图片在这里插入图片描述

有算法描述如下:
文献阅读(六)KDD2016-Asymmetric Transitivity Preserving Graph Embedding_第10张图片
用到了最大奇异值 K,代替对 S 的 SVD 分解,通过 A 计算出 M,对 M 进行 JDGSVD,同样可以得到用来计算最终向量的奇异值。

4 近似误差

给出了算法的误差范围如下:
文献阅读(六)KDD2016-Asymmetric Transitivity Preserving Graph Embedding_第11张图片文献阅读(六)KDD2016-Asymmetric Transitivity Preserving Graph Embedding_第12张图片
可以得到,S 阶数越低,误差就越小。

你可能感兴趣的:(文献阅读)