这篇论文来自NIPS2018
原文见论文pdf
名词解释from某度
启发式算法 heuristic algorithm
一个问题的最优算法能够求得该问题每个实例的最优解。启发式算法相对于最优算法提出,可以这样定义:一个基于直观或经验构造的算法,在可接受的花费(指计算时间和空间)下给出待解决组合优化问题每一个实例的一个可行解,该可行解与最优解的偏离程度一般不能被预计。现阶段,启发式算法以仿自然体算法为主,主要有蚁群算法、模拟退火法、神经网络等。
Introduction
Link prediction is to predict whether two nodes in a network are likely to have a link.
Related works
此前的做链路预测的方法主要是使用评分函数去测度链路存在的可能性的启发式算法
e.g. common neighbors、Katz index
缺陷
对链路存在的情境有很强的假设,当假设不成立时有效性受限。比如:common neighbors假设是如果两个结点有很多的公共邻居,他们间更有可能有链路。对社交网络来说,这个假设成立,但对PPI(Protein–protein interaction)蛋白质互作用这个数据集来说,有很多公共邻居的两种蛋白能反应的可能性更小。
分类
需要知道h跳邻居的启发式算法称作h-order heuristics。
将这些启发式算法按照计算score需要知道的最远邻居跳数(require knowing up to h-hop neighborhood of the target nodes)分类,可以分成:
- first-order heuristics
common neighbors (CN), preferential attachment (PA) - second-order heuristics
Adamic-Adar (AA), resource allocation (RA) -
high-order heuristics
Katz, rooted PageRank (PR), SimRank (SR)
改进思路
考虑从给定的网络中学习一个启发式算法,而不是使用预定义的。 通过提取每个目标链路周围的局部子图来学习一个从子图模式到链路存在性的映射,从而自动学习适合于当前网络的“启发式”。
已有的方法
启发式其实属于graph structure features方法。
Graph structure features are those features located inside the observed node and edge structures of the network, which can be calculated directly from the graph.
- Weisfeiler-Lehman Neural Machine (WLNM) 抽取封闭子图 + 全连接NN 来学习子图到链接存在性的映射
extract local enclosing subgraphs around links as the training data, and use a fully-connected neural network to learn which enclosing subgraphs correspond to link existence - high-order heuristics往往比跳数为1、2的performance更好,但high-order会让子图变得很大甚至变成整个图,时间和内存开销太大。(对应contribution 1,降h)
Contributions
- 提出了一种学习链路预测启发式的理论,这个理论在一个框架内统一了上述的启发式算法,并证明了所有这些启发式可以在局部子图上取得相近的结果。局部子图可以把与链接存在相关的丰富信息保留下来。
present a new theory for learning link prediction heuristics, justifying learning from local subgraphs instead of entire networks -
基于理论,提出了SEAL,一种用GNN 从局部子图学习启发式的方法
propose SEAL, a novel link prediction framework based on GNN