链路预测的图特征学习和特征提取技术

本文为 author:Ece C.Mutlu
的阅读笔记。

摘要

学习网络来预测新的相互关系在网络科学和机器学习领域都是一个常见的研究问题。这种预测网络中以后或是遗失的关系的问题叫做链路预测。机器学习研究把这个问题作为聚类或是分类任务来探讨。在通过机器学习模型来处理网络数据集时会包含一些障碍,包括未定义的欧氏距离,提取合适的特征,由于真实网络的稀疏性导致的不平衡的分类,或是为了保留学习网络的结构而将图嵌入到低维向量空间。广泛的研究已经从不同方面解释了这些问题,并提出了一些在特定问题上表现好的方法,但是不是一个全局解。这份调查中,我们回顾了链路预测问题核心部分的通用的技术,这项技术在实际中可以与特定领域的遗传算法结合起来。据我们所知,这份调查是第一份综述研究,考虑了所有提到的关于学习网络和发展它们到机器学习模型的一系列挑战。关于网络数据集的特征提取技术,我们提出了一个不同的研究,包括相似矩阵,最大似然方法,概率方法和图表示学习。我们其它的贡献包括,提出一个对链路预测方法的分类,并继续引入有价值的网络数据来学习链路预测问题。我们最后的贡献是提出和讨论了一些模型,包括一个多流特征学习模型来利用本地或是准本地的特征提取技术来和图表示学习的好处。

介绍

复杂网络在理解社会网络的信息融合内容中被广泛研究,人们之间的关系,蛋白质结构的相似,人们之间的贸易、合作关系或是国家的结构。这种“连通性”吸引着研究人员全面调查复杂网络。社会网络,我们所熟悉的,或许是复杂网络的一个首要例子。社会网络通过人和人之间的关系结合在一起来构建的,不管它们的区域距离,不同的文化甚至不同的语言。社交网络的使用有助于接受来自世界各地的新闻,和朋友交流,跟进科学发展等。另一个复杂网络的例子是信息网络,也被叫做“知识网络”[82],和社会网络的结构相似。最普遍的关于信息网络的例子是引用网络,作者通过他们的科学出版物和共同引用建立联系[35]。生物网络,在另一方面,或许提供了复杂网络的另一个例子,其代表着蛋白质之间的关系,代谢方式或是组织之间的基因联系。这些独立而不同的网络在网络结构中的关系都可以简化成一个由点和边组成的图[47]。这些图能被定义为其中是一组顶点,是图中边的集合。对于复杂的动态复杂网络图,顶点和边的集合会随着新的用户的引入而变化,新的链接会随着新的连接而出现。复杂网络的图或许包含大量的社区,这些社区中都是通过强而紧的连接来帮助区分社区,而且社区之间是通过弱连接连在一起的。[13]

1a

为了给复杂网络提供一些可视化的例子,图1a显示了著名的Zachary的空手道俱乐部网络。这幅图显示了34名空手道俱乐部成员在俱乐部外的关系,并且基于两个中心任务(1号和34号)来着色。矩阵通过节点之间的连接来形成,这被称作“邻接矩阵”。这个矩阵提供了空手道俱乐部成员之间是否存在连接的信息。


1b

在图1b中,这些连接用黄色来表示,蓝色区域则表示成员之间不存在连接。由于这个网络很稀疏,很小,所以我们可以很容易的观察个体之间的关系。


2a

2b

为了说明稠密图的可视化,图2显示了SNAP Facebook数据集的一个自我网络的结构。如图所示,颜色还代表着网络之间的连接数,也被称为“度”或是“亲密度”,其由最短路径所衡量。

最古老的关于网络科学的研究是基于随机图的[37]由Erdos和Renyi所提出,在随机图中,个节点有个可能随机的边由概率生成。对随机图做了广泛的研究,证明了网络的共性和它们的概率分布,为以后的工作提供了新的思路。[6,17,36,41,56]之后的研究将重点放到真实的网络中,而不是随机生成的,并解释了它们的形成和演变。关于计算网络的研究分析主要包含复杂网络的统计分析[28,77,92],社区检验和节点分类[38,61,89],网络随时间的动态演化[31,32,58,111],信息融合和级联分析[9,42,97,116],数据挖掘[29,96,103]和图的可视化[18,24,78,112]等。在复杂网络中最有趣和持续存在的挑战就是链路预测问题。这个挑战目标在推断节点之间连接的存在性,理解结构和网络的形成,来预测实体对之间尚未存在的连接。连接预测的应用包括在线推荐系统,基于交通图的路线推荐,疾病流行模式以及复杂网络中的信息扩散[66,75]。
在链路预测挑战中存在的主要障碍是待分析的信息量(节点、连接、特征)与用于分析的方法的复杂性之间要作出一个平衡。这个问题变得很显然特别是学习真实世界包含数以千计的节点和连接的网络[75]。更多的,网络数据集还存在网络稀疏导致的不平衡性问题。
基于特征节点(局部)或是路径(全局)的相似矩阵关于相邻节点的计算,链路预测主要研究无监督图表示和特征学习方法。然而来链路预测任务也能通过使用监督机器学习算法来克服。对于链路预测任务的机器学习模型可以i)利用相似性度量作为输入特征ii)将节点嵌入低维向量空间,同时保留图的拓扑结构iii)将i)和ii)中的节点属性向结合起来。链路预测基于的假设是越相似的节点,越有可能相互连接。图特征学习技术从另一个方面来说包含图拓扑的结束和结构特征来基于成对的相似度量计算分数函数。Common neighbors, preferential attachment, Jaccard, Katz and Adamic Adar都是一些被广泛使用,用来度量图中边的联系的相似程度的。尽管这些方法看起来似乎过时了,它们其实远远没有过时。尽管它们没有发现图的属性,它们还是由于其简单,可解释和可拓展[121]风靡了很多年。这些方法提供了机器学习可以学习的特征。
接下来的论文的结构如下。首先,我们研究初步方案,并描述这个问题,然后我们列出我们在这次调查中的贡献。在第二部分将会回顾一些相似度量的技术,并提供其定义。我们将在第三部分介绍极大似然法来进行链路预测,第四部分介绍概率方法。第五部分致力于图嵌入法和表示学习。一个关于一些监督链路预测模型将在第6部分讨论。第七部分包括文献综合链路预测的来源。在第八部分,介绍了一些网络数据集。最后,在第九部分,我们讨论回顾了一些方法,并提出日后学习的分类模型。附录包括所提的分类和补充材料。

你可能感兴趣的:(链路预测的图特征学习和特征提取技术)