第一部分:Physica A 2020 | 链接预测综述(一):基于相似性的方法。
第二分分:Physica A 2020 | 链接预测综述(二)。
ROC曲线,即接受者-操作特性曲线,定义如下:
AUROC即ROC曲线下面积。Sensitivity是数据集整体积极部分的表现,Specificity是数据集整体消极部分的表现。
横轴为FPR(1-TNR,1-Specificity),纵轴为TPR(Sensitivity)。FPR表示所有真实标签为其他类的样本中预测错误的比例,TPR表示所有真实标签为 c c c的样本中预测正确的比例。因此横轴FPR越大,预测正类中实际负类越多,纵轴TPR越大,预测正类中实际正类越多。
因此理想情况:TPR=1,FPR=0,即图中(0,1)点。故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,Sensitivity、Specificity(1-FPR)越大效果越好。
AUPR表示precision–recall curve下的面积,也即precision–TPR curve下的面积。其中precision表示所有预测为 c c c的样本中预测正确的比例,TPR表示所有真实标签为 c c c的样本中预测正确的比例。
当应用于不平衡数据集的二分类时,precision–recall曲线更有用,信息更丰富,模型的AUPR值越高表示模型越好。
平均精度定义如下:
这里 p p p是召回率 r r r不同阈值下的精度。
在实际计算时,积分近似为每个阈值下的精度之和乘以召回率的变化,即:
这里 R R R是不同阈值的集合。
Recall@k与TPR类似,TPR又被称为查全率:
T P R = T P T P + F N TPR=\frac{TP}{TP+FN} TPR=TP+FNTP
TPR表示所有真实标签为 c c c的样本中预测正确的比例。Recall@k与TPR不同的地方在于Recall@k只考虑top-k项。
文章一开始给网络加了一个限制条件:本文中列出的技术主要关注于一个简单的抽象图(即一个没有顶点或边属性的图),同时该网络是简单的、无方向的和未加权的。
现实生活中的网络是复杂的,因此我们需要进行一些修改。在加权网络中,链接是有权重的,而在有向图中,节点 x x x可以有两种不同类型的邻居:in-neighbors Γ i ( x ) \Gamma_i(x) Γi(x)和out-neighbors Γ o ( x ) \Gamma_o(x) Γo(x)。其中in-neighbors表示与节点 x x x入边相关联的节点集合,out-neighbors表示与节点 x x x出边相关联的节点集合。
基于上述定义,在有向图中CN可以被修改为:
S i ( x , y ) = ∣ Γ i ( x ) ∩ Γ i ( y ) ∣ S_i(x, y)=|\Gamma_i(x) \cap \Gamma_i(y)| Si(x,y)=∣Γi(x)∩Γi(y)∣
和
S o ( x , y ) = ∣ Γ o ( x ) ∩ Γ o ( y ) ∣ S_o(x, y)=|\Gamma_o(x) \cap \Gamma_o(y)| So(x,y)=∣Γo(x)∩Γo(y)∣
而在加权图中,CN可以被修改为:
S i w e i g h t ( x , y ) = ∑ z ∈ Γ i ( x ) ∩ Γ i ( y ) w ( z , x ) + w ( z , y ) 2 S_i^{weight}(x, y)=\sum_{z \in \Gamma_i(x) \cap \Gamma_i(y)}\frac{w(z,x)+w(z,y)}{2} Siweight(x,y)=z∈Γi(x)∩Γi(y)∑2w(z,x)+w(z,y)
和
S o w e i g h t ( x , y ) = ∑ z ∈ Γ o ( x ) ∩ Γ o ( y ) w ( x , z ) + w ( y , z ) 2 S_o^{weight}(x, y)=\sum_{z \in \Gamma_o(x) \cap \Gamma_o(y)}\frac{w(x,z)+w(y,z)}{2} Soweight(x,y)=z∈Γo(x)∩Γo(y)∑2w(x,z)+w(y,z)
其他指标也可以进行类似修改。
现实社交网络中用户的关系是在不断变化的,这让网络变得很复杂,这种不断变化的网络我们可以称之为时态网络。在时态网络链路预测中,时间被视为第三维度:
链接预测用于预测下一时刻节点间是否存在链接。
针对时态网络链接预测,Purnamrita等人介绍了一种非参数方法,其中时间维度被划分为图的snapshot的子序列,这种方法基于拓扑特征和局部邻居预测链接。Dunlavy等人在一个框架中使用矩阵和张量技术,其中矩阵部分将网络snapshot序列压缩为单个矩阵,并使用截断SVD和扩展Katz方法计算链接分数,张量部分使用启发式和时间预测来计算分数,张量部分有效地捕捉了网络中的时间模式,但成本也很高。此外,Gao等人提出了一种基于潜在矩阵分解的模型,该模型利用内容值和结构信息来捕获网络中链接的时间模式。
在无向网络中,如果节点集合可以被划分为两个互不相交的子集,并且每一条边的两个节点分别在两个子集内,则该图被称为二分网络。
许多社交网络都可以被视为二分网络,比如科学家论文合作网络、RNA-PI网络。
Kunegis等人研究了二分网络中的链路预测问题,并观察到大多数基于邻居的方法(如CN、AA)不适用于这些网络。这是因为在二分网络中相邻节点属于不同的簇,并且只通过奇数长度的路径连接。不过已经有一些研究人员在二分网络中实现了常见的基于邻居的方法(例如CN、AA、RA、PA、LCP-CN等)。
大多数链接预测方法都用于同质网络,即节点和边都属于单一类型的网络,比如作者协同网络,节点只表示作者,边只表示合作关系。
异质网络中包含了不同类型的节点和链接,异质网络的链接预测后面再看论文了。
给定一个网络,使用不同的网络嵌入方法来学习网络表示,然后预测原始网络的链接。由于原始网络中的现有链路是已知的,并且可以作为基本事实,因此可以评估不同方法的重建性能,即训练集误差。
关于网络重建的实验可以看这篇文章:KDD 2016 | SDNE:结构化深层网络嵌入。
推荐系统(也称为信息过滤系统)已广泛应用于社交媒体(如Facebook、Twitter)和在线购物网站(如Flipkart、亚马逊等)。这些系统会根据用户以前的浏览历史(如兴趣、偏好、评分等)在社交网络平台上推荐新朋友、粉丝等,并在在线购物门户网站上推荐新产品。
例如在二分网络中,推荐系统可以被映射为如下链接预测问题:定义 U ∗ U^* U∗表示用户集合, O O O表示item集合,根据现有的交易信息T我们构建一个user-item交互网络 G ( V , E ) G(V,E) G(V,E),这里 V = U ∗ ∪ O V=U^* \cup O V=U∗∪O, E E E表示从user指向item的边。
在一些论文中,推荐系统(user-item推荐)被表示为一个二分图,并对item推荐采用了基本的链接预测方法。Sadilek等人提出了FLAP(友谊+位置分析和预测)系统,在该系统中,友谊和位置预测任务都得到了实现。他们利用用户的推文、他们的位置和他们的邻居信息作为模型特征,并使用MRF推断出社交关系和位置。
一般来讲,现实世界中的网络可能不会被完全观测到,比如有一些节点和链接未被观测到,这可能是因为安全性、数据聚合开销、手动错误等问题。预测这种节点和链接被称为网络完成问题,填补网络邻接矩阵的缺失项是链路预测,它可以被视为网络完成问题的一个子集。
Zan Huang和Daniel D.Zeng提出了一种利用链接预测检测垃圾邮件的模型:他们基于电子邮件数据构建了一个电子邮件网络(有向加权网络),由发送者、接收者和作为属性的通信时间戳组成。发送方和接收方之间的许多电子邮件通信链接都映射到它们之间链接的权重。然后,通过基于扩展激活算法使其自适应,使用AA链路预测方法为每个不同的发送方-接收方对计算异常分数。
许多用户在社交网站上分享个人帖子、音频、视频和其他敏感信息。信任度是评估用户在此类媒体上的关系的一个重要参数,即两个用户之间的关系强度可以基于链接权重形式的信任来确定。对于公司来说,维护用户的隐私是非常重要的。Oufi等人提出了一个基于容量的算法的框架,该算法使用Advogato信任度量来计算用户之间的信任水平。这意味着该框架可以识别一个种子用户的所有可能值得信任的用户,从而使该用户在网络中的隐私不受异常用户的影响。
一篇研究文章可能包含一些不相关的参考文献,而遗漏了一些相关的参考文献,在一篇研究文章中识别这些缺失的参考文献是避免剽窃的一项重要任务。对于新手研究者来说,由于缺乏文献调查,这一点变得更加关键。Kc等人提出了一种机器学习方法来解决这个问题,这种方法为参考文档和其他相互关联的文档之间生成链接提供了一个框架。网络中的节点表示文档,它们之间的链接显示它们之间可用的引用。框架使用概率测度图自组织映射(PM GraphSOM)来找到文档的新链接引用。
在社交网络分析中,已经提出了许多基于个人影响的工作,如链接预测、信息扩散、影响最大化、社区检测等。特别是,个人影响在链接预测中的作用为这个问题提供了一个新的视角。影响力最大化(IM)是社交网络分析中的一个基本问题,其目标是找到一组用户(种子集),然后就可以进一步利用这些用户来最大化预期的影响力传播(定义为受影响用户的预期数量)。影响(此处为社会影响)通过某些渠道(即中间节点)传播,这些渠道由扩散模型捕捉。IM和扩散模型是一个协作和相关的任务。对于IM,计算框架中使用了几种扩散模型。Zhang等人提出了一个新的链接扩散框架,以预测微博网络中的更多链接。他们发现三元结构是影响链接扩散过程以及链接预测的关键因素。早些时候,Cervantes等人提出了一种监督学习模型,以在协作网络中寻找有影响力的协作研究人员,他们将该模型应用于整个网络,并将其结果与每次从训练集中移除不同顶点时生成的子网络进行比较。最后,根据研究结果在网络中的存在与否对每个研究者的合作影响力进行排名和检验。寻找有影响力的用户(即种子集)在营销等许多应用中都很有用,在营销中,有影响力的用户可以用来为产品做广告,以实现利润最大化。
在这篇综述中,作者介绍了几种链接预测方法,这些方法大致分为基于相似性的、概率模型的、基于降维的、基于熵的和基于聚类的。本文也回顾了最近的一些方法,包括模糊模型和二分网络中的链接预测。作者在七个网络数据集上进行了基于相似性的方法的实验,并在四个已知的度量上进行了评估,然后发现局部和准局部方法通常表现良好,全局方法表现一般,这是因为全局方法主要基于探索路径,这些路径计算复杂,并且会增加网络中的噪声。
链接预测仍然是一个开放的研究问题,这其中有几个问题有待探讨。例如,哪种结构特性在每种技术上表现更好?如何处理大规模网络?能否设计一种方法来预测强度/权重随时间变化的缺失链接? 由于离群值概念对检测垃圾邮件很有用,所以离群值检测可能是链接预测方法将做出卓有成效贡献的另一个框架。大多数现实世界的网络都是高度稀疏的,其中正实例的数量与负实例相比非常少,因此如何在链路预测的上下文中处理不平衡的数据集可能是另一个比较重要的研究方向。