1.识别与某些结构或功能目标相关的重要节点非常重要
这使我们能够更好地控制流行病的爆发,为电子商务产品进行成功的广告投放,防止电网或互联网的灾难性中断,优化有限资源的使用以促进信息传播,发现药物候选靶点和必需蛋白质,维护通信网络的连通性或为连通性故障设计策略,从专业体育比赛的记录中识别最佳选手,并基于合著和引文网络预测成功的科学家和流行的科学出版物。
2.重要节点的标准多样
有时它需要初始免疫能在流行病传播中最好地保护整个种群的节点,有时它需要损伤将导致最广泛的级联失效的节点,以此类推。
因此,要找到一个最能量化所有情况下节点重要性的通用索引是不可能的。
3.如何在局部索引和全局索引之间,或者在无参数索引和多参数索引之间找到一个很好的折衷是一个挑战。
与基于全局拓扑信息或具有许多可调参数的指标相比,只需要节点局部信息和无参数指标的指标通常更简单,计算复杂度更低,但局部指标和无参数指标的精度通常较差。
4.大多数已知的方法本质上是为识别单个的重要节点而设计的,而不是一组重要节点,而后者更符合实际应用,因为我们经常试图免疫或推送广告给一群人,而不是一个人。
然而,将两个最具影响力的传播者放在一起并不会产生一个具有两个传播者的最具影响力集合,因为两个传播者的影响可能在很大程度上重叠。
事实上,许多启发式算法的思想直接借鉴于个体重要节点的识别,但在识别一组重要节点时表现不佳。
5.为空间网络、时间网络和多层网络等新型网络设计高效有效的方法是该研究领域的新课题。
由于其挑战性和重要意义,重要节点的识别近年来受到越来越多的关注。
节点的影响力在很大程度上受其所属网络的拓扑结构的影响和反映。一般来说,中心性度量为网络中的每个节点分配一个真实值,其中产生的值将根据节点的重要性提供一个节点排名。
重要性(中心性)的含义广泛,从不同的方面提出了许多方法。
将结构中心性大致分为基于邻域的中心性 & 基于路径的中心性,并介绍了其中最具代表性的中心性。
一个节点的影响力与其影响周围邻居行为的能力高度相关。
(例如,在twitter.com上有影响力的用户有可能直接向更多受众传播新闻或观点。)
因此,一种算法是直接计算节点近邻的数量,即度中心性。
度中心性的改进版本,称为LocalRank算法,考虑了每个节点的四阶邻居中包含的信息。
这两种算法都是基于邻域之间的链接数量,而众所周知,局部互联性在信息传播过程中起着负面作用。
因此,考虑相邻节点的数量&节点的聚类系数的基础上提出改进新算法。
一般来说,在邻居数量相同的情况下,节点的聚类系数越大,其影响越小。
最近,有人认为节点的位置(是否在中心位置)比节点的度更重要。
他们应用了k-core分解,根据节点的残差程度迭代分解网络。
将节点所属的最小核心所对应的最高核心阶数定义为该节点的核心度,认为该核心度是量化节点在传播动态中影响力的更准确的指标。(The highest core order, corresponding to the smallest core a node belongs to, is then defined as this node’s coreness, which is considered as a more accurate index in quantifying a node’s influlence in spreading dynamics.)
使用著名的h指数来量化用户在社交网络中的影响力。
一个非常有趣的结果是,“度中心性、h指数和核心度” 可以被认为是由离散算子驱动的序列的初始状态、中间状态和稳态。
上述中心性度量实质上是基于节点的邻域,而从信息传播的角度来看,传播速度更快、传播范围更广的节点更为重要,这在很大程度上应受到传播路径的影响。
“偏心中心性eccentricity centrality & 紧密中心性 closeness centrality” 都认为一个节点与所有其他节点的距离越短,信息传播越快。
而(1)只考虑到其他节点的所有最短路径之间的最大距离,对少数异常路径的存在非常敏感。
而(2)通过对目标节点与所有其他节点之间的距离进行汇总来消除干扰。
节点的中间中心性betweenness centrality定义为网络中经过目标节点的最短路径占所有最短路径的比例。
一般来说,亲密度中心性最小的节点对信息流的视觉效果(?传播效果)最好,而中间度中心性最大的节点对信息流的视觉效果最强。
“卡茨中心性Katz” 考虑网络中的所有路径,并对较长的路径分配较少的权重。
与Katz中心性类似,子图中心性subgraph centrality计算封闭路径的数量,并对较长的路径给予较少的权重。
信息索引The information index还假设信息将在网络中的每一跳中丢失,因此路径越长,丢失的信息越多。
因此,它通过测量从目标节点到所有其他节点的所有可能路径中包含的信息来计算一个节点的影响力。
1)有时,度中心性表现得出奇地好。
例如,在网络脆弱性研究中,与基于中介性中心性、密切度中心性和特征向量中心性(betweenness centrality, closeness centrality and eigenvector centrality)等更复杂中心性的选择攻击方法相比,度目标攻击可以非常有效地破坏无标度网络和指数网络(scale-free networks and exponential networks)。
2)此外,当扩散率非常小时,度中心性是一个比特征向量中心性(eigenvector centrality)和其他一些众所周知的中心性更好的识别节点扩散影响的指标。
在有向网络D(V, E)中,每个链路都与一个方向相关联,那么我们要分别考虑节点的出度和入度。
例如,考虑twitter.com,节点vj到节点vi之间存在有向链接,如果vj紧随vi,那么节点vi的入度(即指向vi的有向链接的节点数量)反映了vi的受欢迎程度,而vi的出度(即从vi到其他节点的链接数量)在一定程度上代表了vi的社交活动。
3)在加权网络中,度中心性通常被强度所取代,强度定义为相关链接的权重之和。
度中心性在评价节点影响时可能不太准确,因为它使用的信息非常有限。
作为程度中心性的扩展,Chen等人提出了一种有效的基于局部信息的算法LocalRank,该算法充分考虑了每个节点的四阶邻居所包含的信息。
节点vi的LocalRank评分定义为:
(Ti是vi的邻居集合,R(k) 是vk的一阶和二阶邻居)
LocalRank算法的时间复杂度比典型的基于路径的中心算法低得多。
事实上,LocalRank算法的计算复杂度几乎随网络规模线性增长。
LocalRank算法也可以扩展为加权网络。
局部聚类(局部互联性)通常在传播过程中起消极作用,以及在演化网络的增长中起消极作用。
与度中心性和LocalRank算法不同,ClusterRank不仅考虑最近邻居的数量,还考虑了它们之间的交互。
ClusterRank定义在有向网络中,其中从vi到vj的链接记为(i→j),意味着信息或疾病将从vi传播到vj。
从相关的角度来看,对于信息在多个社区的网络中传播的情况,信息一旦到达一个社区,就会迅速地在本地传播。
连接多个社区的节点将具有在全球范围内传播信息的潜力。
因此,通过计算节点连接的社区数量 来计算节点的影响力。
同样,组间跨结构孔(structural holes)的节点更有可能表达有价值的想法,具有更高的影响力,因此提出了考虑结构孔的排序算法。
Liu等提出了一种改进的方法来区分同层节点的影响。通过测量目标节点到网络核心中所有节点的最短距离之和,即核数最高的节点集。
Hu等人[62]结合了网络的k-core和社区属性,提出了一种新的模型。
Luo等人[63]认为在k-core分解中应将弱联系和强联系分开考虑。
Min等人[64]提出了一种基于对人类行为和社会机制调查的算法。
Pei等人[59]发现,在不同的社交平台上,重要节点一致位于k核。
Borge-Holthoefer和Moreno[65]研究了谣言动力学中的k核分解。
Liu等人[66]提出了一种新颖有效的方法,首先去除冗余链接,然后应用常规的k核分解。
迭代k核分解过程需要网络的全局拓扑信息,这限制了它在非常大规模的动态网络上的应用。
与核心度不同,h指数(赫希指数)是一种局部中心性,其中每个节点只需要少量的信息,即相邻节点的度。
而紧密中心性通过汇总目标节点与所有其他节点之间的所有距离来消除干扰。
因此,节点vi的中介中心性可定义为:
(其中gst是vs到vt的最短路径的个数,gst^i是vs到vt的所有最短路径中经过vi的路径的个数。)
因此,无向网络中节点vi的归一化介心中心性为:
为了便于计算,研究人员还采用了近似归一化形式的介数,例如:
如果一个给定的节点对之间有多个最短路径,数据包将遇到分支点,并将均匀地分布到这些路径上。
实际上,节点vi的中介中心性相当于每个节点向每个节点发送一个数据包时,在vi处的负载,忽略数据包的干扰和延迟。
Goh等发现介数中心的分布遵循幂律,这对无向和有向无标度网络都是有效的。
提出了一种组间中心性来度量一组节点的中心性,即通过该组中至少一个节点的最短路径。
Kolaczyk等人进一步讨论了群间中心性和共间中心性的关系,通过通过群中所有节点的最短路径来计算一组节点的中心性。
然而,许多因素,如负载平衡和容错,可能导致一些折衷策略,其中数据包并不总是通过真实商业传输网络中的最短路径传递。
也有研究表明,在所有节点对之间选择最短路径可能会导致交通拥堵问题。
Freeman等人提出了一种称为流中介中心性的算法,该算法考虑了给定节点对之间的所有路径。
在数学上,vi的流中介中心性定义为:
( ̄gst是从vs开始、结束于vt的最大流量,而 ̄g I st是从vs开始、结束于vt通过vi的流量。)
在最大流量问题中,s-t切割是将节点vs和vt分成两个互不相连的分量的划分。
割集容量(?)是组成割集的各个环节容量的总和。
著名的min-cut, max-flow定理证明了从vs到vt的最大流量恰好等于最小切割容量
则无向网络中节点vi的可通信介心中心性为:
其中Gst^i是vs和vt之间对应的可通信性,其中涉及节点vi。
讨论了可通信性中介中心性的上下限。
与只考虑节点对之间最短路径长度的紧密中心性不同,Katz中心性通过考虑网络中的所有路径来计算节点的影响。
节点vi的子图中心性定义为从vi开始到结束的所有封闭路径数的加权和。
与紧密中心性和信息索引相似,长度越短的路径对相关节点的重要性贡献越大。
长度为p,从vi开始到vi结束的封闭路径的个数,可由邻接矩阵的第p次幂的第i个对角元素,即(Ap)ii得到。
节点的影响不仅取决于其邻居的数量,还取决于邻居的影响,称为相互增强效应。在本章中,我们将选择一些典型的操作细化中心,其中每个节点都得到其邻居的支持。
eigenvector centrality(特征向量中心性)& cumulative nomination algorithm(累积提名算法)设计在无向网络中。
而PageRank、HIT及其变体主要用于有向网络中。
PageRank最初用于对网页进行排名,是谷歌搜索引擎的核心算法。
为了解决悬空节点问题,PageRank引入了一个随机跳跃因子,它是一个可调参数,其最佳值取决于网络结构和目标函数。
LeaderRank通过添加通过双向链路连接到每个节点的接地节点,与2n个链路相关联的接地节点使网络强连接,并消除所有悬空节点。
然后,使用随机行走的所有节点上的访问概率的稳定分布来量化节点的重要性。
由于节点在定向网络中可能扮演不同的角色,HITs算法从两个方面评估每个节点:权威和中枢。
在有向网络中,节点的权限分数等于指向该节点的所有节点的中心分数的总和,而节点的中心得分等于该节点指向的所有节点权限分数的总和。
1)其中c是比例常数。通常,c=1/λ,其中λ是A的最大特征值。通过幂迭代方法可以有效地计算特征向量中心性。
2)在幂迭代开始时,每个节点的分数被初始化为1。然后每个节点将其分数平均分配给其连接的邻居,并在每一轮迭代中接收新值。
3)重复此过程,直到节点的值达到稳定状态。
从这种迭代方法的观点来看,PageRank算法是特征向量中心性的变体。
在一般情况下,特征向量中心性得分更倾向于集中在几个节点上,这使得很难在节点之间进行区分。
非回溯中心性的主要思想是:当计算节点vi的中心性得分时,vi的邻居在求和中的值将不再考虑vi的影响。
特征向量中心性可能并不总是一种理想的方法,因为它的收敛速度很慢,有时会陷入无休止的循环。
累积提名方案假设更多的中心个体在社交网络中会更频繁地被提名,
并考虑每个节点及其邻近节点的指定值。
开始,每个节点的提名值初始设置为1。然后每个节点都得到提名,更新后的值等于它的原始值加上和在每次迭代中邻居的值。 当所有节点的归一化累积提名达到稳态时,提名迭代停止。
t次迭代i后指定节点vi的累积:
(pi(t−1)表示节点vi经过t−1次迭代后的累计提名数。)
累积提名与阿尔法中心性公式相似。
虽然不同之处在于,alpha中心性中的向量e是一个固定的向量,但是,累积命名中的对应元素,例如pi(t),等于最后迭代中的节点的值,这提高了收敛速度。
PageRank算法是特征向量中心性的一个著名变体,并被用于在谷歌搜索引擎和其他商业场景中为网站排名。
传统的基于关键词的网站排名算法容易受到恶意攻击,通过增加不相关关键词的密度来提高网站的影响力。
PageRank通过在网络上随机行走,从网页的关系构建来区分不同网站的重要性。
类似于特征向量中心性,PageRank假设一个网页的重要性是由数量和链接到它的页面质量。
上述随机游走过程的一个主要缺点是悬空节点(出度为零的节点)的PR值不能重新分配,那么Eq.(37)不能保证收敛.
它已被应用于通过网络结构对广泛的对象进行排名:
对图像和书籍进行排序,对生物学和生物信息学中的基因和蛋白质进行排序,对化学中的分子进行排序,对Neu科学中的脑区和神经元进行排序,对复杂信息系统中的主机名、Lonux内核和编程接口进行排序,对社会网络中的领导人进行排序,对文献计量学中的科学家、论文和期刊进行排序,对运动员和运动队进行排名。
研究了用PageRank评估节点的传播能力时,在扰动网络(perturbed networks)中超稳定节点(super-stable nodes)的出现。
他们调查了不同拓扑属性的排名,发现PageRank在随机网络中对摄动很敏感,而在无标度网络中是稳定的。
PageRank中每个节点的随机跳转概率是相同的,这意味着一个浏览者从一个有信息的网页和从一个琐碎的网页离开的概率是相同的,这与实际情况不相符。
此外,如何确定参数,以达到最佳的排名取决于具体的场景。
节点vi的最终得分为:
该自适应无参数算法对在线社交网络具有很好的性能。
大量的实验表明,由于网络是强连接的,且直径仅为2,因此LeaderRank收敛速度更快。
就排名有效性以及对操纵和噪声数据的鲁棒性而言,LeaderRank优于PageRank。
同样的想法,即增加一个地面节点,也被证明可以有效解决推荐系统的准确性-多样性困境。
HITs算法考虑了每个节点在网络中的两个角色,即authorities和hubs。
在万维网中,权威网站总是可靠的,提供特定主题的原始信息,而枢纽hub网站是那些链接到许多相关权威的网站。
枢纽和权威表现出一种相互强化的关系:一个好的枢纽指向许多权威,而一个好的权威则被许多枢纽指向。
在有向网络中,一个节点的authority评分等于指向该节点的所有节点的hub评分的总和,而一个节点的hub评分等于该节点指向的所有节点的authority评分的总和。
在n个节点的网络中,分别用ai(t)和hi(t)表示节点vi在t时刻的authority评分和hub评分。
首先,将所有节点的hub分数分配为1。
数学上,节点vi在t时刻的authority和hub值分别为:
每次迭代后,每个节点的分数应归一化为:
如果所有节点的归一化分数都达到稳态,迭代就会停止。
HITs算法是收敛的。
SALSA是用于链路结构分析的随机方法的简称,是HITs算法的一个著名变体,它建立在有向网络上随机行走的随机特性基础上。
SALSA的第一步是将有向网络映射到二部无向网络(设G=(V,E)是一个无向图,如果顶点V可分割为两个互不相交的子集(A,B),并且图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集(i in A,j in B),则称图G为一个二分图。简单来说,如果图中点可以被分为两组,并且使得所有边都跨越组的边界,则这就是一个二分图。)
出度非零的节点构成hub集(即SH),入度非零的节点构成authority集(即SA)。
如果hub节点vih通过原有向网络指向authority节点via,则两个节点将在二部网络中连接。
图4给出了该映射过程的一个示例。
一个由有向网络构建二部无向网络的例子,其中在二部表示中,孤立的节点被去除。
假设原网络上随机行走的每一步都由对应的二部网络中的两条相邻边组成,且这两条边必然从不同的边出发。
每条长度为2的路径都表示在适当的方向上穿过一个链接(从hub端到auth端),并沿链接后退。
例如,图4中的路径{(v2h, v3a),(v3a, v4h)}表示从v2到v3的有向链接的遍历和沿着从v4到v3的链接的后退。
以上方法都没有考虑到目标函数中所涉及的动力过程的特征。
无标度网络(无标度网络具有严重的异质性,其各节点之间的连接状况(度数)具有严重的不均匀分布性)在随机故障面前是稳定的,但在蓄意攻击下是脆弱的,这意味着有些节点在保持网络连通性方面更重要。
如果一个节点(或一组节点)被移除会大大缩小巨大的组件,那么它就很重要。
通过节点移除和收缩方法找到一组节点与系统科学中确定系统核心的思想相一致。
系统的核心被定义为一组节点,这些节点的重要性可以通过移除后出现的连接组件的数量来简单量化。
然而,不同的连接组件可能有不同数量的节点和不同的功能。
如果删除一个节点(或一组节点)会大大降低网络的稳定性或鲁棒性,或使网络更脆弱,则认为该节点是重要的。
许多基于路径的方法被提出来度量脆弱性。
例如,一个鲁棒网络在节点之间应该有更多的不相交路径(如果没有共同的中间节点,两条路径就是不相交的)。
Dangalchev评估去除节点后的平均紧密度中心性,称为剩余紧密度,以衡量网络的脆弱性。
另外,Chen等采用网络生成树的数量来衡量通信网络的可靠性,认为越可靠的网络往往拥有越多的生成树。
此外,节点的去除也会影响网络上的动力学过程。
因此,节点的重要性也可以通过网络邻接矩阵最大特征值的变化来衡量。
节点上的另一种操作是将节点及其邻居压缩为新节点,命名节点收缩方法。
收缩一个节点后,如果整个网络变得更加聚集,则认为该节点更重要。
例如,星型网络将在收缩中心节点后收缩到单个节点。
下面,根据对节点的不同操作类型和考虑的目标函数的不同,我们将所有这些方法分为四类。
如前所述,我们可以从三个方面来衡量节点移除后对网络连通性的破坏,即巨型组件的大小、连接组件的数量和节点之间的最短距离。
前两个非常直观。对于最短距离,直接计算网络工程平均最短距离的变化是不够准确的。
特别是,网络连通性的丧失来自三种情况:
(i)被删除的节点集与剩余的节点之间的断开连接;
(ii)被移除节点之间的断开;
(iii)节点移除后剩余节点之间的断开。
前两种被认为是网络连接的直接损失,而第三种被认为是间接损失。
一个基本假设是,直接损耗和短距离连接比间接损耗和长距离连接更具破坏性。
两个节点之间连通性的损失可以用距离的倒数来量化。
在删除一个节点(比如vi)之后,假设出现了一些不相交的节点对,用集合E表示(包括直接和间接损失)。
vi的重要性可以定义为:
(djk为节点vj到vk在去除vi之前的距离。
当j = i或k = i时,DSP(i)为直接损失;
j ≠ k ≠ i 时为间接损失。)
这个公式很简单,但如果只删除一个节点,通常是无效的,因为仅删除一个节点不太可能将现实世界中的大型网络分解成碎片。
在这种情况下,间接损失为0,DSP退化为被移除节点到所有其他节点之间距离的倒数和,相当于接近中心性closeness centrality。
虽然移除一个节点不太可能摧毁真实的网络,但它确实会影响网络的稳定性或脆弱性。
在通信网络中可以找到一个强有力的证据,删除一个重要节点可能不会导致传输消息失败,但很可能会延迟传输,甚至导致信息阻塞。
从网络结构的角度出发,有一些衡量网络稳定性或脆弱性的指标。
其中,节点之间的最短距离是应用最多的。
例如,紧密中心性 the closeness centrality可以被认为是通信网络中信息传播长度的度量。
如果一个网络的紧密度(即所有节点的紧密度之和)很高,那么通过这个网络的传输就会非常有效。可以用来衡量节点的重要性。
也就是说,如果一个节点被移除会使网络更脆弱,那么它就会被认为更重要。
接下来,我们提出了一些基于节点移除策略的网络脆弱性度量的相关方法。
剩余紧密中心性 the residual closeness是紧密中心性的变体。
引入指数函数来重新定义节点vi的接近度,为:
对于具有n个节点的星形图,RCC=(n−1)/2+(n− 1) (1/ 2+(n−2)/4)=(n−1)(n+2)/4
而对于具有n个节点的链,RCC=2n− 4+(1/2^(n−2))删除节点后,网络的脆弱性将发生变化,这可以由RCC(i)捕获,即删除vi后剩余网络G{vi}的RCC。
然后,可以通过the residual closeness 剩余封闭度R=mini { RCC(i)}获得网络的脆弱度。
根据这一思路,即采用去节点后网络脆弱性的变化来衡量节点的重要性,也有研究从其他方面对脆弱性进行了量化。
例如,Rao等人认为,在没有有效的最短路径之前,信息不会沿着较长的路径传播。
因此,他们认为脆弱性可以通过节点之间最短路径的数量来衡量。
1)用平均等效最短路径(yij = xij/µ)来衡量差异。
(Xij为现实网络中vi和vj之间最短路径的个数,最短路径的长度为dij,而µ为对应的全连通网络中2)两个节点之间长度不大于dij的最短路径的个数。)
3)然后用整个网络的yij的平均值来计算网络的脆弱性
除了最短路径,Bao认为不相交路径的数量也可以衡量网络的脆弱性。
如果两条路径没有共享任何节点,则两条路径是不相交的。
因此,与基于最短路径的方法不同,该方法认为节点间通道的多样性对度量节点间可达性的脆弱性更为重要。
与基于等效路径的方法类似,该方法也以全连接网络为基准。
定义节点vi和vj之间的脆弱性为V (vi, vj) = Pij/Pij^full,且 i ≠ j
(其中Pij为vi和vj之间的不相交路径数,Pij^full为对应的全连接网络中不相交路径数。)
然后通过V (G) = Σ Pij/ Σ Pij ^ full计算网络的脆弱性。
此外,Chen等人认为,如果一个节点被移除,它导致"生成树数量较少的子图",就更重要。
一个连通良好的图通常有多个生成树,而一个不连通的图没有。即网络的稳定性与生成树的个数有关。
无向图G的生成树是一个子图它包含了G的所有节点。生成树的数目可以用拉普拉斯矩阵L = D−A来计算。
生成树的数量t0可以用t来计算:
(其中Mpq是对应于L中的任意项lpq的子项。)
因此,去掉vi后,可以得到剩余网络的生成树数,记为tG{vi}。
然后通过下式计算节点的重要性。
与连接性敏感的方法相比,本小节中描述的方法对仅删除一个节点更敏感。
但当网络非常脆弱时,即使随机删除一个节点也会使网络破碎,稳定性敏感方法的优势将不再明显。
特别是基于生成树的方法,如果节点删除导致组件断开,则会失败。
网络上的许多动态过程是由网络邻接矩阵A的最大特征值(λ记录的)决定的。
因此,λ在去除一个节点(或一组节点)后的相对变化可以反映该节点(或一组节点)对动力学过程的影响。
具体来说,节点移除引起的变化越大,被移除的节点就越重要。
Restrepo等人利用这一原理来测量节点(和边)的动态重要性。
u和v分别表示A的左右特征向量,则Au = λu和v^T(转置)且v ^T A = λv ^T
节点vk的动态重要性,与差量−∆λk(λ在去除vk后减少)成正比,记为:
使用近似计算:
该方法既可以应用于有向网络,也可以应用于加权网络
也用来衡量一个边的动态重要性,但有一个不同的公式:
该方法的关键是量化网络的聚集程度,聚集程度由节点数n和平均最短距离d决定。
如果一个网络同时具有较小的n和d,则该网络具有较高的集聚度。
这从社会学的角度很容易理解:如果一个社会网络的人更少(小n),成员之间可以方便地交流(小d),那么这个社会网络就更聚集。
则定义网络G的聚集度为:
(dij是vi和vj之间的距离。
当n = 1时,∂[G]设为1。
那么0 <∂[G]≤1。)
节点的重要性可以由∂[G]在收缩节点后的变化来反映,定义为:
(∂[G} vi]是收缩节点vi后网络的凝聚度,G表示G的所有节点之间的平均距离,ki是节点vi的度数。)
1)显然,IMC(i)是由vi的邻居数量和vi在G中的位置共同决定的。如果ki较大,vi的收缩会大大减少G中的节点数量,说明度越大的节点往往越重要。
2)同时,如果vi经过多条最短路径,则vi的收缩会大大缩短G的平均距离,导致节点vi的IMC增大。
3)因此可以看出,这个度量同时体现了度中心性和中介中心性的思想。
然而,节点收缩法不能应用于大规模网络,因为计算每个节点的平均距离 Gvi (i = 1,2,···,n)非常耗时。
Wang等人利用节点收缩方法引入链接的影响来重新定义节点的重要性。
首先,构造初始网络G的线形图G*,表示G中链路之间的邻接关系。
则重写式(54),得到节点在G *中的重要性:
(其中IMCG(i)是vi在G中的重要度,IMCG∗(j)是vj在G * 中的重要度。
S表示G * 中vi的对应节点集合,即初始网络G中包含vi的链接。)
此外,通过重新定义聚集度,将节点收缩方法应用于加权网络Gw:
(其中s = Σi si, si = Σ j wij是节点vi的强度。注意G仍然是未加权网络中节点之间的平均距离,对应于Gw)
识别关键节点的一个主要目的是找出在某些特定的动力学过程中起关键作用的节点。
因此,一个节点或一组节点对某些给定动力过程的影响通常被视为关键节点的标准。
例如,对于任意一个节点,将该节点设置为受感染的种子,然后基于(SIR)模型,将曾经受感染的节点总数作为量化该节点重要性的度量标准。
对于给定的动力学,在不同的动力学参数下,结构中心性的表现也相差甚远。所以不能构建统一模型。
例如,在SIR过程中,当传播率β非常小时,度中心性可以更好地识别有影响的扩散者,而当β接近epidemic流行阈值βc时,特征向量中心性表现更好。
研究表明,对于具有两个参数(即扩散率和恢复率)的给定SIR过程,节点影响的等级在很大程度上取决于参数。
根据上述论证,如果我们想要揭示节点在某些网络动力学中的作用,并且我们可以提前估计相关参数,那么我们应该通过考虑目标动力学的特征和参数,设计比结构中心更好的识别关键节点的方法。
因此,我们把这类方法称为动态敏感方法。
注意,在一些方法中,如LeaderRank,我们在网络上应用动态,如随机游走,但我们不调用LeaderRank作为动态敏感的方法,因为随机游走是用来对节点排序的,而它本身不是目标动态 (target dynamics)。
事实上,在关于LeaderRank的原始论文中,SIR模型的一种变体被认为是目标动态(the target dynamics)
在本节中,我们将把已知的动态敏感方法分为三类,并介绍最新的进展,并讨论一些悬而未决的问题。
原则上,任何连接节点i和j的路径都可以作为通道,将i的影响传递到j的状态,反之亦然。
因此,通过计算从这个节点到所有其他节点的路径数量来估计一个节点的影响是非常简单的,其中每个路径都被分配了与其长度相关的权重。
这一思想也体现在一些众所周知的结构中,如Katz指数和可达性(accessibility)。
本小节将介绍:路径计数思想与目标动力学的具体特征和参数相结合的方法。
一般来说,影响随路径长度的增加而衰减,衰减函数与目标动力学有关。通常采用动态特征来设计路径权值对路径长度的衰减函数。
考虑由n个节点组成的网络,其状态由一个时变实向量x = (x1,···,xn)描述。
对于任何离散耦合线性动力学( discrete coupled linear dynamics):
(M:n × n实矩阵,M的最大特征值µmax等于零
那么x(0)在M的左特征向量(对于矩阵A,若AX = rX存在特征向量R,则称R为右特征向量;YA=rY存在特征向量L,则称L为左特征向量。)上的投影(即:µmax)就是关于初始条件x(0)的所有信息。
记c为μ max的左特征向量,那么第i项ci量化了节点vi的初始条件对最终状态的影响程度。
ci被称为动态影响(dynamical influence:DI),用来度量vi在目标动态M中的影响。特征向量c可以通过幂迭代法来估计,该方法将M的越来越高的次幂应用到均匀向量w(0) =(1,1,···,1)
其中l是一个自然数。
如果M的最大特征值非退化(若n阶矩阵A的行列式|A|≠0,则称A为一个非退化矩阵,)且在量级上大于其他特征值,则在极限范围内可得到c:
将M想像为网络的邻接矩阵,则根据式(58),wi (l)为起源于vi的长度为l的所有可能行走次数。
这个计算过程体现了DI定义背后的路径计数思想。
获得动力学影响的方法非常通用,可以应用于许多具有代表性的动力学,如SIR模型、voter模型、Ising模型、Kuramoto模型等。
以离散SIR模型为例,如果在每一个时间步中,受感染节点以β概率感染其每个易感邻居,然后在下一个时间步中放松到恢复状态,则动力学可表示为:
(其中xi(t)是节点vi在时间步骤t被感染的概率,A是邻接矩阵。)
(I是单位矩阵。αmax为A的最大特征值,只有当β = 1/αmax(这正是SIR模型的epidemic阈值),µmax = 0时,对于最大特征值αmax,动态影响c与A的右特征向量相同,即在这种情况下,动态影响等于特征向量中心性。
在易感-感染-易感(SIS)模型中,在每个时间步,一个感染节点将以概率 β感染其每个易感邻居,然后在下一个时间步中以概率(δ)返回到易感状态。
x (t)为系统状态,其第i项xi(t)为第i个节点在时间步t处处于感染状态的概率,则根据式。
由于x (t) = M^tx(0),累计感染概率向量可表示为:
(63)表示节点在长时间内的影响。设效感染率α = β/δ,式(63)可改写为:
(其中e =(1,1,···,1)^T)
式(64)是一种典型的路径计数方法。
注意,这里我们假设每个节点都有相同的初始感染概率,节点的影响由其在整个传播过程中的感染频次来量化。
表示节点i通过具有长度t的路径去感染j的概率和。
Eq.(64)与α中心度 alpha centrality的形式完全相同:
不同的是,在中心性中,参数α为自由参数,而在式(64)中,其具有明确的动力学意义α = β/δ。
SIS模型和易感感染(SI)模型中:当传播率β非常小时,度中心性可以更好地识别有影响的传播者,而当β接近流行阈值βc时,特征向量中心性表现更好。
Bauer和Lizier提出了一种可以直接计算SIS和SIR模型中各种长度的可能感染行走数。
它们将节点vi的影响定义为:
(其中j遍历所有节点,包括节点vi。q(i, j, k)是节点vj通过长度为k的路径被感染的概率,前提是感染始于节点vi,假设所有感染路径彼此独立。)
在扩散率β,返回率δ = 1的SIS模型中,采用独立路径假设,
(其中skij是长度为k的从i到j的不同路径的数量,等于(Ak)ij )
因此:
注意,在SIS模型中,一条路径可以多次经过一个节点,因此与传统的路径定义略有不同,但与walk的定义相同。
事实上,Bauer和Lizier将他们的方法称为行走计数方法。
而如果我们考虑SIR模型,对应的定义与传统意义上的路径,或者说所谓的自避式行走完全相同。
因此,当应用Bauer和Lizier的方法时SIR模型更加复杂。
Bauer和Lizier的方法直接体现了路径计数的思想,在仿真中表现得非常好,但缺点是路径无关假设太强,计算复杂度很高。
总之,他们的方法给我们留下了两个挑战:如何消除不同路径之间的相干性,以及如何有效和高效地估计路径的数量。
流量动态(Traffic dynamics) 是信息网络和运输网络中的另一种典型动态。
除了可能的异构包生成速率和链路带宽外,网络流量的动态特征主要由路由表决定,路由表列出了源节点vs生成的包可以传递到目标节点vt的路径。
在给定特定的路由表的情况下,Dolev等人提出了一种所谓的路由中介中心性(routing betweenness centrality:RBC) 来衡量一个节点在流量动态中的重要性。
任意节点vi的RBC定义为通过vi的数据包的期望数量 :
(V是网络中节点的集合,δs,t(i)是源节点vs生成的、从目标节点vt离开网络的,通过节点V的数据包的概率,t(s,t)是源节点vs发送到目标节点vt的数据包数量。)
在给定的路由表(或路由规则)下,δs,t(i)可以写成:
(R为路由表,R(s, u, i, t)记录vu将源地址vs和目标地址vt的信息包转发给vi的概率,Preds,t(i) = {u|R(s, u, i, t) > 0}是给定源地址vs和目标地址vt的vi的所有直接前身 (predecessors)节点的集合。)
路由中介中心性( routing betweenness centrality)是在特定的动态规则(即路由表R)下识别网络流量中重要节点的一种通用方法,它计算通过目标节点的路径数量,不同于传播动力学中计算源自目标节点的路径数量的路径计数方法。
有时我们想知道一个节点在有限时间内对系统的影响,这就导致了所谓的时间感知方法。
假设所有的都是2n状态向量以相同的概率出现,vi对v的j直接影响可以定义为:
(M称为活动矩阵,它不同于邻接矩阵A,因为它包含了f的动态特征。表示pj (t)节点vj的状态在t时刻因节点vi的初始扰动而改变的概率)。
注意,来自不同传播路径的扰动的影响不能直接在布尔动力学中总结,因为两次翻转等于没有翻转。
Klemm做了一个强有力的假设,即忽略了节点影响力传播的相关性。因此,最大特征值M的特征向量可以用来量化节点在长时间内的影响。
Ghanbarnejad和Klemm测试了节点重要性指数与h(t)在不同t下的相关性,发现基于M的特征向量中心性优于基于A的特征向量中心性, 支持了动态敏感中心性的优势。
此方法并不是一个真正的时间感知方法,因为M的特征向量不包含时间信息,但是,他们的模拟结果清楚地证明了时间因素的重要性。
此外,对于较小的t,度中心性优于特征向量中心性,而对于非常大的t,特征向量中心性要好得多。
用xi表示节点vi的渗透状态。xi = 1表示完全渗透状态,xi = 0表示非渗透状态,而部分渗透状态对应于0 < xi < 1。
他们没有考虑真实的渗透过程和渗透状态之间的关系,也没有讨论如何确定一个节点的渗透状态,但展示了一个例子:在一个元人口流行病模型中,对于一个乡镇网络,城镇的渗透状态将是该城镇感染人口的百分比。
因此,将节点vi的渗透中心性定义为:
(σs,t(i):从vs到vt经过vi的最短路径数量,σs,t i:连接vs和vt的不同最短路径的总数)
如果所有的节点在相同的渗透水平0 <µ≤1,且满足其他条件。渗透中心性退化为中介中心性。因此,渗透中心性实际上是一个加权的中介中心性,每个节点vi被分配一个权重xi,称为渗透状态。
原则上,这个框架允许我们将动态特征体现到权重x中。
在许多现实世界的应用程序中,我们被进一步要求找出在传播信息、维护网络连接等方面发挥关键作用的一小组重要节点。
例如,在预算有限的网络营销中,最好的策略是向一组可能购买产品的客户展示广告并提供折扣,这些客户能够触发许多其他人(包括他们的朋友、朋友的朋友等等)购买。在时间和资源有限的疫情传播中,我们需要对一部分人进行免疫接种,以最好地保护整个人群。在军事网络对抗中,需要摧毁敌人的几个关键节点,最大限度地降低敌人的通信能力。
两种简单但应用广泛的扩散模型:线性阈值模型和独立级联模型。
对于线性阈值模型和独立级联模型,影响最大化问题都是NP-hard问题。
由于典型的信息最大化问题是NP-hard,大多数已知的工作试图寻找近似解而不是精确解。
最直接的方法是根据一定的中心性度量(如度和betweeness介间性)直接选取top-k节点。
然而,如上所述,这种方法可能是低效的,因为度最大或介间性最大的节点可能是高度聚类的。
通过自适应重新计算,可以取得轻微的改进,即先选择中心性最大的节点,然后在每一步节点去除后重新计算节点的中心性。
用这种方法选出的有影响力的散布者更有可能分散分布在网络中。
设计贪心算法的一个自然想法是,确保每向目标集(即最初感染或激活的种子集)添加一个节点,都会使增量影响最大化。f(S)表示一组节点S的影响,可以通过,例如,SIR模型中曾经受感染的节点的数量来量化。
Kempe, Kleinberg和Tardos最早提出了函数IMP的贪婪算法,他们的算法从一个空目标集S =∅开始,在每个时间步中扫描所有节点,找到f(S∪{v})最大化的一个v∈v \S,然后更新为S←S∪{v}。
经过k个时间步,得到包含k个影响节点的目标集S。
为了了解近似保证,我们首先引入子模的概念。
将有限集映射为非负实数的函数f是子模函数
如果向集合S中添加一个元素的边际增益不小于该边际增益
将相同的元素加到s的超集,形式上,子模函数满足:
对所有元素v和所有集合S⊆t。如果f是单调的,即f(S∪{v})≥f(S)。对于所有元素v和集合S,则证明了上述贪婪算法(即最简单的爬坡算法)近似于最优S∗
在因子1−1/e≈0.63内,即:
Kempe等证明了在独立级联模型和线性阈值模型的情况下,在期望激活节点数f(·)上的目标函数都是子模的,因此贪婪爬坡算法提供了(1−1/e)-逼近。
如参考文献所示,贪婪爬坡算法比简单地选择最高度degree或最小接近度closeness的top-k节点的性能要好得多。
在独立级联模型中,与连接(i→j)相关的激活概率pij与动力学过程的历史无关。
然而,社交网络中的信息传播表现出记忆效应。
因此,Kempe进一步将独立级联模型扩展为所谓的递减级联模型,其中pij依赖于历史。
S是vj的邻居节点且已经尝试激活vj的节点集合,则vi成功激活vj的概率为pij (S)。
递减级联模型包含两个自然约束
1) 顺序无关:如果集合T中的所有节点都尝试激活节点vj,那么它们尝试的顺序不影响vj最终被激活的概率;
2)非递增:函数pij (S)满足不等式pij (S)≥pij (T)时,S⊆T. Kempe等人证明了降低级联模型的目标函数f(·)也是子模的,因此贪婪爬坡算法提供了(1−1/e)-逼近。
原始贪婪算法的一个明显而严重的缺点是它非常耗费时间。
对于n节点m链路网络上的k-IMP,如果为了从一组种子S中准确估计激活节点的期望数量f(S),需要对给定的动态过程进行R次直接模拟,则时间复杂度为O(kRNM)。
实际上,对于成千上万个节点,k≤100的小型网络,完成该算法需要几天的时间。
因此,原有的贪心算法不能直接应用于现代信息社会的大规模网络。
因此,Leskovec等利用在寻找边际增益最大节点的每一个时间步中,大量节点不需要重新评估,因为它们在上一轮的边际增益已经小于当前时间步中评估的其他一些节点,提出了所谓的成本效益惰性向前(CELF)算法。
正如中所报道的,对于某些特定的网络实例,CELF算法比原始的贪婪算法快700倍。
利用这种等价性来加速原有的贪婪算法。
考虑到独立级联模型,对于每一次R运行,Chen等人[207]以1−pij的概率从G中删除每个链接(vi→vj),生成网络G0(即得到渗透网络)。
设RG0 (S)是G0中S可达节点的集合,则对G0进行线性扫描(通过深度优先搜索或广度优先搜索,时间复杂度O(M)),可以得到所有节点vi∈V的RG0 (S)和RG0 ({vi})。
那么对于每个节点vi∈V \S,如果vi /∈RG0 (S),将vi加入S的边际增益要么是|RG0 ({vi})|,要么是vi∈RG0 (S)为0。该算法的时间复杂度为O(kRM),原则上比原始贪婪算法快N倍。也比CELF算法快。
消息传递理论首次被开发用于处理高维无序系统,该理论量化了可以用离散变量上的静态约束满足模型表示的动态中解决的概率。
本节将介绍两个示例。
FVS(反馈顶点集问题): 从图G中删除该集合中的所有点后,图中 不含圈,即图G中的每个圈至少有一个点在FVS中。
一种高效的消息传递算法,其核心思想是将全局周期约束转化为一组局部约束。
让我们考虑一个无向简单网络G,在每个顶点vi上定义一个状态变量Ai,它可以取值Ai = 0, Ai = i,或Ai = j∈Ti,其中Ti是vi的邻居集合。
如果Ai = 0,我们说顶点vi未被占用,如果Ai = i,我们说顶点vi已被占用,并且它是一个没有任何父顶点的根顶点,如果Ai = j∈Ti,我们说顶点vi已被占用,vj是它的父顶点。
将任意边(i, j)的边因子Cij (Ai, Aj)定义为:
其中δi j是Kronecker符号,当i = j时δi^ j = 1,否则为0。
边缘因子Cij (Ai, Aj)的值要么为0,要么为1,只有在以下五种情况下,Cij (Ai, Aj) = 1:
(1)顶点vi和顶点vj都未被占用;
(2)顶点vi未被占用,而顶点vj已被占用,且vi不是vj的父结点;
(3)顶点vj未被占用,顶点vi被占用,并且vj不是vi的父结点;
(4)顶点vi和顶点vj都被占用,vj是vi的父结点,而vi不是vj的父结点;
(5)顶点vi和顶点vj都被占用,vi是vj的父结点,而vj不是vi的父结点。
对于微观构型A = {A1, A2,···,AN},我们将每条边(i, j)视为一个局部约束,当Cij (Ai, Aj) = 1时,满足某条边(i, j),否则不满足。
如果一个微观构型A满足网络G的所有边,那么它就作为这个网络的解决方案。
可以很容易地证明:网络G的任何解A的被占用顶点可以导出一个具有一个或多个连通组件的子图,其中每个组件要么是树,要么是c树。
G的解与反馈顶点集合密切相关,因为我们可以随机地从每个c树的循环中移除一个顶点将子图诱导成森林,使剩余的节点形成反馈顶点集。
因此,具有更多被占用节点的解决方案通常对应较小的FVS(这并不完全正确,因为解可能包含大量的c树,但是我们不认为这种不正常的情况)。
直到现在,正如开头所提到的在本节中,我们将原始的FVS问题转化为静态约束满足问题离散变量模型。
qi^Ai表示顶点vi获得状态Ai的边际概率,该状态很大程度上受vi的邻居状态的影响,同时vi的状态也会影响其邻居的状态。
在计算qi^Ai时,为了避免过度计数,我们可以先从网络中去除顶点vi,然后在剩余的网络中考虑集合Ti的所有可能的状态组合,称为空腔网络。
注意,在空腔网络中,Ti中的顶点可能仍然是相关的(只有当G是树时,它们才没有被校正),而我们忽略了所有可能的相关性,并假设概率的独立性,这在统计物理学界通常被称为贝特-佩尔斯近似或相关衰减假设,如果网络局部像树一样,则效果很好(当网络非常稀疏时,这种情况几乎是如此。
而真正的网络通常是非常稀疏的)。
根据贝斯-佩尔斯近似,联合概率近似因式分解为:
其中q (j→i) ^Aj 表示空腔网络中状态Aj的边际概率,其中不考虑顶点vi的影响。
如果所有顶点vj∈Ti在空腔网络中要么是空的(Aj = 0),要么是根(Aj = j),那么vi加入网络时可以是根(Ai = i)。
这是因为在添加了vi之后,相邻顶点vj可以将其状态变为Aj = i。
同样,如果一个顶点l∈Ti在空腔网络中被占用,而Ti中的其他顶点在空腔网络中都是空的或者是根的,那么vi在加入到网络中时可以取状态Ai = l。
这些考虑,加上贝斯-佩尔斯近似(Eq.(91)),得到qi ^Ai的以下表达式:
Altarelli等人考虑了渐进扩散动力学的IMP,即线性阈值模型,它比FVS问题更复杂。
线性阈值模型 : 从若干初始活动节点开始,然后在每个时间步中,只有当wji≥θi时,节点vi才会成为活动节点。
记xi^t为时间步t时节点vi的状态,线性阈值模型以少量活动种子xi ^ 0 = 1开始,更新规则读取:
用ti表示节点vi的激活时间(初始种子为ti = 0,最终状态不活跃的节点为ti =∞),则动态过程的演化可完全用构形t = {ti}, vi∈V表示。
对于每个节点vi,可以把配分函数写成:
(其中E(t) = Σi Ei(ti), Ei(ti)是在时刻 ti 时激活节点 vi 所产生的成本(目标函数)(如果为正)或收益(如果为负)。
与FVS问题不同的是,如果只考虑单个变量 ti 的约束条件,因子网络将由多个短循环组成,相关衰减假设就不成立。
网络渗流可分为bond Percolation 渗流和 site Percolation 渗流。
易感-感染-恢复(SIR)模型中,节点vi的影响可以通过以vi为初始种子的最终感染节点的数量来衡量。
考虑到这种自然关系,提出了一种基于键渗透的方法,以确定给定数量的有影响力的扩散者的最佳组合。
该方法可并行计算,复杂度为O(t|V |)。
与传统方法 “度、介度、紧密度、k壳等” 非协调spreaders传播节点相比,渗透法识别的spreaders在网络内分布均匀,大大提高了传播覆盖率,减少了冗余。
考虑一个无向网络,对于任意节点vi,其强度定义为与vi相关的链接的权重之和,即:
节点强度集成了关于其连通性和相关链接重要性的信息。当权重独立于拓扑时,我们有s ≈ k,其中是平均权重。而在实际加权净值中,强度与度呈非线性相关关系,如s 相关于k^θ和θ ≠ 1。对于有向网络,我们还可以定义in-strength和out -strength,它为:
其中wi→j是节点vi到节点vj的有向链路的权值。通过归一化节点强度,得到加权度中心性为:
经典的k壳分解可以通过在修剪(即节点去除)过程中重新放置具有加权度的节点度来扩展到加权网络。
除了节点强度,Garas等人通过考虑度和强度的总和来定义节点的加权程度,可写成:
(k ^ i是v ^ i的度, α和β为可调参数。
当α = 1, β = 0时,ki ^W = ki对应经典的k壳层分解。
当α = 0, β = 1时,ki ^W = si表示s壳/s核分解[280]。
当α = β = 1时,ki ^W =√kisi,表示权值和度相等)
加权网络中的k核分解过程与非加权网络中的k核分解过程非常相似。唯一的区别是加权度通常是非整数。
h指数在加权网络上的扩展比在有向网络上的扩展要复杂得多。
节点vi的加权H指数是通过H函数作用于vi的邻居的加权度(这里以节点强度为例)与相应的链路权值相关联的级数.
将紧密中心性扩展到加权网络的关键点是对最短路径的重新定义。 加权网络中链路的距离与其权重有关。
例如,通过高带宽的以太网连接下载文件比通过低带宽的以太网连接下载文件要快。
从效率的角度来看,高带宽连接可以缩短站点之间的距离。
由于大多数加权网络中的链接权重是链接强度的操作化,而不是它们的成本,Newman都提出采用权重的倒数来扩展紧密中心性和中介中心性。
两个节点vi和vj之间的距离定义为:
其中vh0、vh1、···、vhk是属于从vi到vj的路径的中间节点,通过Dijkstra算法可以得到使”1 / 权重“之和最小的最短路径。
则加权的密切度中心性可表示为:
显然,这个定义忽略了中间节点数量的影响,即vh0, vh1,···,vhk。
Opsahl认为这个数字是一个重要的特征,并重新定义了最短路径的长度,写为:
(α是一个正的可调参数。
当α = 0时,其结果与无权网络中的距离相同;
当α = 1时,结果与式(114)相同。
当0 < α < 1时,较短的路径(中间节点较少)优先被分配为较短的距离。
相反,当α > 1时,附加的中间节点的影响小于联系的权重,因此较长的路径更受青睐。)
作为一种基于路径的中心性,将中介中心性扩展到加权网络还需要新的最短路径定义。
除了加权紧密度中心度 weighted closeness centrality外,加权中介性中心性Weighted betweenness centrality可通过式(114)定义为:
(其中gst^w是vs到vt的最短路径的个数,gst ^W (i)是vs到vt经过节点vi的最短路径的个数。)
考虑中介节点的影响,定义最短路径为式(116),对应的加权中介中心性:
(其中α是一个正的可调参数。)
PageRank向加权网络的扩展简单明了。在每一步中,一个节点的PR值将根据链路权重分配给它的出路outgoing节点。也就是说,将随机游走过程替换为加权随机游走。
数学上,我们有:(s除以j等于vj的强度。)
类似的扩展也可以应用于加权的LeaderRank算法。
首先,在加权网络中增加一个接地节点,同时增加接地节点与n个网络节点之间的双向链路;
用W LR(t)^i表示节点vi在时间t时的加权LeaderRank分数。最初,每个网络节点分配一个单位分数,地面节点分配零分数。
如果一个节点有更多的邻居或更高的强度,它就被认为更重要。
节点的重要性被认为与节点的度和强度高度相关。
这两个因素的影响可以简单地用高、低两个评价指标来表示,形成θ =(高、低)的识别框架。
很容易得到:
具体情况如下:
(其中0 <µ,ε < 1表示节点顺序的一种不确定性。他们的值对节点顺序没有影响。)
通过引入登普斯特组合规则,vi的影响值可表示为:
一般来说,mi(θ)的值平均分布于mi(θ)和mi(θ)。
因此:
(Mi(h)和Mi(l)分别是vi重要和不重要的概率。)
为了解决这些问题,将半局部中心性的扩展与考虑度分布影响的修正证据中心性相结合,提出了一种改进的度量方法——证据半局部中心性。
此外,还引入节点邻居之间的拓扑连接,即局部结构信息,以增强证据中心性的有效性。
与单部网络不同,二部网络是由两组节点组成的。只允许不同组中的节点进行连接。
给定一个网络G(V, E),其中V和E分别是节点和边的集合。
许多常见的网络是二部网络,尽管它们可能不能用二部图来表示,其中两组节点被清楚地区分开来,如树和四方格。
例如,异性关系可以用双侧网络来描述,男性是一个群体,女性是另一个群体。
二部网络有许多特殊的特点:
基于这些特征,我们可以通过广度优先搜索或其他方法来判断无向简单网络是否是具有线性时间复杂度的二部网络。
在许多在线社区中,用户可以自由地对相关项目(如电影、音乐、书籍、新闻或科学论文)发表评论。
因此,建立一个信誉系统是非常必要的,对用户的信誉和商品的质量进行可信的评价,以减少当事人之间的信息不对称所造成的损害。
这是二部网络中关键节点(即高信誉用户和高质量物品)识别的具体问题。
通常,假定一个在线社区由n个用户和m个项目组成,可以很自然地用二分网络G(U, I, W)表示。
其中U和I是用户集(用拉丁字母标记,I = 1,2,···,n)和项集(用希腊字母,α = 1, 2,···,m)。如果用户i进行了交互,则用户i和项目α之间存在加权链接。
W表示相互作用的集合用户和项目。连接wiα的权重由相互作用的类型决定,对应的(用户-项目)对反映了交互的强度。W可以是有向的也可以是无向的。
因此,计算一个项目的质量可以被定义为:
(Ri为用户i的归一化声誉评分,可为外生参数,或者由他之前对物品的评分决定)
GR方法有五个步骤:
(1)列出系统中存在的分数,即{ω1, ω2,···,ωns},其中ns为不同分数的个数;
(2)构造得分项矩阵Λ,其中Λsα为对项目α打分ωs的用户数量;
(3)构建评分-奖励矩阵Λ∗, Λ∗Sα = Λsα/kα;
(4)将原始评价矩阵映射为奖励矩阵A,其中A’ia = Λ*sα,约束条件为riα = ωs。
注意,如果用户i没有对α项打分,A’ia的值为空,在接下来的计算中将忽略它;
(v)通过A’i的均值与其标准差之比计算用户i的信誉Ri,即:
可以通过迭代的方式计算用户信誉和项目质量。
根据这一思想提出了许多方法。
Laureti等人提出了一种迭代细化(IR)方法,该方法认为用户的信誉评分 & 用户评分记录与物品质量之间的均方误差成反比,即:
( 其中Ii为用户i选择的项目集合。)
将这个方程与Eq.(124)结合起来,我们可以开始一个迭代过程,IRi(0) = 1/| i |来计算Q和IR。注意,在每次迭代中IRi都应该是标准化的。
Zhou等人提出了一种基于相关性的迭代方法(简称CR),该方法假设用户的口碑可以通过用户的满意度与相应商品质量之间的关系来反映。
具体来说,采用皮尔森相关系数:
(如果corri≥0,则用户信誉CRi = corri,否则CRi = 0。)
在这里,我们也可以利用式(124),通过将Ri替换为CRi,并取初值CRi(0) = ki/|I|,建立一个迭代过程来计算Q和CR。
最近,Liao等人提出了基于声誉再分配(IARR)的迭代算法,通过增强名誉用户的影响力来提高有效性。在迭代过程中,用户名誉的更新公式为:
( 其中θ为可调参数,以控制声誉的影响。)
显然,当θ = 0时,IARR与AR法相同。
当θ = 1时,IARR退化为CR方法。
为了进一步提高该方法的可靠性,作者提出了一种先进的方法IARR2,在式(124)中引入惩罚因子,即:
将式(129)中的CRi修改为:
IARR2强调低口碑用户评价的商品通常质量较低,只评价了少量商品的用户不可能有高口碑。
BiHITS 及其变体
我们已经介绍了单部网络(节点属性为同一类) 的HITs算法,这里我们介绍了双部网络的HITs算法,称为“biHITS”。
考虑一个有向二部网络,biHITS可以写成:
(其中W为二部网络的链接权矩阵(即加权邻接矩阵),R和F分别为用户声誉向量和项目适合度向量。)
对于无向网络,Wu→I = W(u→I)^T转置。可以通过下面的一组方程迭代求解:
在这里我们简要介绍了迭代框架,其基本思想是通过一个迭代过程将分数传播到二部网络上,并从两方面进行约束。
为了将二部网络与内容信息结合起来,广义Co-HITS方程可以写成:
(其中,λU∈[0,1]和λI∈[0,1]为个性化参数。)
biHITS的一个变体被称为QTR (Quality-Trust-Reputation),它考虑了从用户社会关系中提取的用户信任信息。
在步骤t + 1,更新用户信誉和物品适合度如下:
为了避免发散,在每一步中,Ri和Fα都应归一化,使R和F的二范数的值始终为1。
当算法收敛到稳态时,迭代过程停止。
实验结果表明,社会关系对提高排名质量具有重要作用。
在许多评价系统中,除了考虑用户和物品的信息外,还考虑物品提供者的信用。
这种说法也适用于描述作者和论文之间的关系。
在此框架下,存在两种二部网络,即用户-物品网络和提供者-物品网络。
如果我们把这两个二部网络结合起来,我们就得到了一个用户-物品-提供者三方网络。
在项目-提供者网络中,项目和提供者的度分别为dα和dm。
A表示provider的credit value的向量,eigenrumors算法:
我们比较了八种代表性算法在四种无向无加权网络上的性能:
(1) Amazon是亚马逊网站上产品之间的联购网络。如果产品vi经常与产品vj共同购买,则在vi和vj之间存在无向边。
(2) Cond-mat是一个科学家合作网络,从1995年1月1日到2003年6月30日在www.arxiv.org上的预印本。在这个网络中,一个节点代表一个作者,如果两个节点共同授权了至少一篇论文,则连接两个节点。很明显,每一个预印本都会形成一个小团体,其中作者是完全联系在一起的。
(3) 电子邮件-安然Enron是一个包含约50万封电子邮件的通信网络。每个节点都是一个唯一的电子邮件地址。如果邮件从地址vi发送到地址vj,则在vi和vj之间存在一条无向边。
(4) Facebook是从facebook.com提取的友谊网络,其中节点表示用户,边(vi, vj)表示用户vi和vj是朋友。
在易感感染-恢复(SIR)扩散模型中:
表3给出了算法得到的排名分数与SIR扩散模型得到的真实扩散影响之间的Kendalls tau相关系数τ。
对于每个网络,感染概率设为β = 1.5βc,其中βc为approximate epidemic threshold(近似流行阈值):
从结果中:
除了传播影响,我们还研究了节点对网络连通性的重要性。
每种方法根据节点的 importance score 给出一个节点的 rank list。
然后,我们逐一去除排名最高的节点,计算每次去除后的(giant component)巨型分量σ的大小。
显然,σ随着移除节点数量的增加而减小,当节点的关键部分(pc)被移除时σ消失,见图11(a)中的示意图和图11©中Facebook上四个中心的结果。
为了找到pc的确切值,我们研究了节点移除后网络的磁化率值S:
(其中,ns是大小为s的组件的数量,n是整个网络的大小。)
通常,在网络崩溃(即网络分解为许多较小的不连接的片段)的关键部分pc处存在一个峰值S,如果节点移除过程中网络多次崩溃,则存在多个峰值。
pc值由最大值决定。pc越小,排序算法越好。
从结果中:
使用四个有向网络来测试第2章和第3章中介绍的六种方法的性能:
(1) Delicious 是一个从网站delicious.com中提取出来的有向社交网络,用户的主要功能是收集 useful bookmarks with tags。
(2) email - euall 由欧洲一家大型研究机构2003年10月至2005年5月的电子邮件数据生成。
给定一组电子邮件消息,每个节点对应一个电子邮件地址,如果vi至少收到一封来自vj的电子邮件,则存在从节点vi到vj的有向链接。
(3) Epinions 是一般消费者评论网站Epinions.com的“谁信任谁”在线社交网络。
网站成员可以决定是否“信任”彼此。所有信任关系相互作用,形成信任网络,然后与评论评级相结合,以确定哪些评论可以显示给用户。
如果vi信任vj,则存在从节点vi到vj的有向链接。
(4) wikipediagervote网络 包含从维基百科成立到2008年1月的所有维基百科投票数据。
网络中的节点表示维基百科用户,从节点vi到节点vj的有向链接表示用户vi投票给用户vj。
我们还考虑了SIR扩散模型,以评估算法识别具有高扩散影响的重要节点的性能。
在有向网络中,信息(或流行病)沿有向链路传播。
算法给出的排序分数与SIR模型得到的真实扩散影响之间的kendall tau相关系数τ如表7所示。
为了评估节点对网络连通性的重要性,我们研究了节点移除后有向网络中的(weakly
connected component)弱连接组件。
不同方法在四种网络上的鲁棒性R和临界部分pc分别如表8和表9所示。
可以看出,网络在受到程度中心性攻击时更加脆弱。
注意,在某些网络中,R和pc表示的结果略有不同。
例如,在Delicious中,in-degree的R值最低,而in-degree的pc值大于PageRank和LeaderRank。
总的来说,in度是有向网络中节点重要性的一个很好的指标。
采用4个加权网络对7种加权排序方法进行评价,包括2个有向网络和2个无向网络。
(1)青少年健康是根据1994 - 1995年进行的一项调查创建的定向网络。
(2)美国机场是2010年美国机场之间的定向航班网络。
每个链接表示从一个机场到另一个机场的航空公司,链接的权重表示该连接在给定方向上的航班数量。
(3)钦定版《圣经》是一个无向网络,包含钦定版《圣经》的名词、地点和名称以及有关它们发生的信息。
(4)Cond-mat是第9.1节介绍的协作网络的加权版本。
四个加权网络的基本统计特征如表10所示。
(度异质性H的定义与我们在9.1节中介绍的相同。)
在加权网络中,SIR模型的扩展过程与未加权网络中的扩展过程相似。唯一的区别是,感染概率不是常数,而是取决于边缘权重。
Yan等人通过spreading rate传播率定义了感染传播:
(易感节点vi从其受感染的邻居vj获得感染,α是>0的常数,ωmax是网络中wij的最大值。)
表11显示了算法给出的排名得分与SIR模型获得的实际传播影响之间的Kendalls-tau相关系数τ
结果:
网络连接性的分析与未加权网络中的分析相同。
七种方法在四个加权网络上的鲁棒性R如表12所示。
结果:
3. 与促进信息传播不同,为了保持网络连通性,strength表现优于加权H指数和加权核心度。
4. 事实上,strength在三个网络中表现最好,(除了Airports),Airports排名第二。
5. PageRank在机场数据集上表现最好,在两个有向网络上PageRank都优于LeaderRank。
6. 而在两个无向网络上Betweenness优于Closeness。
表13列出了移除节点pc的关键部分。获得了类似的结果。
同样,strength节点强度法的pc在大多数情况下是所有排名方法中最小的。
在本节中,将在两个真实网络和一个人工网络上详细比较六种基于评级的排名算法。
(1) Netflix是DVD租赁公司Netflix于2006年发布的著名数据集的随机选择子集。
(2)MovieLens由GroupLens Research从MovieLen网站收集。
(3)此外,在评级系统的演变过程中,通过优先附加机制,生成了一个由6000名用户和4000个项目组成的人工网络。
表14总结了三个数据集的属性,包括用户数量、项目、评级和基准项目,以及网络稀疏性。
评估二分网络排名准确性的常用度量之一是AUC(接收机工作特性曲线下面积的缩写)。
AUC最初用于判断信号检测理论中预测方法的辨别能力。
计算排名算法AUC的一种简单方法是比较其对好项目和坏项目的辨别能力。
对于Netflix和Movielens数据集,将分别从基准项目(即获得奥斯卡提名的项目)和其他项目中随机选择两个项目。
根据排名算法给出的质量值,如果基准项目的质量高于另一个,则AUC增加1。如果两个项目获得相同的质量值时,AUC增加0.5。如果基准项目获得的质量低于另一个项目,那么AUC保持不变。
AUC的最终值将通过比较次数进行归一化,数学读数如下:
(其中n是比较次数,n’ 是基准项目具有比其他项目更高质量的时间,n’'是基准项目与其他项目具有seam qualities(接缝质量)的时间。)
对于人工网络数据集,将选择获得最高5%质量值的项目和评级误差属于最低5%的用户作为基准。
AUC检测排名算法区分好坏项目的能力,而皮尔逊积矩相关系数r用于测试所有项目的排名准确性。皮尔逊系数r反映了项目的某些真实内在质量与排名算法给出的评分质量之间的线性关系程度。
显然,皮尔逊系数r也可以用来根据用户的真实内在声誉和评分声誉来测试排名算法的准确性。
我们还测试了算法的抗攻击能力。
本节中考虑了两种攻击:
(1)随机评级:攻击者将以随机允许分数对项目进行评级。
(2)推送评级:攻击者将以最大或最小允许分数对项目进行评级。
从我们的实验中,我们发现IARR和IARR2中的参数θ非常敏感,必须谨慎选择。
Netflix和MovieLens排名算法的AUC如表15所示。
与所有其他算法相比,θ=1的IARR2在Netflix和MovieLens中表现最好。IR在Netflix表现相对较好,而CR和IARR在Movielens表现相对较好。
然而,很难说哪一项(例如电影)是最好的,应该被视为测试特定场景中排名算法有效性的基准。因此,构建的人工网络中,每个用户都有真实的内在信誉,每个项目都有一定的真实内在质量。
表16全面比较了算法的辨别能力,以评估用户的信誉和项目的质量。
如上所述,AUC反映了排名算法的准确性,以区分普通用户或项目的好坏。因此,声誉最高的前5%用户和质量最高的5%项目被视为基准。
与真实数据集不同,这个人工网络中的评级不再局限于几个固定值。
因此,GR方法(根据用户的评级对用户进行分组)将不在此进行分析。
结果:
对于一个好的声誉评估方法,算法给出的用户最终声誉应该与其真实的内在声誉负相关。相关性越强,算法越好。
表17显示了**20%垃圾邮件发送者的不同算法(3种:随即攻击,推送攻击1&2)**的有效性。对于随机攻击策略,每个项目将获得[0,1]范围内的随机评级。
结果:
本节中使用的网络与第9.1节中的网络相同,即Amazon、Cond mat、Email Enron和Facebook。
为了评估算法找到一组有影响的节点的能力,我们还考虑了SIR模型。
最初,一组节点作为种子被感染,传播过程与我们在第9.1节中描述的相同。
然后,使用最终恢复节点的比率来衡量算法的性能。
我们测试了七种方法,包括度、介值、接近度、季氏渗滤法、胡氏渗滤法、CI和投票排名。
(degree, betweenness, closeness, Ji’s percolation method , Hu’s percolation method , CI and VoteRank )
对于两个参数相关的方法,我们为Ji方法设置L=0.05n,为CI设置L=2。
Ji和Hu方法的职业概率The occupation probabilities等于传播模型的感染概率。
表18显示了通过初始化由不同方法选择的5%感染节点而触发的最终恢复节点的平均比率。
结果:
为了研究一组节点对网络连接性的重要性,我们删除了一组网络节点而不是单个节点,以计算鲁棒性R和一致性S。
R和pc的结果分别显示在表19和表20中。
结果:
谁是有影响力的传播者?它不仅取决于网络结构,还取决于所考虑的动态。 流行病动力学中的关键传播者在信息动力学中可能并不重要。
然而,在珠海市中国移动公司的帮助下,我们进行了一些大规模的实验。
在我们的实验中,任务是找到一些具有较高影响力的初始用户。
3. 在第一步,我们根据不同的策略选择了1000个用户,例如选择LeaderRank得分最高的用户,或者排名最高的用户。
4. 其次,公司给他们每人发了一条信息。然后我们监控每种策略的转发次数。
5. 为了研究该算法对垃圾邮件发送者的弹性,我们删除了所有聚类系数为零的可能垃圾邮件发送者,然后在每个策略下选择1000个用户。
图14显示了两种策略(LeaderRank和度中心性)在两种情况下(有和没有垃圾邮件发送者)的直接转发数量分布。
结果:
必须蛋白质的鉴定旨在创造具有最小基因组的细胞。
科学家通常将目标蛋白质相互作用网络的中心性度量centrality measures与生物信息相结合。
蛋白质的重要性取决于:蛋白质邻居的数量以及蛋白质与其邻居共簇&共表达(co-clustered and co-expressed)的概率。
如图15所示,PeC的性能比仅使用拓扑信息(如度、距离、接近度等)的一些众所周知的中心性度量要好得多。
如图16所示,上述集成拓扑信息和生物信息的方法表现出相似的性能。
从这个角度来看,Radicchi等人构建了一个作者对作者的引用网络(图17中显示了一个简单的例子)
也就是说,如果作者i1和i2撰写的论文i引用了论文j,则将创建有向链接(i1,j)和(i2,j)。他们还考虑了作者和出版物之间的书面关系。因此,如图19所示,由两种关系组成的作者-出版物二分网络可以自然构建。
因此,基本假设显然是,当一篇论文被有名望的科学家引用时,它将具有高质量,而高质量的论文会相应地提高科学家的声望。
在上述申请中,出版物的所有共同作者的贡献被认为是同等重要的。然而,这一假设并不十分准确,并得到了一些讨论。例如,Stallings等人引入了一种公理化方法,**将更高的信用分配给具有更高阶的合著者。**这种为一个出版物分配学分的方法被称为A-index。