社区发现(二)--GN

转自:https://blog.csdn.net/aspirinvagrant/article/details/45599071

GN算法

本算法的具体内容请参考Finding and evaluating community structure in networks(Newman and Girvan)

重要概念

边介数(betweenness):网络中任意两个节点通过此边的最短路径的数目。

社区发现(二)--GN_第1张图片


GN算法的思想:

在一个网络之中,通过社区内部的边的最短路径相对较少,而通过社区之间的边的最短路径的数目则相对较多。下图中展示了变得强度以及边介数在现实网络中的分布情况。GN算法是一个基于删除边的算法,本质是基于聚类中的分裂思想,在原理上是使用边介数作为相似度的度量方法。在GN算法中,每次都会选择边介数高的边删除,进而网络分裂速度远快于随机删除边时的网络分裂。

社区发现(二)--GN_第2张图片


GN算法的步骤如下: 
(1)计算每一条边的边介数; 
(2)删除边界数最大的边; 
(3)重新计算网络中剩下的边的边阶数;
(4)重复(3)和(4)步骤,直到网络中的任一顶点作为一个社区为止。

GN算法示例:

社区发现(二)--GN_第3张图片


GN算法计算边界数的时间复杂度为 O(m*n),总时间复杂度在m条边和n个节点的网络下为 O(m2*n)。
GN算法的缺陷:
(1)不知道最后会有多少个社区;
(2)在计算边介数的时候可能会有很对重复计算最短路径的情况,时间复杂度太高;
(3)GN算法不能判断算法终止位置。
为了解决这些问题,Newman引入了模块度Q的概念,它用来一个评价社区结构划分的质量。网络中的社区结构之间的边数并不是绝对数量上的少,而是应该比期望的边数要少。关于模块度的概念请参考
社区划分的标准--模块度

GN算法具体实现借助基于R的图挖掘库
igraph
数据集为Karate数据集:
Zachary空手道俱乐部成员关系网络是复杂网络、社会学分析等领域中最常用的一个小型检测网络之一。从1970到1972年,Zachary观察了美国一所大学空手道俱乐部成员间的社会关系,并构造出了34个成员,78条成员关系的社会关系网。两个成员经常一起出现在俱乐部活动之外的其他场合,就认为两个成员间有边。该俱乐部因为主管(节点34)与教练(节点1)之间的争执而分裂成2个各自为核心的小俱乐部。结构如下图所示。具体请参考
An information flow model for conflict and fission in small groups

社区发现(二)--GN_第4张图片

GN算法的R分析代码

> library("igraph")
> karate  <-  graph.famous("Zachary")
> ebc <- edge.betweenness.community(karate)
> ebc
Graph community structure calculated with the edge betweenness algorithm
Number of communities (best split): 5 
Modularity (best split): 0.4012985 
Membership vector:
 [1] 1 1 2 1 3 3 3 1 4 5 3 1 1 1 4 4 3 1 4 1 4 1 4 4 2 2 4 2 2 4 4 2 4 4
> modularity(ebc)
[1] 0.4012985
> membership(ebc)
 [1] 1 1 2 1 3 3 3 1 4 5 3 1 1 1 4 4 3 1 4 1 4 1 4 4 2 2 4 2 2 4 4 2 4 4
> plot(ebc,karate)
社区发现(二)--GN_第5张图片

Newman快速算法 

本算法的具体内容请参考
Fast algorithm for detecting community structure in networks(Newman)

GN算法通过模块度可以准确的划分网络,但它只适用于中小型规模的网络。Newman提出一种基于贪心的快速社区发现算法,算法的基本思想是:首先将网络中的每个顶点设为一个单独社区,然后选出使得模块度Q的增值最大的社区对进行合并;如果网络中的顶点属于同一个社区,则停止合并过程。整个过程是自底向上的过程,且这个过程最终得到一个树图,即树的叶子节点表示网络中的顶点,树的每一层切分对应着网络的某个具体划分,从树图的所有层次划分中选择模块度值最大的划分作为网络的有效划分。

设网络有n个节点,m条边,每一步合并对应的社区数目为r,组成一个r*r矩阵e,矩阵元素eij表示社区i中的节点与社区j中节点之间连边的数目在网络总变数的百分比。

主要步骤:

(1) 初始化网络,开始网络有n 个社区,初始化的eij和ai为:


(2)依次按照∆Q的最大或者最小的方向进行合并有边相连的社区对,并计算合并后的模块度增量∆Q:


(3)合并社区对以后修改对社区对称矩阵e 和社区i和j对应的行列;

(4)重复执行步骤(2)和(3),不断合并社区,直至整个网络合并成一个社区为止。

Newman快速算法的R分析代码

>  karate  <-  graph.famous("Zachary")
>  fc  <-  fastgreedy.community(karate)
>  dendPlot(fc)

社区发现(二)--GN_第6张图片


参考资料:

Social and Information Network Analysis Jure Leskovec, Stanford University





你可能感兴趣的:(图与网络)