复杂网络和社会网络

转:http://www.techcn.com.cn/index.php?edition-view-152732-1

很好的入门介绍

关于复杂网络(complex network)和社会网络(social network)。

第一次从学术意义上接触这两个词儿还是不久之前,也就是去年冬天的R会议上。已经记不得是谁的presentation里面有一幅很经典的复杂网络的图了(当时学到的东西太多了,很难一一拎清楚来源了。欢迎各位知情人士把图扒翻出来给我),而后大家的话题也多多少少牵扯到复杂网络。

先澄清一下这两个概念之间的区别:从我的理解来说,复杂网络更多的是一种数学工具,一种分析问题的方法。而社会网络则是一种概念和定义上的东西,是社会学研究的对象。现在社会学研究社会网络的时候会经常用到复杂网络的工具,这也是二者的结合点。简而言之,复杂网络>社会网络。

或许社会网络中最著名的就是“六度分割理论”:

美国著名社会心理学家米尔格伦(Stanley Milgram)于20世纪60年代最先提出。“你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生 人。”

还有一个著名的“150法则”:

从欧洲发源的“赫特兄弟会”是一个自给自足的农民自发组织,这些组织在维持民风上发挥了重要作用。有趣的是,他 们有一个不成文的严格规定:每当聚居人数超过150人的规模,他们就把它变成两个,再各自发展。“把 人群控制在150人以下似乎是管理人群的一个最佳和最有效的方式。”——150成为我们普遍公认的“我们可以与之保持社交关系的人数的最大值”。

我第一次对复杂网络有个感性的认识大概是大一的时候,当时雅虎中国出来一个很有趣儿的名人搜索(当然现在很多网站都有了),然后我就泡在上面折腾了个把小时。

复杂网络从数学的角度看自然离不开“图与网络分析”(插曲:我觉得运筹学是我学的最得心应手的数学课,几乎不用证明多好啊,直观的很容易理解,算法上的东西比定义上的容易搞定得多)。不过这里我们撇开数学不谈,看看复杂网络的应用(原文在此):

研究所涉及的网络主要有:生命科学领域的各种网络(如细胞网络、蛋白质-蛋白质作用网络、蛋白质折叠网络、神经网络、生态网络)、 Internet/WWW网络、社会网络,包括流行性疾病的传播网络、科学家合作网络、人类性关系网络、语言学网络,等等;所使用的主要方法是数学上的图论、物理学中的统计物理学方法和社会网络分析方法。

钱学森给出了复杂网络的一个较严格的定义:具有自组织、自相似、吸引子(网络的内聚倾向)、小世界(相互关系的数目可以很小但却能够连接世界的事实)、无标度中部分或全部性质的网络称为复杂网络。

看来看去,社会网络无疑是复杂网络应用中最好观测、最易直观理解的例子。

之所以提起来这个话题,主要是前几天无聊的时候翻了翻去年10月的一期《大众软件》,虽然其中《复杂网络——网络的科学》一文更多的是一种科普的角度来阐述复杂网络的概念,但是也并非没有分析上的启迪意义。复杂网络或许从数学工具的角度已经有比较成熟的框架和脉络,但是真正应用到社会学中,又是另外一番天地。经济学的研究现在特别讨厌弄个假设然后找个数学家来解题,毕竟我们研究的是人类的行为。

记得R会议之后Mr Liu曾发给我一篇沃顿商学院俩教授写的论文,原文载于Marketing Science,标题为New product diffusion with influences and imitators(谢谢tryshy订正)。可能从商业的角度看这篇文章有着自己的市场营销层面的价值,但是我感兴趣的则是里面利用的社会网络的分析方法。当时我是出于我理解中的微观经济学缺少一些人类行为层面的分析(我总觉得贝克尔在《人类行为的经济分析》里面只是分析了经济因素而非把行为本身作为一个决定模型的因素),也想多了解一些behavior economics方面的东西。从某种程度上来说,群体的行为必然是个人行为的加总,只是这个不能简简单单的是一个线性加法,而有着更多的决定因素和嵌套关系。

对于群体行为,心理学和社会学了解的要比经济学通透的多,他们的精华成果也颇为值得借鉴。我欲借复杂网络构建模型,却奈何对其理解不足,怕造成灾难性的错误,只得搁置。故而对于群体行为,即将撰写的博文中只会涉及正态分布和布朗运动,暂时放下复杂网络。或许有朝一日,对复杂网络的理解通透了之后,可以在两者之间构建一个桥梁,或许能看到一番新的景象。

复杂网络与社会网回目录

从最初的规则网络,之后的随机网络,到近几年的复杂网络,越来越多的关于网络的研究成果被发掘并应用,为人们更深刻认识现实中的复杂系统,并对之进行控制或应用提供了有效帮助。现实世界中的很多系统都可以用复杂网络的形式来描述,这些复杂网络具有网络平均路径长度较小、聚类系数较大、节点度分度服从幂律分布等相同特性。近年来,复杂网络已逐渐成为研究复杂系统的一种重要方法,对复杂网络的研究正受到来自不同领域的越来越多的研究人员的关注,复杂网络已经成为一个跨学科的研究热点。
社会网是一种复杂网络,反映了社会成员及其相互关系。通过对社会网的理论研究,尝试挖掘隐藏在表面关系之下的隐性关系,可进行电子商务、信息推荐等有益的应用。

1、复杂网络及其特点

复杂网络的定义及来源

现实世界中的许多系统都可以采用网络的形式来加以描述,可以将网络看作由节点和连接节点的边组成的集合。通常用节点来表示现实系统中的个体,用边表示个体间的某种关联,有边相连的两个节点被称作相邻节点.有点相连的两条边被称作相邻边。若网络中的边具有方向性,称为有向网络;反之.称为无向网络。本书中未特别指明的网络为尤向网络。图论中的图与本书中的网络类似,图是抽象化的网络,图论中的方法可以用于解决复杂网络中的问题。
现实世界中的许多系统都可以利用网络图进行描述。例如,如果用一个节点表示一个人,一条边表示它所连接的两个节点(即所表示的两个人)之间的交往,就能构成反映人际关系的社会网络;如果用节点表示城市,用边表示城市之间的铁路,就能构建反应交通路线状况的铁路网;如果用节点表示物种,用边表示从被捕食者指向捕食者的能量传递关系,就构成了食物链网;如果用节点表示协同团队中的成员,边表示知识在成员之间的传播,就构成了知识流网。这样的例子随处可见,如Internet、World Wide Web、神经网络、代谢网络、分布式的血管网络等。研究网络的结构,并发现其内在共同特性,以便多个领域相互参考借鉴,是科学家们一‘直所关注的问题。
网络研究的初次尝试可以追溯到1736年,瑞士数学家欧拉(Euler)在他的一篇论文中讨论了哥尼斯堡七桥问题。在二百多年的发展过程中,网络理论的研究先后经历了规则网络、随机网络和复杂网络三个阶段。在最初的—百多年里,研究人员普遍认为真实系统各因素之间的关系可以用一些规则的结构表示,例如二维平面上的欧几里得格子,它看起来像是格于衬衫上的花纹;又或者最近邻环网,它容易让人想到一群手牵着手围着篝火跳圆圈舞的人们。1960年,数学家Erdos和Renyi提出了随机图理论,为构造网络提供了一种新的方法。在这种方法中,两个节点之间是否有边连接不再是确定的事情,而是根据一个概率决定,这样生成的网络称作随机网络。随机图的思想主宰复杂网络研究长达四十年之久,直到近几年,科学家们对大量的现实网络的实际数据进行计算研究后得到的许多结果,既不是规则网络,也不是随机网络,而是具有与前两者皆不同的统计特征的网络。这样的一•些网络称为复杂网络,对于复杂网络的研究标志着网络研究的第三阶段的到来。由Watts和Strogatz于1998年提出的WS小世界网络模型,刻画了现实世界中的网络所具有的大的凝聚系数和短的平均路径长度的小世界特性。1999年,Barabasi和Albert提出的无尺度网络模型,刻画了实际网络中普遍存在的“富者更富”的现象。小世界网络和无尺度网络的发现掀起了复杂网络的研究热潮。
2、复杂网络的特征及度量
(一)平均路径长度与小世界现象
在网络研究中,如果网络中的两个节点可以通过一些首尾相连的边连接起来,则称这两个节点是可达的,并把连接两者的路径中边数最少的路径称为最短路径,最短路径的边数称为两个节点之间的距离。显然两个点之间的距离总是比网络拥有的节点总数要小。网络的直径定义为网络中任意两个节点间的最大距离。把所有节点对的距离进行平均,就得到了网络的平均距离,它描述了网络中节点间的分离程度,即网络的大小或尺寸。
“小世界现象”源于社会心理学家Stanley Milgram在20世纪60年代所做的试验。他要求从奥马哈市(()maha)随机选取的300人尝试寄一封信给波士顿市(Boston)的一位证券业务员,寄信的规则是每个参与者只能转发
给一个他们认识的人。直觉告诉我们,从茫茫人海中找到一条相续认识的链,把最初的寄信人跟目标业务员连接起来,应该会费尽周折。然而,实验结果表明:完整的链的平均长度为6个人。
小世界特性容易使人联想起疾病、谣言、或数据在网络中的传播或传输问题,这些问题很多时候恰恰是很关键的问题。除了具有平均最短距离较小以外,小世界网络还要具有高聚集性,同时具有这两个方面特性的网络才可以被称为是小世界的。实验结果说明,在以细胞中的化学物质为节点、化学反应关系为边构成的网络中,节点之间的典型间隔为3;在以好莱坞演员作为节点、同在一部电影中出演作为边的网络中,演员之间的平均间隔为3;在具有153127个节点的万维网(World Wide Web)中,节点之间的平均路径长度为3.1。另外,ErdOs和R~nyi已经证明,经典的随机网络中,任何两个节点间的典型距离为网络节点数的对数数量级,所以也具有小世界的特点。
(二)聚类系数与聚集性
在一个社会网络中,一个人的朋友的朋友可能也是他的朋友,或者他的两个朋友可能彼此也是朋友。聚集性用于描述这类可能性的程度,即,网络有多紧密。聚集性表达了网络连接的聚集程度。
通常用聚类系数(Cluster Coefficient)来描述网络中节点的聚集情况,其定义为:假设节点i与其他k;个节点相连接,如果这ki个节点都相互连接,它们之间应该存在是;ki(ki一1)/2条边,而这是;个节点之间实际存在的边数只有Ei的话,则它与是;ki(ki一1)/2之比就是节点i的聚类系数。

相应的计算公式为:

  显然聚类系数表达了节点的紧邻之间也是紧邻的程度。所有节点的聚类系数的平均值称为平均聚类系数C或整个网络的聚类系数。其中N为节点总数。


平均聚类系数也是复杂网络中的一个重要的全局几何量,在全连通网络(每个节点都与其余所有的节点相连接)中,聚类系数才能等于1,其他情况均小于1。对于随机网络,则有C=p,p为节点间的连接概率。Watts和Strogatz首先指出,许多实际网络的聚集系数远大于具有相同节点数和边数的随机网络。也就是说,许多实际网络趋于具有集团的特性,就像人的社会关系网络一样。这个定义被广泛使用,在社会学领域常称为网络密度。
(三)度和度分布
节点的度(Degree)是网络研究中的一个重要概念,是描述网络局部特性的基本参数。在N个节点的网络中,任意一个节点i的度ki等于与该节点相连的其他节点的数目(连接数)。若网络的邻接矩阵为A=[aii)N*N,则节点i的度为:

在有向网络中,节点的度分为出度(Out-degree)和人度(In-degree)。节点的出度,是指从该节点指向其他节点的边的数目;节点的人度,是指从其他节点指向该节点的边的数目。度用于描述网络节点连接数目的分布情况。直观上看,一个节点的度越大,表明其在网络拓扑中的地位越重要。事实上度在不同的网络中含义不同。如,社会网络中,度可以表示个体的影响力和重要程度,度越大的个体,其影响力就越大,在整个组织中的作用也就越大;反之亦然。
节点的平均度是指所有节点的度的平均值,用符号 表示。

度分布(Degree distributions)是对节点的度的规律的一种描述,通常用度分布函数P(K)表示任意选择一个网络节点,其度恰好为是的概率。其值等于网络中度为是的节点的个数占网络节点总个数的比值。由于连接的随机性,随机网络的所有节点的度应该接近网络的平均度。随机网络的度分布为二项分布(Binomial)或大规模极限下的泊松分布(Poisson Distri—
bution),其峰值为,在远离峰值处呈指数下降。在无尺度网络中,如论文引用网络、WWW、Internet、代谢网络,电话呼叫网络和人之性关系网络等,其度分布都呈一种幂律分布(Power-law Distribution),也就是分布函数的形式为P(k)~K—y,其中Y一般介于2~3之间。
同时研究者也发现,在非泊松度分布的真实网络中,除了幂律分布外,还存在其他形式的度分布。如电力网络的度分布服从指数分布,在单对数坐标系下是一条下降的直线;也存在幂律加指数截断(Cutoff)的度分布的网络,如电影演员合作网络以及蛋白质相互作用网络。
(四)度和聚类系数之间的相关性/选型连接性(Assorta—tiveness)
网络中度和聚类系数之间的相关性被用来描述不同网络结构之间的差异,包括两方面内容:节点的度相关性和节点度分布与其聚类系数之间的相关性。前者也称为网络选型连接性(或选型相关性),指的是网络中与高度数(或低度数)节点相连接的节点的度数偏向于高还是低。若连接度大的节点趋向于和其他连接度大的节点连接,则认为网络呈现协调混合;若连接度大的节点趋向于和其他连接度小的节点连接,则认为网络呈现非协调混合。
研究中常用相关系数来描述网络的选型连接性。

相关系数的定义为:式中,ji,ki为与第i条边关联的两个节点的度;c=1/m,m是网络中边的条数。实际的网络的选型连接性有一些呈现协调混合(T>o),一些呈现非协调混合(T 相反。因此,这两种相关性也被认为是社会网络区别于其他类型网络的重要特征,在社会网络的研究中引起了人们的高度重视。
(五)网络健壮性(Robustness)/网络弹性
许多实际复杂系统表现出惊人的容错能力,这引起研究者的广泛关注。举例来说,复杂的通信网络呈现高度的健壮性,常规的局部失效及关键部件的故障很少会导致网络的整体信息承载传送能力的丧失,这种网络的稳定性常被人们归因于网络的冗余连接。但是除了冗余之外,网络的拓扑是否对其稳定与健壮性有一定作用呢?网络对部件失效或者连接失败的抗拒能力称为网络的健壮性或者恢复力(Resilience)。
网络的功能依赖其节点的连通性,即,依赖于节点间存在的路径。网络节点的删除对网络连通性的影响称为网络弹性,其分析方式有两种:随机删除和有选择的删除,分别称为网络的健壮性分析和网络的脆弱性分析。Albert和Barabasi对度分布服从指数分布的随机网络模型和度分布服从幂律分布的无尺度网络进行了研究,结果显示:随机删除节点基本上不影响无尺度网络的平均路径长度,即对随机节点的删除具有高度弹性;相反,有选择的删除度数最大的节点时,无尺度网络的平均路径长度较随机网络的增长快得多。这表明,无尺度网络相对随机网络具有较强的鲁棒性和易受攻击性。
出现上述现象的原因在于:幂律分布网络中存在的少数具有很大度数的节点,它们在网络连通中扮演着关键角色,一般也称它们为Hub节点。
(六)介数/居间中心性(Betweenness Centrality,BC)
介数分为边介数和节点介数,节点的介数为网络中所有的最短路径中经过该节点的数量比例。节点K的介数定义为:



式中,Ck(I,j)表示节点i和j 之间最短路径中经过节点k的次数;Ck(I,j)则表示i和j之间最短路径的总数目。
介数反映了相应的节点或者边在整个网络中的作用和影响力,具有很强的现实意义。社会学中常用这个指标描述指定的人在社会中的影响力,介数在社会关系网络或技术网络中的分布特征反映了不同人员、资源和技术在相应社会关系或生成关系中的地位,这对于在网络中发现和保护关键资源和技术具有重要意义。
边的介数与节点介数的含义类似,是指网络中所有的最短路径中经过该边的数量比例,多应用于网络中的社区结构的识别,这方面的内容将在第三章给出详细介绍。
二、复杂网络模型
真实网络所表现出来的小世界特性、无尺度幂律分布或高聚集度等现象促使人们从理论上构造出多样的网络模型,以解释这些统计特性,探索形成这些网络的演化机制。本节介绍了几个经典网络模型的原理和构造方法,包括ER随机网络模型、BA无尺度网络模型和小世界模型。
1、ER随机网络模型
ErdOs-Renyi随机网络模型(简称ER随机网络模型)是匈牙利数学家Erdos和Renyi提出的一种网络模型。1959年,为了描述通信和生命科学中的网络,Erdos和Renyi提出,通过在网络节点间随机地布置连接,就可以有效地模拟出这类系统。这种方法及相关定理的简明扼要,导致了图论研究的复兴,数学界也因此出现了研究随机网络的新领域。ER随机网络模型在计算机科学、统计物理、生命科学、通信工程等领域都得到了广泛应用。
ER随机网络模型是个机会均等的网络模型。在该网络模型中,给定一定数目的个体(节点),它和其他任意一个个体(节点)之间有相互关系(连接)的概率相同,记为户。因为一个节点连接k个其他节点的概率,会随着k值的增大而呈指数递减。这样,如果定义是为每个个体所连接的其他个体的数目,可以知道连接概率p(k)服从钟形的泊松(Poisson)分布,有时随机网络也称作指数网络。
随机网络理论有一项重要预测:尽管连接是随机安置的,但由此形成的网络却是高度民主的,也就是说,绝大部分节点的连接数目会大致相同。实际上,随机网络中连接数目比平均数高许多或低许多的节点,都十分罕见。
在过去40多年里,科学家习惯于将所有复杂网络都看作是随机网络。在1998年研究描绘万维网(以网页为节点、以超级链接为边)的项目时,学者们原以为会发现一个随机网络:人们会根据自己的兴趣,来决定将网络文件链接到哪些网站,而个人兴趣是多种多样的,可选择的网页数量也极其庞大,因而最终的链接模式将呈现出相当随机的结果。
然而,事实并非如此。因为在万维网上,并非所有的节点都是平等的。在选择将网页链接到何处时,人们可以从数十亿个网站中进行选择。然而,我们中的大部分人只熟悉整个万维网的一小部分,这一小部分中往往包含那些拥有较多链接的站点,因为这样的站点更容易为人所知。只要链接到这些站点,就等于造就或加强了对它们的偏好。这种“择优连接(Preferential Attachment)”的过程,也发生在其他网络中。在Internet上,那些具有较多连接的路由器通常也拥有更大的带宽,因而新用户就更倾向于连接到这些路由器上。在美国的生物技术产业内,某些知名公司更容易吸引到同盟者,而这又进一步加强了它在未来合作中的吸引力。类似地,在论文引用网络(论文为节点,引用关系为边)中,被引用次数较多的科学文献,会吸引更多的研究者去阅读并引用它。针对这些网络的“择优连接”的新特性,学者提出了BA无尺度网络模型。
2、BA无尺度网络模型
无尺度网络的发现,使人类对于复杂网络的认识进入了一个新的天地。无尺度网络的最主要特征是节点的度分布服从幂次定律。BA模型是无尺度网络(Scale-free Network)的第一个抽象模型。由于考虑了系统的成长性(Growth)和择优连接性,BA模型给我们带来了很多启发,并且可以应用于多种实际网络。但是BA模型的两个基本假定,对于解释许多现实中的现象来说过于简单,与现实的网络还有较大的距离。有学者试图对BA模型进行扩展,即根据现实中的网络,增添某些假定,以便进一步探索复杂网络系统的规律。对BA模型的扩充可以考虑三个因素:择优选择的成本、边的重新连接、网络的初始状态。扩充的BA模型可以更好地模拟现实世界中的网络现象。
(一)无尺度网络
1999年,丸Barabasi和兄Albert在对互联网的研究中发现了无尺度网络,使人类对于复杂网络系统有了全新的认识。过去,人们习惯于将所有复杂网络看作是随机网络,但Barabasi和Albert发现互联网实际上是由少数高连接性的页面组织起来的,80%以上页面的链接数不到4个。只占节点总数不到万分之一的极少数节点,却有1000个以上的链接。这种网页的链接分布遵循所谓的“幂次定律”:任何一个节点拥有是条连接的概率,与1/k成正比。它不像钟形曲线那样具有一个集中度很高的峰值,而是一条连续递减的曲线。如果取双对数坐标系来描述幂次定律,得到的是一条直线。Scale-free网络指的是节点的度分布符合幂律分布的网络,由于其缺乏一个描述问题的特征尺度而被称为无尺度网络。其后的几年中,研究者们在许多不同的领域中都发现了无尺度网络。从生态系统到人际关系,从食物链到代谢系统,处处可以看到无尺度网络。

图1—1描述了一个随机网络和无尺度网络的例子:美国公路系统为典型
的随机网络(上图),其节点间的连接服从钟形的泊松分布;

美国航空网则是典型的无尺度网络(右上图),存在少数拥有大量连接的集散节点,而大多数节点拥有较少连接,其节点连接数服从幂次定律分布。
(二)BA模型及其机制
为什么随机模型与实际不相符合呢?Barabasi和Albert在深入分析了ER模型之后,发现问题在于ER模型讨论的网络是一个既定规模的,不会继续扩展的网络。正是由于现实当中的网络往往具有不断成长的特性,早进入的节点(老节点)获得连接的概率就更大。当网络扩张到一定规模以后,这些老节点很容易成为拥有大量连接的集散节点。这就是网络的“成长性”。
其次,ER模型中每个节点与其他节点连接时,建立连接的概率是相同的。也就是说,网络当中所有的节点都是平等的。这一情况与实际也不相符。例如,新成立的网站选择与其他网站链接时,自然是在人们所熟知的网站中选择一个进行链接,新的个人主页上的超文本链接更有可能指向新浪、雅虎等著名的站点。由此,那些熟知的网站将获得更多的链接,这种特性称为“择优连接”。这种现象也称为“马太效应(Matthew Effect)”或“富者更富
(Rich Get Richer)”。
“成长性”和“择优连接”这两种机制解释了网络当中集散节点的存在。



(三)BA模型的改进方向
BA无尺度模型的关键在于,它把实际复杂网络的无尺度特性归结为增长和优先连接这两个非常简单的机制。当然,这也不可避免地使得BA无尺度网络模型和真实网络相比存在一些明显的限制。比如,一些实际网络的局域特性对网络演化结果的影响、外界对网络节点及其连接边删除的影响等。
一般自然的或者人造的现实网络与外界之间有节点交换,节点间连接也在不断变化,网络自身具有一定的自组织能力,会对自身或者外界的变化作出相应的反应。因此,在BA模型基础上,可以把模型的动力学过程进行推广,包括对网络中已有节点或者连接的随机删除及其相应的连接补偿机制。
对每一个时间步长,考虑如下三种假设:
(1)成长假设:一个带有m个择优连接的新节点加入网络,这个新节点选择网络中m个节点,即对于每一个连接,一个度为是的节点作为目标
被选择的概率正比于k;
(2)删除假设:考虑网络中若干个节点,这些节点与其他节点之间的连接边被随机地选作目标边而被删除,导致网络的演化;
(3)补偿假设:网络中失去一个连接,同时产生n个连接进行补偿,其中”有上确界,是一个受网络补偿能力限制的量,这里的补偿连接所选择的目标节点也遵循择优连接原则。
利用以上三种假设,很多学者已经对BA模型进行了有效的改进,读者可参考相关文献,此处不再详述。
三、小世界网络模型
复杂网络研究中一个重要的发现是绝大多数大规模真实网络的平均路径长度比想象的小得多,称之为“小世界现象”,或称“六度分离(Six Degrees of Separation)”。所谓小世界现象,是来自社会网络(Social Networks)中的基本现象,即每个人只需要很少的中间人(平均6个)就可以和全世界的人建立起联系。在这一理论中,每个人可看作是网络的一个节点,并有大量路径连接着他们,相连接的节点表示互相认识的人。
1998年,Watts和Strogatz引入了一个介于规则网络和完全随机网络之间的单参数小世界网络模型,称为WS小世界模型,该模型较好地体现了社会网络的小平均路径长度和大聚类系数两种现象。
WS小世界模型的构造方法如下:
(1)从规则图开始,考虑一个含有N个节点的规则网络,它们圈成一个环,其中每个节点都与它左右相邻的各K/2个节点相连接,K为偶数;
(2)随机化重连,以概率户随机地重新连接网络中的每条边(将边的一个端点保持不变,而另一个端点取为网络中随机选择的一个节点),其中规定,任意两个不同的节点之间至多只能有一条边,并且每一个节点都不能有边与其自身相连。
图1—2表示了小世界网络的构造以及它与规则网络、随机网络的关系。在WS小世界模型中,p=0对应于规则网络,p=l则对应于完全随机网络,通过调节声的值就可以控制从规则网络到完全随机图的过渡。因此,WS小世界网络是介于规则网络和随机网络之间的一种网络。


图1—2 小世界网络的构造及与规则网络和随机网络的关系

WS小世界模型构造算法中的随机化过程有可能破坏网络的连通性。因此,Newman和Watts稍后提出了NW小世界模型。NW小世界模型的构造方法如下:
(1)从规则图开始,考虑一个含有N个点的规则网络,它们圈成一个环,其中每个节点都与它左右的相邻的各K/2节点相连,K是偶数;
(2)随机化加边,以概率p随机选取的一对节点之间加上一条边。其中规定,任意两个不同的节点之间至多只能有一条边,并且每一个节点都不能有边与自身相连。
NW模型只是将WS小世界模型构造中的“随机化重连”改为“随机化加边”。图1—3显示了WS小世界模型与NW小世界模型的构造区别,其中
图1—3(a)是WS小世界模型的构造,图l—3(b)是NW小世界模型的构造。NW模型不同于WS模型之处在于它不切断规则网络中的原始边,而是以概率p重新连接一对节点。这样构造出来的网络同时具有大的聚类数和小的平均距离。NW模型的优点在于其简化了理论分析,因为WS模型可能存在孤立节点,但NW模型不会。当户足够小和N足够大时,NW小世界模型本质上就等同于WS小世界模型。



小世界网络模型反映了实际网络所具有的一些特性,例如朋友关系网,大部分人的朋友都是和他们住在同一个地方,其地理位置不是很远,或只在同一单位工作或学习的同事和同学。另一方面,也有些人住得较远的,甚至是远在异国他乡的朋友,这种情形好比WS小世界模型中通过重新连线或在NW小世界模型中通过加入连线产生的远程连接。
小世界网络模型的主要特征之一是节点之间的平均距离随远程连接的个数而指数下降。对于规则网络,平均距离L可估计为L正比于N;而对于小世界网络模型,L正比于ln(N)/1n(K)。例如,对于一个千万人口的城市,人与人的平均接触距离是6左右,这使得生活人群之间的距离大大缩短。该模型由一个规则的环组成,通常是一个一维的几乎具有周期性边界条件的环(即环中每个节点几乎都连接到一固定数目的邻近节点)和少量的随机选取节点连接成的“捷径” (重新连接现存的边)。小世界网络同时具有“高网络聚集度”和“低平均路径”的特性。
从小世界网络模型中可以看到,只要改变很少的几个连接,就可以剧烈的改变网络的性能。这样的性质也可以应用其他网络,尤其是对已有网络的调整方面。例如,蜂窝电话网,改动很少几条线路(低成本、低工作量)的连接,就可以显著提高性能。也可以应用到互联网的主干路由器上,以改变流量和提高传输速度。同样的思路也可以应用到电子邮件的快速传递、特定Web站点的定位等。
三、 社会网络及其分析方法
社会网络
“社会网络”指的是社会成员及其相互关系的集合。社会网络中所说的“点”是各个社会成员,而社会网络中的“边”指的是成员之间的各种社会关系。成员间的关系可以是有向的,也可以是无向的。同时,社会关系可以表现为多种形式,如人与人之间的朋友关系、上下级关系、科研合作关系等,组织成员之间的沟通关系,国家之间的贸易关系等。社会网络分析(Social Network Analysis)就是要对社会网络中行为者之间的关系进行量化研究,是社会网络理论中的一个具体工具。
社会网络通常表达人类的个体通过各种关系连接起来,比如朋友、婚姻、商业等,这些连接宏观上呈现出一定的模式。很早的时候,一些社会学家开始关注人们交往的模式。Ebel等进行了一个电子邮件版的小世界问题的实验,完成了Kiel大学的5000个学生的112天电子邮件连接数据,节点为电子邮件地址,连接为消息的传递,得到带指数截断的幂律度分布,指数为r=1.18。同时证明,该网络是小世界的,平均分隔为4.94。
分析方法
(一)中心性分析
“中心性”是社会网络分析的重点之一,用于分析个人或组织在其社会网络中具有怎样的权力,或者说居于怎样的中心地位,这一思想是社会网络分析者最早探讨的内容之一。
个体的中心度(Centrality)测量个体处于网络中心的程度,反映了该点在网络中的重要性程度。网络中每个个体都有一个中心度,刻画了个体特性。除了计算网络中个体的中心度外,还可以计算整个网络的集中趋势(可简称为中心势,Centralization)。网络中心势刻画的是整个网络中各个点的差异性程度,一个网络只有一个中心势。根据计算方法的不同,中心度和中心势都可以分为3种:点度中心度/点度中心势,中间中心度/中间中心势,
接近中心度/接近中心势。
1.点度中心性
在一个社会网络中,如果一个个体与其他个体之间存在大量的直接联系,那么该个体就居于中心地位,在该网络中拥有较大的“权力”。在这种思想的指导下,网络中一个点的点度中心性就可以用网络中与该点之间有联系的点的数目来衡量,这就是点度中心度。
网络中心势指的是网络中点的集中趋势,其计算依据如下步骤:首先找到图中的最大点度中心度的数值,然后计算该值与任何其他点的中心度的差值,再计算这些“差值”的总和,最后用这个总和除以各个“差值”总和的最大可能值。
2.中间中心性
在网络中,如果一个个体位于许多其他两个个体之间的路径上,可以认为该个体居于重要地位,因为他具有控制其他两个个体之间的交往能力,这种特性用中间中心度描述,它测量的是个体对资源控制的程度。一个个体在网络中占据这样的位置越多,代表它具有很高的中间中心性,就有越多的个体需要通过它才能发生联系。
中间中心势定义为网络中中间中心性最高的节点的中间中心性与其他节点的中间中心性的差距,用于分析网络整体结构。中间中心势越高,表示该网络中的节点可能分为多个小团体,而且过于依赖某一个节点传递关系,说明该节点在网络中处于极其重要的地位。
3.接近中心性
接近中心性用来描述网络中的个体不受他人“控制”的能力。在计算接近中心度的时候,我们关注的是捷径,而不是直接关系。如果一个点通过比较短的路径与许多其他点相连,我们就说该点具有较高的接近中心性。
对一个社会网络来说,接近中心势越高,表明网络中节点的差异性越大;反之,则表明网络中节点间的差异越小。
(二)凝聚子群分析
1、凝聚子群
当网络中某些个体之间的关系特别紧密,以至于结合成一个次级团体时,这样的团体在社会网络分析中被称为凝聚子群。分析网络中存在多少个这样的子群,子群内部成员之间关系的特点,子群之间关系特点,一个子群的成员与另一个子群成员之间的关系特点等就是凝聚子群分析。由于凝聚子群成员之间的关系十分紧密,因此有的学者也将凝聚子群分析形象地称为“小团体分析”或“社区现象”,其定义和发现方法将在本书下面章节中详细介绍。
2.凝聚子群密度
凝聚子群密度(External-Internallndex,E-IIndex)主要用来衡量一个大的网络中小团体现象是否十分严重,在分析组织管理等问题时非常有效。
最差的情形是大团体很散漫,核心小团体却有高度内聚力。另外一种情况是,大团体中有许多内聚力很高的小团体,很可能就会出现小团体间相互斗争的现象。凝聚子群密度的取值范围为[-1,+1]。该值越向1靠近,意味着派系林立的程度越大;该值越接近-1,意味着派系林立的程度越小;该值越接近0,表明关系越趋向于随机分布,未出现派系林立的情形。
E-I Index可以说是企业管理者的一个重要的危机指数。当一个企业的E-I Index过高时,就表示该企业中的小团体有可能结合紧密而开始图谋小团体私利,从而伤害到整个企业的利益。其实E-I Index不仅仅可以应用到企业管理领域,也可以应用到其他领域,比如用来研究某一学科领域学者之间的关系。如果该网络存在凝聚子群,并且凝聚子群的密度较高,说明处于这个凝聚子群内部的这部分学者之间联系紧密,在信息分享和科研合作方面交往频繁,而处于子群外部的成员则不能得到足够的信息和科研合作机会。从一定程度上来说,这种情况也是不利于该学科领域发展的。
3.核心-缘结构分析
核心-边缘(Core-Periphery)结构分析的目的是研究社会网络中哪些节点处于核心地位,哪些节点处于边缘地位。核心-边缘结构分析具有较广的应用性,可用于分析精英网络、论文引用关系网络以及组织关系网络等多种社会现象。
根据关系数据的类型(定类数据和定比数据),核心—边缘结构有不同的形式。定类数据和定比数据是统计学中的基本概念,一般来说,定类数据是用类别来表示的,通常用数字表示这些类别,但是这些数值不能用来进行数学计算;定比数据是用数值来表示的,可以用来进行数学计算。如果数据是定类数据,可以构建离散的核心-边缘模型;如果数据是定比数据,可以构建连续的核心-边缘模型。离散的核心-边缘模型,根据核心成员和边缘成员之间关系的有无及紧密程度,又可分为3种:核心-边缘全关联模型、核心-边缘局部关联模型、核心-边缘关系缺失模型。
如果把核心和边缘之间的关系看成是缺失值,就构成了核心-边缘关系缺失模型。这里介绍适用于定类数据的4种离散的核心-边缘模型。

(1)核心-边缘全关联模型。网络中的所有节点分为两组,其中一组的成员之间联系紧密,可以看成是一个凝聚子群(核心),另外一组的成员之间没有联系,但该组成员与核心组的所有成员之间都存在关系。
(2)核心-边缘无关模型。网络中的所有节点分为两组,其中一组的成员之间联系紧密,可以看成是一个凝聚子群(核心),而另外一组成员之间则没有任何联系,并且同核心组成员之间也没有联系。
(3)核心-边缘局部关联模型。网络中的所有节点分为两组,其中一组的成员之间联系紧密,可以看成是一个凝聚子群(核心),而另外一组成员之间则没有任何联系,但是它们同核心组的部分成员之间存在联系。
(4)核心-边缘关系缺失模型。网络中的所有节点分为两组,其中一组的成员之间的密度达到最大值,可以看成是一个凝聚子群(核心),另外一组成员之间的密度达到最小值,但是并不考虑这两组成员之间关系密度,而是把它看作缺失值。

你可能感兴趣的:(Software)