复杂网络模型总结

本文主要针对数模美赛中复杂网络模型的相关知识进行了总结,此外,其余需要使用复杂网络的情况也可以参考本文

目录

分类

均匀性分类

关联性分类

一些基础

复杂网络上的传播机理与动力学分析

免疫网络

免疫模型

免疫类型

复杂网络的传播动力学

复杂网络上的相继故障

复杂网络中的搜索:(搜索需要的数据)

复杂网络中的社团结构(可区分层次)

分裂模型

凝聚算法

复杂网络中的同步

无标度网络的完全同步

局域世界演化网络模型的完全同步

应用

各因子与完全同步的关系

改进复杂网络同步的方法

相位同步

复杂动态网络的控制

应用

描述节点间相互作用

各种模型

路网可达性

节点重要性

度中心性(degree)

接近中心性(Closeness Centrality)

中介中心性/中间中心性(Between Centrality)  

特征向量中心性(Eigenvector Centrality)

度的分布(常为幂律分布)

复杂网络的性质分析

衡量影响度

排名算法汇总

PageRank

Hits Algorithm

TrustRank


分类

均匀性分类

均匀网络(如WS小世界模型) 度数分布较均匀

非均匀网络(如BA无标度网络) 度数分布极度不均匀

关联性分类

无关联网络:任何一个节点的度与它的邻居节点的度是相互独立的

关联网络:节点的度与它的邻居节点的度不是相互独立的


一些基础

  1. WS、NW小世界模型:描述朋友关系
  2. BA无标度网络:描述持续的社会连接,如发表论文总会优先找已经写过论文的人。

鲁棒性和脆弱性并存。有限支撑、无限支撑“赢者通吃”。

  1. 局域世界演化网络模型:优先连接不是整个网络而是局域,如找导师时想获取本校的学位只能找本校的导师,而不是外国知名导师。
  2. 等级网络:模块以某种迭代的方式生成一个等级网络。
  3. 超家族:自相似。
  4. 运用自相似性质来粗粒化。
  5. AS层面Internet拓扑:多层次连接
  6. 技术网络一般是异配的,而社会网络通常是同配的
  7. PFP模型:富人俱乐部,少量节点具有大量的边(富节点),它们倾向于彼此之间相互连接。
  8. DP模型:消费者-供应商关系或者对等关系,连接度低的为消费者,连接度较高的为供应商;消费者决定将要接到哪些供应商上,即由消费者来选择供应商。
  9. 多局域网模型:当一个新节点加入到一个区域网络时,它对其他局域网中的节点影响非常小,而它反过来主要受本区域网中的节点的影响。

复杂网络上的传播机理与动力学分析

免疫网络

免疫模型

  1. SIR模型  易感染群众被感染,然后恢复健康并具有免疫性。(新闻传播等,知道某条新闻后对此事后不再感兴趣;娱乐信息传播与之对比,知道信息后部分人会变得更感兴趣,容易受感染)
  2. SIS模型  易感染群体被感染后,又返回到易染状态

免疫类型

  1. 随机免疫
  2. 目标免疫:选取少量度最大的节点进行免疫
  3. 熟人免疫:从很多节点中随机选出一定比例的节点,再从每一个被选出的节点中随机选择一个邻居节点进行免疫

复杂网络的传播动力学

病毒、灾难、火灾、通信网络中的堵塞都可作为对象。

  1. 红色代码蠕虫的随机常数传播模型 假设:一是忽略了系统可能被打补丁、关闭或切断连接;二是认为易被攻击的目标数在这一模型中是常数;三是把Internet看作一个无向完全连接图。
  2. 电子邮件病毒的传播模型 对朋友寄来的邮件都予以(充分)信任,以一定概率打开邮件
  3. 谣言在复杂网络中的传播 可类似的用SIR模型来描述

复杂网络上的相继故障

  1. 负荷—容量模型 由于某种原因某个节点的负荷超过其容量从而产生故障
  2. 二值影响模型 应用于随机网络相继故障分析
  3. 沙堆模型 随着沙堆的逐渐变大,它的坡面变陡,这时新添加的沙子引发沙崩的可能性也越来越大。
  4. OPA模型 由初始状态向自组织临界状态转化,各种小型故障的防护性工程反应,是导致电网状态向自组织临界状态发展的一个不可缺少的动因。对小型事故的防护和避免实际上是在为一次大规模相继故障作累积
    慢动态 负荷缓慢增长
    快动态 描述相继故障发生和传播,速度很快
  5. CASCADE模型 相继故障频率和故障规模的概率分布,其假设
    网络中具有很多类似的节点,并且各自具有随机的初始负荷及初始扰动
    某一结点过载后会失效并将一个固定大小的负荷传给其他节点

    复杂网络中的搜索:(搜索需要的数据)

应用 社会网络中两个人之间的最短关系链寻找最短关系链寻找、WWW中网页的搜索和P2P网络结构及其搜索技术。

  1. 层次树结构网络模型 个体根据职业、地理位置、兴趣等聚集成一些比较小的群,这些群又根据它们共同的特性聚集成规模更大的群,这样一层一层向上聚集,最高的一层代表整个网络,从而产生一个树状的层次结构。如某大学研究生组成的网络,某实验中的个体属于实验室,然后又属于某个系,然后又都属于某个学院,最后都属于这个大学。
  2. 全局 广度优先搜索策略:可用来寻找任意两点之间的最短路径
  3. 局部 随机游走搜索策略:
  4. P2P网络中的搜索:在个人计算机之间直接进行资源和服务的共享,而不像传统的客户端/服务器结构那样需要经过服务器的介入和服务。
  5. Gnutella网络中的广播搜索:采用广度优先搜索。这样的搜索方法是十分高效的,用户可以在很短的时间内找到所需的目标文件。但是,这样的处理方式会在网络中产生大量查询数据流量,很容易形成网络流量堵塞。

改进方法:1、迭代加深     2、有向广度优先搜索    4、K遍历器随机游走   

  1. 基于Gnutella网络中节点的度分布的改进搜索算法
  2. 同时研究复杂网络中的搜索和拥堵的模型

复杂网络中的社团结构(可区分层次)

分裂模型

  1. Kernighan-Lin算法:要求必须事先知道该网络的两个社团大小,否则,很可能不会得到正确的结果。这个缺陷使得它在实际网络分析中难以应用
  2. 谱平分法:最大的缺陷就是它每次只能将网络平分,如果要将一个网络分成两个以上的社团,就必须对子社团多次重复该算法。
  3. 线性时间的物理方法:不仅可以求出网络的社团结构,还可以在不考虑整个网络的社团结构的情况下,寻找一个已知节点所在的整个社团。
  4. 基于Normal矩阵的谱平分法:克服需要事先知道社团个数的缺陷,使对于社团结构不是十分明显的网络也能取得较好的效果。
  5. GN算法:GN算法弥补了一些传统算法的不足,近几年来已成为社团结构分析的一种标准算法。GN算法存在一个缺陷,即它对于网络的社团结构并没有一个量的定义。不能直接从网络拓扑结构判断它所求的社团是否是实际网络中的社团结构,从而需要一些附加的关于网络意义。在不知道社团数目的情况下,GN算法也不知道这种分解要进行到哪一步终止。
  6. 采用节点集的GN算法:和GN算法相比,显著地提高计算速度,但也降级了计算的准确度。
  7. 自包含GN算法:克服了GN算法的两个缺陷。与GN算法的效果相当,计算速度却有了较大的提高。
  8. 快速分裂算法:仅需要计算一些局部变量,因此大大减小了运算量。
  9. 基于相异性的算法:可将网络划分为一系列具有等级性的社团。其中,每一个社团都由一个相异性的上下阈值来表征,可表示出不同社团之间的差异程度。可以运用于无权网络和加权网络。
  10. 基于信息中心度的算法
  11. 极值优化算法:基本思想是通过调整局部极值来优化全局的变量,从而提高运算效率。

凝聚算法

  1. Newman快速算法:相比GN算法,可以用于分析节点数高达100万的复杂网络。
  2. 堆结构的贪婪算法(CNM算法):复杂度低,已接近线性复杂度。
  3. 结合谱分析的凝聚算法:结合了谱分析和凝聚算法两者特点的算法。

派系过滤算法:

一个社团从某种意义上可以看成是一些互相连通的“小的全耦合网络”的集合,这些“全耦合网络”成为“派系”。


复杂网络中的同步

大量的看似巧合的同步行为可以用数学来给出解释,每个个体是一个动力学系统,而诸多的动力学个体之间存在着某种特定的耦合关系。

Lyapunov指数

类型1、2、3网络需要判断为哪一种网络

假设网络是连通的,那么只要网络的耦合强度充分大,类型1网络就一定可以实现同步;

而只有当耦合强度属于一定范围时的类型2网络才会同步,也就是说,太弱或太强的耦合强度都会使类型2网络无法实现同步。

无标度网络的完全同步

同步最优网络: 同步化性能要比BA无标度网络的同步化性能强,但由于存在极少量的‘hub’点,这样在恶意攻击下它要比BA无标度网络更容易奔溃

同步优先网络:对于随机去除节点和恶意攻击都很鲁棒的同步优先网络模型。

局域世界演化网络模型的完全同步

一般来说,与无标度网络相比,局域世界演化网络能够在保持鲁棒性的同时,还能提高网络对恶意攻击的抗脆弱性。

应用

  1. 规则网络:星形耦合网络
  2. 平均模型:网络中的每个节点都与其他节点相连,对于平均模型而言,耦合强度只需很小就能大幅降低同步阈值,从而提高网络的同步化性能。
  3. 闪烁小世界网络:前面的小世界模型都是长程边固定的模型,即随机选中一条长程边后,这条边就永远存在。此模型最初始最近邻耦合网络基础上,随机选中的长程边只会在一段时间内存在,而在下一段时间内,该长程边会消失,再重新选择一条长程边出现。更确切的说,在时间间隔内每条长程边都以概率连接。这与其他长程边是否连接无关,也与它本身在上一时间段内是否已经连接无关。
  4. 具有耦合时滞的连续时间网络完全同步判据: 复杂网络在传输和相应过程中常常会由于传播速度的物理限制和网络拥塞的存在而产生时滞现象
  5. 离散时间耦合网络完全同步依据

各因子与完全同步的关系

最近邻耦合网络在N趋近∞时不可能达到同步,但通过加入少量的长程边将网络的平均路径明显缩短,它的同步化能力便会有明显提高。

对于小世界网络,当加边或重连概念不断变化时,会对应产生多个具有不同网络基本特性的小世界网络模型;随着概率的增加,网络变得更加非均匀,无论是新加入长程边(NW小世界)或是重新连接长程边(WS小世界),网络中度的最大值都会增加。

对于无标度网络,当幂律指数不断变化时,也会得到多个不同的无标度网络模型;随着幂律指数的增大网络度分布变得比较均匀,因此网络的平均路径就会增加,同时平均度变小。

单纯用度的大小、度分布或平均路径长度等指标都无法统一表征复杂网络的同步化能力。

想要提高网络的同步化能力应该降低节点的最大介数。

改进复杂网络同步的方法

  1. 无序扰动改进同步特性:通过小波变换来提高同步
  2. 通过时滞提高网络同步特性:在有明显时滞时,网络达到为稳定同步流形时所需要的耦合强度,要比无时滞网络达到同样的同步流形所需要的耦合强度小很多。
  3. 加权耦合提高网络同步特性:可用于耦合不对称,并且网络是有向、加权时参数对同步性能的影响。

相位同步

如果两个耦合节点的相位之间以一定的比率锁定,那么就称这两个节点达到相位同步。相位同步是一类同步化程度比较弱的同步现象,发生相位同步时,各节点的相位可能已经锁定,但幅值却会完全不同


复杂动态网络的控制

牵制控制利用无标度网络结构的非均匀行,有针对地对网络中的少数关键节点施加反馈控制,由此牵一发而动全身,从而能够将规模庞大的复杂动态网络稳定到平衡点,获得很高的控制效率。

规则网络时空混沌的牵制控制

可将时空混沌控制到周期轨道和非混沌状态,可控制达到混沌状态或强混沌状态。

应用

社团检测:潜在客户挖掘、关联群体风险分析等;

网络中心性分析:网页排名(PageRank),供应链核心企业识别,信息传播枢纽节点识别等;(PageRank无法解决悬空节点问题)

网络传播预测:流行病传播,金融风险传播,舆论传播;

网络关系渗透:节点之间的关系(三度影响);

关联交易分析及投融资黑洞:虚假交易,担保圈分析等。


描述节点间相互作用

各种模型

  1. 微分方程模型
  2. 神经网络
  3. 离散动力系统
  4. 线性时变系统,信号与系统

这些模型都具有预测能力

也可以用显式的网络结构来确定网络的局部和全局性质,或者忽略任何一种网络结构,用经典的数据挖掘和元素聚类来标识属性。

路网可达性

路网可达性是城市小区或路网节点相互之间居民出行或车辆行驶平均时间的倒数。表示交通难易程度的一项技术指标,计算值愈大,则可达性愈好。1959年,汉森首次提出了交通可达性的概念,这被定义为接受道路网络中节点之间相互作用的机会。


节点重要性

Freeman’s research[1979] 详见2014C—25318 P6

度中心性(degree)

度中心性(Degree Centrality)是在网络分析中刻画节点中心性(Centrality)的最直接度量指标。网络中与该节点直接相连的节点个数,一个节点的节点度越大就意味着这个节点的度中心性越高,该节点在网络中就越重要。

接近中心性(Closeness Centrality)

反映在网络中某一节点与其他节点之间的接近程度。某点到网络中其他点的距离总和。将一个节点到所有其他节点的最短路径距离的累加起来的倒数表示接近性中心性。即对于一个节点,它距离其他节点越近,那么它的接近性中心性越大

中介中心性/中间中心性(Between Centrality)  

主要描述某个节点在整个网络中的中心程度,说明整个网络的集中程度,即整个网络围绕某一结点或一组节点来运行的程度。以经过某个节点的最短路径数目来刻画节点重要性的指标。中介中心性指的是一个结点担任其它两个结点之间最短路的桥梁的次数。一个结点充当“中介”的次数越高,它的中介中心度就越大。如果要考虑标准化的问题,可以用一个结点承担最短路桥梁的次数除以所有的路径数量

特征向量中心性(Eigenvector Centrality)

一个节点的重要性既取决于其邻居节点的数量(即该节点的度),也取决于其邻居节点的重要性。

用中心度的时候最好都把这几种中心度进行说明,然后说明我们为什么选择这一种中心度

选择中心度的时候都说明了这几者的对比,表明了选择某一项的理由

信息流网络考虑重要性时需考虑度数大的点,“桥”的作用的点,非流网络考虑度数大的点


度的分布(常为幂律分布)

复杂网络模型总结_第1张图片

Newman提出的模块度具有两方面的意义:

  1. 模块度的提出成为了社区检测评价一种常用指标,它是度量网络社区划分优劣的量化指标;
  2. 模块度的提出极大地促进了各种优化算法应用于社区检测领域的发展。在模块度的基础之上,许多优化算法以模块度为优化的目标方程进行优化,从而使得目标函数达到最大时得到不错的社区划分结果。

当然,模块度的概念不是绝对合理的,它也有弊端,比如分辨率限制问题等,后期国内学者在模块度的基础上提出了模块度密度的概念,可以很好的解决模块度的弊端,这里就不详细介绍了。

  常用的社区检测方法主要有如下几种:

  1. 基于图分割的方法,如Kernighan-Lin算法,谱平分法等;
  2. 基于层次聚类的方法,如GN算法、Newman快速算法等;
  3. 基于模块度优化的方法,如贪婪算法、模拟退火算法、Memetic算法、PSO算法、进化多目标优化算法等。

复杂网络的性质分析

“小世界”网络在信息传递和处理的过程中具有相对高的局部效率和全局效率; 而无标度网络中节点的重要性具有极端的两极分化, 表明网络中存在超级重要的核心节点, 这些核心节点在维持整个网络的完整性和连通性中发挥着不可估量的作用。 这两大重要发现引发了复杂网络研究的热潮。 越来越多的研究表明来自不同领域的网络, 包括社会网络、经济网络、生物网络等都具有“小世界”性和无标度性。 这使得人们认识到, 真实网络既不同于规则网络, 也不同于随机网络, 而是介于规则网络和随机网络之间, 具有与两者不同的统计特征的复杂网络。

实际上小世界和 random network 的度分布相似,点与点之间的连接是随机的,所以都是钟形正态分布,但是小世界的点点之间路径最短。

无标度网络有巨集团和剩余度的涌现,也就是说巨集团基本代表网络的连接密度,少数的点有大量的连线,大多数点有少量或没有连线。无标度的度分布也引发了相关的对自组织临界和熵厥的讨论,是当今研究主要课题。

分析完是否是小世界/无标度之后,写出其性质。还有一些基本性质,比如有向无向,有权无权,有环无环


​​​​

衡量影响度

  1. 行为对网络的影响分为两类:自己对自己的影响和自己对别人的影响
  2. 影响分为广度和深度(2014C--25318),广度用度中心度来反映,深度用特征向量中心度来度量,这两个加上中介中心度可以反映对整张复杂网络的影响PageRank或者Hits Algorithm, 然而,它们都涉及矩阵乘法和重复迭代过程,这是不太有效的。 由于网络满足有向无环图(DAG)的特性,我们借鉴拓扑排序的思想来设计更有效的算法。 在该引文网络中,存在共同作者网络中不存在的传递关系。(2014C--27688
  3. 影响的传递可以与食物链中的能量转移进行类比,还可以找到模型的推广(2014C--27688

排名算法汇总

GOOGLE PageRank最为广泛使用

Hilltop 算法

ExpertRank

HITS

TrustRank

PageRank

可计算,特征向量中心性(Eigenvector Centrality):一个节点的重要性既取决于其邻居节点的数量(即该节点的度),也取决于其邻居节点的重要性。

PageRank无法解决出度为零的节点(悬空节点)的问题

传统的PageRank只适用于点有权值的图。对于加权边的图,可以根据边的权值制定一套规则转化为点的权值进行修正,然后PageRank可以适用于(可以参考2014C--25318

Hits Algorithm

HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。

HITS算法也有其明显的不足。首先是权威性的确定因为权威页面必须针对某一主题或关键词而言。例如某一页面对一确定主题具有较大权威性,但这并不意味在其他与其无关的主题方面同样具有权威性。其次是非正常目的的引用。

TrustRank

以前依靠链接和相关性来决定排名的方式,已遭到了各种各样作弊行为的挑衅,Spam的横行,直接导致了Google必须找到一种新的反作弊机制,以确保高质量的站点来获得搜索引擎的青睐。这种情况下SandboxTrustRank被提了出来。意图确保好的站点能获得更高的搜索表现,并加强对站点的审核。Google自己关于TrustRank的最初论述也提到了这些。

  1. 域名注册时间在五年或五年以上;
  2. 网站托管在专用服务器上;
  3. 网站加载时间快;
  4. 网站内容是原创的;
  5. 访客在每个网页的停留时间超过90秒;
  6. 网站被多个国际IP段引用;
  7. 网站在其所属行业中拥有权威性。

这些都是商业网站和博客所应有的素质,而不是那些利用垃圾内容和虚假入站链接赚些快钱的网站所具备的

你可能感兴趣的:(数学建模美赛,数学建模,美国大学生数学建模竞赛)