浅记《网络科学导论》知识点

教材《网络科学导论》 汪小帆 李翔 陈关荣

学习目标

  • 了解社交网络与复杂网络的基本概念
  • 了解可以使用的复杂网络分析来做什么
  • 了解基本度量方法—评价体系
  • 使用Gephi等工具获得动态网络分析的经验
  • 核心算法的思想

专题

  • 理论模型“小世界”,“优先连接”,SIR传播模型等
  • 复杂网络(社交网络)建模
  • 网络拓扑结构与特征
  • 中心性(度量结点重要性程度)
  • 社团(度量聚焦性)
  • 相似性
  • 推荐系统

1. 复杂网络的基本概念(网络,节点,边)

将一个复杂的分析目标的整体分解成很多要素,并将这些要素之间的关系用线连接起来。
这些要素就相当于节点,
线就相当于边,
结点和边组合在一起叫网,也就是复杂网路。

2. 结点重要性度量方法(中心性)

  • 度中心性(邻居多):一个节点的度越大就意味着这个节点越重要。
    1.一个包含N个节点的网络中,节点的最大度值为N-1,那么就可以看节点 v i v_i vi的度值 k i k_i ki在总度值中的比例(归一化)。
    度中心性就是 C D ( v i ) = k i N − 1 C_D(v_i)=\frac{k_i}{N-1} CD(vi)=N1ki
    2.特征:具有最多连接的节点。具有局部特征。

  • 介数中心性(被当成中介,被经过多):以经过某个节点的最短路径的数目来刻画节点重要性的指标。
    1.设节点 v i v_i vi介数 B i B_i Bi,它代表着所有最短路径中,路径包含节点 v i v_i vi所占的比例, B i = ∑ s ≠ t ≠ i σ s t ( v ) σ s t B_i=\sum_{s\neq t\neq i} \frac{\sigma_{st}(v)}{\sigma_{st}} Bi=s=t=iσstσst(v)
    介数中心性就是归一化的介数(把所有介数拉到同一水平比较): C B ( v i ) = B i − m i n ( B ) m a x ( B ) − m i n ( B ) C_B(v_i)=\frac{B_i-min(B)}{max(B)-min(B)} CB(vi)=max(B)min(B)Bimin(B)(值在0-1之间)
    2.特征:桥梁枢纽作用,节点在最佳路径上,两头网络很多。具有全局特征。

  • 紧密度中心性:是衡量节点在网络中居于中心的程度。(距离越小越好,但为了方便使用数字大小表示好坏,就取倒数)
    1.计算节点到其他所有节点之间最短路径长度之和的倒数。即: C C ( v i ) = 1 ∑ j = 1 , j ≠ i N d i j C_C(v_i)=\frac{1}{\sum_{j=1,j\neq i}^Nd_{ij}} CC(vi)=j=1,j=iNdij1
    2.特征:最接近所有其他节点的节点。网络中心。

  • 特征向量中心性:和重要节点相连的节点很重要,和不重要节点相连的节点不重要,表示这个节点的传播能力。
    1.对于节点 v i v_i vi(补充),令它的中心性分值 x i x_i xi正比于连到它的所有节点的中心性分值的总和。最后可以写成特征向量的形式,所有称为特征向量中心性。

  • 平均路径长度:网络节点沿着最短路径到所有其他节点的平均步数。(越小越快,损耗越小,真实世界的平均路径就很短)

  • 聚集系数:图中节点倾向于聚集在一起的程度的度量(紧密程度)

  • k壳中心性:
    凡是度值小于等于i的节点都删掉,
    先删孤立点,也就是孤立点。
    再删度值为1的节点,检查一下,这时候的网络是否还有度值为1的节点,继续删,再检查,再删,直至没有度值为1的节点。
    再删度值为2的节点,检查一下,继续删除新出现的度值为2的节点,直至没有度值为2的节点
    ……
    这是一种粗粒化的节点重要性分方法。

  • HITS中心性(点击数):衡量互联网网页的重要程度。权威值(特定网页)由枢纽值(类似于hao123)决定,枢纽值由权威值确定。


3. 节点的聚集(社团),边的权值

定义:内部连接的相对紧密,外部连接的相对稀疏的结构,叫社团结构

  • 社团结构是指网络中节点组的出现,这些节点组内的连接比网络的其他部分的连接更为密集。
    属性:社团划分的是顶点。随机网络不显示社团结构。社团结构在实际网络中相当普遍。
    重要性:
    社团可以揭示各种系统的功能。
    社团可以识别网络的子结构,了解网络功能和拓扑之间的相互影响。
    社团的存在影响各种过程,如谣言传播,流行病传播。
    社团检测可以预测缺失连接和识别网络中的虚假连接
  • 子团,相当于图的块数。
    孤立节点,没有边相连。
    连通子团,有边相连。
    最大连通子团,节点数量最多的连通子团。
  • 社团发现的分类与算法思想
    社团发现是为了划分网络。
    1.最小切割方法:通过把网络划分为固定数量的子团。不适合发现社团结构。
    2.分层聚类:先定义一个相似度度量,量化节点对之间的相似性,然后根据相似性的大小把节点聚集在一起。比如:先把相似性为1的节点合并在一起(分了一层),在把相似性大于0.9的节点合并在一起(又分了一层),……这就是分层聚类。
    3.Girvan-Newman算法:假设整个网络已经被划分,.Girvan-Newman算法就标识社团之间介数高的边(节点通过边较高的边)最后将其删除,只留下社团本身。
    4.模块化最大化:
    设网络中社团里的边数是m,邻接矩阵是 A i j A_ij Aij, k i , k j k_i,k_j ki,kj是i,j的度值,如果i,j在一个社团里, σ ( C i , C j ) \sigma(C_i,C_j) σ(Ci,Cj)=1,若不在, σ ( C i , C j ) \sigma(C_i,C_j) σ(Ci,Cj)=0.网络的模块化程度用Q表示,Q越大模块化的程度越好:
    Q = 1 2 m ∗ ∑ i j [ A i j − k i ∗ k j 2 m ] σ ( C i , C j ) Q =\frac{1}{2m}*\sum_{ij}[A_{ij}-\frac{k_i*k_j}{2m}]\sigma(C_i,C_j) Q=2m1ij[Aij2mkikj]σ(Ci,Cj)
    首先我们知道,若节点ij不在一个社团里面,Q就是0了,现在我们分析ij在一个社团里面的情况,
    A i j A_{ij} Aij是所有边在一个社团里面的权值和,减去 k i ∗ k j 2 m \frac{k_i*k_j}{2m} 2mkikj(假设ij就一条边相连,那么m=1, A i j = 2 , A_{ij}=2, Aij=2, k i ∗ k j 2 m = 1 2 \frac{k_i*k_j}{2m}=\frac{1}{2} 2mkikj=21)我们看到这个公式,得知, A i j A_{ij} Aij社团内部边越多,Q值越大,越好。 k i ∗ k j k_i*k_j kikjij度值越小Q值越大越好。
  • 最优化问题
    原因:计算机不能把所有问题在有限的时间内解出来,我们需要某种方法寻找这个问题最优解的近似解。
    工程设计中最优化问题:选择一组参数(变量)在满足一系列有关的限制条件下,是设计目标达到最优值。因此最优化问题通常可以表示为数学规划形式的问题。

4. 社交网络的作用

分析官方或非官方的网络的聚集性,可以更好的管理公司或者其他社会关系。
设计适应性高的团队。
评估新结构并评估缩小规模等变化
估算组织设计和隐蔽网络的规模(毒品,恐怖分子)
网络管理/有效性分析
预防和分析风险(病毒传播)

5. ER随机模型

构造算法:
假设图G,有N个节点,既然叫随机模型,就表示边连接时是随机的,概率为p
现在我们就要随机给两个没有连边的节点的分配连边了,
生成一个在(0,1)之间的随机数r,若rp,则不连。

  • 用G(N,P)表示这样的模型
  • p=0,代表任意俩节点不想连,就是孤立的N个节点。
  • p=1,代表N个节点任意俩都有边,也就是全耦合网络。
  • p=(0,1)之间,代表这幅图两两相连或不相连是随机的,那么此时图中N个节点,有M条边的概率为:有边的概率 p M p^M pM,无边就是 ( 1 − p ) ( 2 N ) − M (1-p)^{(_2^N)-M} (1p)(2N)M,两者相乘,就是这幅图的连边概率p(M)= p M ( 1 − p ) ( 2 N ) − M p^M(1-p)^{(_2^N)-M} pM(1p)(2N)M
  • 给定图中,一个节点有k条边与它相连(节点度的分布)的概率为:p(k)= p k ( 1 − p ) N − 1 − k p^k(1-p)^{N-1-k} pk(1p)N1k
    特点(平均路径长度小,聚集系数小,学完第6点在回来看这个特点。度的分布近似于泊松分布,学完第7点在回来看这个特点。)

6. WS小世界模型

有一个完全规则的网络(所有节点按照规律连),还有一个完全随机网络。
什么是小世界模型呢?(构造算法)
1.给定一个含有N个节点的环状最近邻耦合网络,其中每个节点都与它左右相邻的各K/2个节点相连,K是偶数。(完全规则的网络)
2.随机化重连:以概率p随机地重新连接网络中原有的每条边,即每条边的一个端点保持不变,另一个端点随机选择一个节点重连(默认不重边,不不自环)
我们了解,小世界模型是介于完全规则模型和完全随机模型之间的一种模型。
小世界模型有两个特点:低平均路径长度、高聚类系数。

  • 平均路径长度(平均最短路径长度):网络节点沿着最短路径到所有其他节点的平均步数。(越小越快,损耗越小,真实世界的平均路径就很短)
    这里注意和网络直径区分开,网络直径是指,任意两个存在有限距离的节点(也称连通的节点对)之间的距离的最大值

    • 若有N个节点,则共有 1 2 N ( N − 1 ) \frac1 2N(N-1) 21N(N1)条边,所有边的距离和是 ∑ i ⩾ j d i j \sum_{i \geqslant j} d_{ij} ijdij
    • 那么平均路径长度就是L= 1 1 2 N ( N − 1 ) ∑ i ⩾ j d i j \frac{1}{\frac1 2N(N-1)}\sum_{i \geqslant j} d_{ij} 21N(N1)1ijdij
  • 聚集系数(聚类系数):图中节点倾向于聚集在一起的程度的度量(紧密程度)

    • 求一个节点的聚集系数,我们首先找到这个节点的所有邻居,这完成了第一步的聚集,找到之后,看看邻居之间是否有边(这句话特别重要,如果邻居有边,那么这两个邻居和节点一定是组成三角形的,如果没有边,一定是个V字形,不是三角形,后面计算的时候可以用这个特征计算)
    • 求出节点i的所有邻居个数n,计算邻居之间可能形成边的总数 n ( n − 1 ) 2 \frac{n(n-1)}{2} 2n(n1)
    • 计算节点i的邻居之间真正的边数 n 1 n_1 n1
    • 那么节点i的聚集系数就是 C i = n 1 n ( n − 1 ) 2 = 2 n 1 n ( n − 1 ) C_i=\frac {n_1} {\frac{n(n-1)}{2}}=\frac{2n_1}{{n(n-1)}} Ci=2n(n1)n1=n(n1)2n1
    • 整个网络的聚集系数就是 C = 1 N ∑ i = 1 N C i C=\frac{1}{N}\sum_{i=1}^{N}C_i C=N1i=1NCi
    • 特点:一个节点的度值越大,那么聚集系数的分母也会越大,聚集系数就会越小。

    WS小世界模型的最大特点就是:当重连概率p较小时,网络即具有较短的平均路径长度又具有较高的高聚集系数

7. BA无标度网络模型

实际网络特性:
增长特性(网络规模的增加)----前面讲了ER随机模型和WS小世界模型,我们讨论的时候都是假设他们的节点个数是固定为N的,也就是网络规模几乎不变,但在真实场景下,网络的规模肯定是越来越大的,比如互联网页面的增加,科研文章的增加。
优先连接特性(马太效应,富者更富)—如果出现了新节点,那么这个新节点更倾向于与那些具有较高连接度的节点相连接。比如新论文更倾向于引用那些已经被广泛引用过的文献,新的网络连接更倾向于指向有巨大影响力的连接。

  • 度和度值分布:度就是与节点i连接的边数,节点i的度用 k i k_i ki表示,网络中会出现不同的度值,我们整体看的时候就会关注节点的度在网络中的分布情况,这种情况用分布函数 P ( k ) P(k) P(k)描述, P ( k ) P(k) P(k)有两种通俗的理解方式,一种是: P ( k ) P(k) P(k)表示网络中度为k的节点在整个网络中所占的比例,另一种是:在网络中随机抽取到度为k的节点的概率为 P ( k ) P(k) P(k)
  • 度的幂律分布:在某些网络中,度的分布满足一种形式 P ( k ) = C k − γ P(k)=Ck^{-\gamma} P(k)=Ckγ这种形式叫幂律分布,因为这种函数是以幂指数的形式下降的,而且下降的速度很快。整体的意思是,随着网络中度数的增大,其个数是减小的。在图上就会如下图显示:
    浅记《网络科学导论》知识点_第1张图片
    这种也叫长尾分布(长尾效应),中间的黑点是节点,黑点的线是度,显示了度数和度的个数大概的分布情况。
    因为这幅图是没有峰谷的,是一种平滑的曲线,也就是没有标度的,所有,有有这种现象存在的BA模型叫,BA无标度模型。
    那怎么得到BA无标度模型呢?(构造算法)
  • 增长:刚开始时什么也没有,我们开始引入两个点和一条边,再添加一个节点时,我们怎么选择和谁相连呢?
  • 优先连接:这个新节点与一个已经存在的节点i相连接的概率 Π i \Pi_i Πi与度 k i k_i ki的关系为: Π i = k i ∑ j k j \Pi_i=\frac{k_i}{\sum_jk_j} Πi=jkjki。分母是所有节点度值的总和,分子是节点i已有的度。如果节点i本身就有很多度(很多人与之相连),那么它的概率就大,被连的概率就大。这就是富者更富或马太效应的原因。

8.基本测度

有向图、无向图
边的强度或权重
连接矩阵
路径
距离
度值、出度、入度、汇点(都指出去)、源点(都指过来)
多重图(关系有很多种,朋友关系,师生关系)

9.复杂网络的表达方式

矩阵
三元组
邻接表

10.社交网络建模的主要问题

(分析人的社交 )关注点:
向谁连接
属于那个组、社团
掌握的知识
控制的资源
参加的活动

11.网络分析的三个级别及内容

网络的密度
边的频率(吸毒人员轨迹)
中心性

12.网络分析的两个层次和常见的网络指标(测度)

层次:
个人行为
个人地位

测度:
规模(大小):网络节点的数量
密度:实际连接数m与所有可能存在的连接数 n ( n − 1 ) 2 \frac{n(n-1)}{2} 2n(n1)之比。即 m n ( n − 1 ) 2 \frac{m}{\frac{n(n-1)}{2}} 2n(n1)m。网络规模与密度是负相关的(-0.69)
互惠性(有向网络):A->B,B->A叫互惠性(个体之间的紧密程度)。描述对称性的。 R = ( A i j = 1 ) & ( A j i = 1 ) ( A i j = 1 ) o r ( A j i = 1 ) R=\frac {(A_{ij}=1)\&(A_{ji}=1)}{(A_{ij}=1)or(A_{ji}=1)} R=(Aij=1)or(Aji=1)(Aij=1)&(Aji=1)
路径长度:一个点到另一个点经过的边数
平均路径长度:所有路径长度和求平均。
网络直径:网络中最短路径的最大值

13.数据挖掘、机器学习、统计的区别和联系

数据挖掘:计算机使用一定的手段用当前已知的量,预测未来有用的量。处理的数据量很大。
关联规则发现
顺序模式发现
回归
异常检测
机器学习:训练数据,然后使机器具有一定的功能来解决能够解决的问题。
统计:使用统计学分析数据之间的关系。
复杂网络是一种模型手段,可以用来网络分析。

14.推荐系统

1.概念:因为搜索引擎时代不足以满足需要求,人类进入推荐时代。把用户喜欢的推荐给用户,把不喜欢的过滤掉。
2.结构:物品数据、用户数据、用户对部分物品的偏好信息、设计一种模型可以判断用户对未知事物的喜好。
3.二部图模型
把用户用节点表示放在上面,把物品用节点表示放在下面,(两层)把用户对物品的评价相连。
4.推荐系统各种推荐算法

你可能感兴趣的:(杂谈)