cs224w:slide11---PageRank(上)

一、Web

问:从全球范围来看,网络是什么样子?

网络可以表示成一个有向图,

  • Node:网页(Web Page)
  • Edge :超链接(hyperlink)

cs224w:slide11---PageRank(上)_第1张图片
给定节点 v v v,它能够到达哪些节点?又有哪些节点能够到达 v v v

I n ( v ) = { w ∣ w 能 够 到 达 v } In(v)=\{ w|w 能够到达 v\} In(v)={wwv}

O u t ( v ) = { w ∣ v 能 够 到 达 w } Out(v)=\{ w|v 能够到达 w\} Out(v)={wvw}

cs224w:slide11---PageRank(上)_第2张图片
在这里插入图片描述
两种类型的有向图:

  1. 强连接的(strong connected):任何一个顶点都能够沿着一条有向路径到达另一个节点。
  2. 有向非循环图(directed acyclic graph):节点 u 能到达节点 v ,但是节点 v 却不能到达节点 u;

二、知识回顾

1. 连通图与强连通图:

在无向图G中,若任意两个不同的顶点 v i v_i vi v j v_j vj 都连通(即有路径),则称G为连通图(Connected Graph).

在有向图G中,如果两个顶点 v i v_i vi v j v_j vj 间有一条从 v i v_i vi v j v_j vj 的有向路径,同时还有一条从 v j v_j vj v i v_i vi 的有向路径,则称两个顶点强连通(strongly connected)。如果有向图G的每两个顶点都强连通,称G是一个强连通图

总结,如果图中任意两点都是连通的,那么图被称作连通图。如果此图是有向图,则称为强连通图(注意:需要双向都有路径)。图的连通性是图的基本性质。

2. 连通分量

连通分量:无向图 G的一个极大连通子图称为 G的一个连通分量(或连通分支)。连通图只有一个连通分量,即其自身;非连通的无向图有多个连通分量。

强连通分量(Strongly Connected Component ,SCC):有向图 G=(V,E) 中,若对于V中任意两个不同的顶点 x和 y,都存在从x到 y以及从 y到 x的路径,则称 G是强连通图。相应地有强连通分量的概念。强连通图只有一个强连通分量,即是其自身;非强连通的有向图有多个强连分量。
cs224w:slide11---PageRank(上)_第3张图片

因为Web是有向图,所以这节我们考虑的都是强连通分量。

三、怎样求图的强连通分量?

强连通图只有一个强连通分量,即是其自身;非强连通的有向图有多个强连分量。所以,对于一个普通的有向图而言,怎样寻找它的强连通分量?

举个例子:
如下图,我们可以发现:5 -> 2 -> 3 -> 4 -> 5为一个连通子图,但是它还可以更大到1 -> 2 -> 3 -> 4 -> 5 -> 1,所以这才是一个强连通分量,因为这个子图的范围已经不能更大了。
cs224w:slide11---PageRank(上)_第4张图片
强连通分量: S C C = o u t ( A ) ∩ i n ( A ) SCC=out(A)\cap in(A) SCC=out(A)in(A)
cs224w:slide11---PageRank(上)_第5张图片

四、并非所有网页都同样“重要”

每一个网页都是一个节点,并非所有网页都同样“重要”。

有没有一种算法,能够给出网页重要性的排序呢?这样就可以优先推荐重要网页,而让那些垃圾网页石沉大海了。

引用其他节点就是获益;反过来,被他人引用就是在传播福报。网络中哪个节点是传播力最强,也就是最重要的呢?
cs224w:slide11---PageRank(上)_第6张图片

我们将介绍以下用于计算图中节点重要性的链接分析方法:

  1. PageRank
  2. Personalized PageRank
  3. Random Walk with Restarts

你可能感兴趣的:(图机器学习)