随机游走模型(Random Surfer Model)

《这就是搜索引擎:核心技术详解》第6章链接分析,本章主要介绍一些著名的链接分析方法。本节为大家介绍随机游走模型(Random Surfer Model)。

互联网用户在上网时,往往有类似的网络行为:输入网址,浏览页面,然后顺着页面的链接不断打开新的网页。随机游走模型就是针对浏览网页的用户行为建立的抽象概念模型。之所以要建立这个抽象概念模型,是因为包括PageRank 算法在内的很多链接分析算法都是建立在随机游走模型基础上的。

图6-4 给出了随机游走模型的示意图。在最初阶段,用户打开浏览器浏览第1 个网页,假设我们有一个虚拟时钟用来计时,此时可以设定时间为1,用户在看完网页后,对网页内某个链接指向的页面感兴趣,于是点击该链接,进入第2 个页面,此时虚拟时钟再次计时,时钟走向字2,如果网页包含了k 个出链,则用户从当前页面跳转到任意一个链接所指向页面的概率是相等的。用户不断重复以上过程,在相互有链接指向的页面之间跳转。如果对于某个页面所包含的所有链接,用户都没有兴趣继续浏览,则可能会在浏览器中输入另外一个网址,直接到达该网页,这个行为称为远程跳转(Teleporting)。假设互联网中共有m 个页面,则用户远程跳转到任意一个页面的概率也是相等的,即为1/m。随机游走模型就是一个对直接跳转和远程跳转两种用户浏览行为进行抽象的概念模型。

随机游走模型(Random Surfer Model)_第1张图片 
(点击查看大图)图6-4 随机游走模型示意图

下面我们给出一个具体的随机游走模型的例子,为简单起见,该例子并未引入远程跳转行为。

在如图6-5 所示的例子里,假设互联网由A、B、C 3 个网页构成,其相互链接关系如图中页面节点之间的有向边所示。根据链接关系,即可计算页面节点之间的转移概率,比如对于节点A 来说,只有唯一一个出链指向节点B,所以从节点A 跳转到节点B 的概率为1,对于节点C 来说,其对节点A 和B 都有链接指向,所以转向任意一个其他节点的概率为1/2。

随机游走模型(Random Surfer Model)_第2张图片 
(点击查看大图)图6-5 随机游走模型示例

假设在时刻1,用户浏览页面A,之后经由链接进入页面B,然后进入页面C,此时面临两种可能选择,跳转进入页面A 或者页面B 皆可,两者概率相同,都为1/2。

假设例子中的互联网包含不止3 个页面,而是由10 个页面构成,此时用户既不想跳回页面A,也不想跳回页面B,则可以按照1/10 的概率跳入其他任意一个页面,即进行远程跳转。

转载:随机游走模型

你可能感兴趣的:(机器学习)