PageRank算法

知道PageRank算法,其实是先知道TextRank算法,发现其是由PageRank算法演变而来,之前了解过,现在又回顾记忆一下。

PageRank概述

佩奇排名(PageRank),又称网页排名、谷歌左侧排名、PR,是Google公司所使用的对其搜索引擎搜索结果中的网页进行排名的一种算法。 佩奇排名本质上是一种以网页之间的超链接个数和质量作为主要因素粗略地分析网页的重要性的算法。目前很多重要的链接分析算法都是在PageRank算法基础上衍生出来的。PageRank是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。其级别从0到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。一般PR值达到4,就算是一个不错的网站了。Google把自己的网站的PR值定到10,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。

PageRank核心思想

- 如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高
- 如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页的PageRank值会相应地因此而提高

这两个思想其实也是假设,一个是数量假设,一个是质量假设。利用以上两个假设,PageRank算法刚开始赋予每个网页相同的重要性得分,通过迭代递归计算来更新每个页面节点的PageRank得分,直到得分稳定为止。 PageRank计算得出的结果是网页的重要性评价,这和用户输入的查询是没有任何关系的,即算法是主题无关的。

PageRank公式

公式:
在这里插入图片描述
经过多次迭代就可以获得每个网页对应的权重。
下面解释公式每个元素的含义:

  • S(V_i) : 网页V_i的重要度(权重),初始值可设为1。
  • d : 阻尼系数,一般为0.85。其意义是在任意时刻,用户到达某页面后并继续向后浏览的概率
  • In(V_i):能跳转到网页V_i的页面,在图中对应入链对应的点。
  • Out(V_j):网页V_j能够跳转到的页面,在图中对应出链的点。

假设一个由4个网页组成的群体:A,B,C和D。如果所有页面都只链接至A,那么A的PR(PageRank)值将是B,C及D的Pagerank总和。
PageRank算法_第1张图片
重新假设B链接到A和C,C只链接到A,并且D链接到全部其他的3个页面。一个页面总共只有一票。所以B给A和C每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。
PageRank算法_第2张图片

例子

PageRank算法_第3张图片

  1. 页面A的PR值计算如下:
    640?wx_fmt=png

  2. 页面B的PR值计算如下:

640?wx_fmt=png

  1. 页面C的PR值计算如下:

640?wx_fmt=png

下面是迭代计算12轮之后,各个页面的PR值:

PageRank算法_第4张图片
一般要设置收敛条件:比如上次迭代结果与本次迭代结果小于某个误差,我们结束程序运行;比如还可以设置最大循环次数。

参考:https://blog.csdn.net/leadai/article/details/81230557

你可能感兴趣的:(NLP)