机器学习----PageRank算法

  • 一、原理
  • 二、各类问题
      • 2.1、终止问题
      • 2.2、陷阱问题
  • 三、改进
      • 4.1、解决终止点问题和陷阱问题
      • 4.2、图示
  • 五。优缺点

一、原理

PageRank(网页级别)用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。
1,如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是PageRank值会相对较高
2,如果一个PageRank值很高的网页链接到一个其他的网页,那么被链接到的网页PageRank值也会相应提高。
机器学习----PageRank算法_第1张图片
In:
                         每个球代表一个网页;球的大小反应了网页的pagerank值的大小;
Out:
                         指向网页B和网页E的链接很多,所以B和E的pagerank值较高;虽然很少有网页指向C,但是最重要的网页B指向了C,所以C的pagerank值比E还要大。

机器学习----PageRank算法_第2张图片
机器学习----PageRank算法_第3张图片
                         矩阵M中M[i][j]不为0表示用一个链接从j指向i,M的第一行乘以V0,表示累加所有网页到网页A的概率即得到9/24。得到了V1后,再用 V1去右乘M得到V2,一直下去,最终V会收敛,即Vn=MV(n-1),上面的图示例,不断的迭代,最终V=[3/9,2/9,2/9,2/9]

二、各类问题

2.1、终止问题

要满足收敛性,需要具备一个条件:
图是强连通的,即从任意网页可以到达其他任意网页

                         互联网上的网页不满足强连通的特性,因为有一些网页不指向任何网页,如果按照上面的计算,上网者到达这样的网页后便走投无路、四顾茫然,导致前面累 计得到的转移概率被清零,这样下去,最终的得到的概率分布向量所有元素几乎都为0
机器学习----PageRank算法_第4张图片
机器学习----PageRank算法_第5张图片

2.2、陷阱问题

                         上网者跑到C网页后,就像跳进了陷阱,陷入了漩涡,再也不能从C中出来,将最终导致概率分布值全部转移到C上来,这使得其他网页的概率分布值为0,从而整个网页排名就失去了意义。机器学习----PageRank算法_第6张图片

三、改进

4.1、解决终止点问题和陷阱问题

地址栏输入而跳转到各个网页的概率是1/n;
上网者每一步查看当前网页的概率为a,那么从浏览器地址栏跳转的概率为(1-a);
[注]采用矩阵相乘,不断迭代,直到迭代前后概率分布向量的值变化不大,一般迭代到30次以上就收敛了,取e为所有分量都为 1 /n的列向量。真的web结构的转移矩阵非常大,目前的网页数量已经超过100亿,转移矩阵是100亿*100亿的矩阵,直接按矩阵乘法的计算方法不可行,需要借助Map-Reduce的计算方式来解决。
机器学习----PageRank算法_第7张图片

                   考虑转移矩阵是一个很多的稀疏矩阵,我们可以用稀疏矩阵的形式表示,我们把web图中的每一个网页及其链出的网页作为一行,web图结构用如下方式表示:
机器学习----PageRank算法_第8张图片
机器学习----PageRank算法_第9张图片

4.2、图示

机器学习----PageRank算法_第10张图片

PR(A)=α(PR(B)/2)+(1−α)/4
在一般情况下,一个网页的PR值计算如下:
                                                                   机器学习----PageRank算法_第11张图片
机器学习----PageRank算法_第12张图片
其中Mpi
                   是所有对pi网页有出链的网页集合,L(pj)是网页pj的出链数目,N是网页总数,α一般取0.85。
                   根据上面的公式,我们可以计算每个网页的PR值,在不断迭代趋于平稳的时候,即为最终结果。具体怎样算是趋于平稳,我们在下面的PR值计算方法部分再做解释。

五。优缺点

PageRank算法的缺点
这是一个天才的算法,原理简单但效果惊人。然而,PageRank算法还是有一些弊端。
● 第一,没有区分站内导航链接。很多网站的首页都有很多对站内其他页面的链接,称为站内导航链接。这些链接与不同网站之间的链接相比,肯定是后者更能体现PageRank值的传递关系。
● 第二,没有过滤广告链接和功能链接(例如常见的“分享到微博”)。这些链接通常没有什么实际价值,前者链接到广告页面,后者常常链接到某个社交网站首页。
● 第三,对新网页不友好。一个新网页的一般入链相对较少,即使它的内容的质量很高,要成为一个高PR值的页面仍需要很长时间的推广。

针对PageRank算法的缺点,有人提出了TrustRank算法。
● TrustRank算法的工作原理:先人工去识别高质量的页面(即“种子”页面),那么由“种子”页面指向的页面也可能是高质量页面,即其TR值也高,与“种子”页面的链接越远,页面的TR值越低。“种子”页面可选出链数较多的网页,也可选PR值较高的网站。
● TrustRank算法给出每个网页的TR值。将PR值与TR值结合起来,可以更准确地判断网页的重要性。

你可能感兴趣的:(机器学习)