Google排名核心算法:PageRank

PageRank(PR)是由谷歌联合创始人Sergey Brin和 Larry Page共同发明的一种算法,它通过计算一个页面获得外链的数量及质量来判断页面的价值,目的在于提升搜索引擎的质量。可以说, 正是PageRank算法奠定了Google在搜索引擎领域江湖大佬的地位。

PageRank算法的计算公式

下面是Sergey Brin和 Larry Page当年对PR算法的解释(可直接跳过英文部分,直接看下面的中文解释):

We assume page A has pagesT1...Tn which point to it (i.e., are citations). The parameter d is a dampingfactor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows:

PR(A) = (1-d) + d (PR(T1)/C(T1) +... + PR(Tn)/C(Tn))

Note that the PageRanks form aprobability distribution over web pages, so the sum of all web pages' PageRanks will be one. 

原文地址:http://infolab.stanford.edu/~backrub/google.html

PR算法计算公式如下:

PR(A) = (1-d) + d (PR(T1)/C(T1) +... + PR(Tn)/C(Tn))

PR(A)是页面A的PR值, 初始值为1
d为基尼系数, 通常设置为0.85,作用是让PR值在传递过程被稀释
C(T1)是页面T1的链接输出数量;

为更好理解上公式含义, 我们举两个例子进行说明。

例子1: 有三个页面(A, B, C), 页面B, 页面C分别有一个链接到页面A, 根据以上公式, 页面A的PR值为:

PR(A) = (1 - d)  + d*(PR(B)/C(B) + PR(C)/C(C) ) 

PR(A) = (1 - 0.85)  + 0.85*(1/1 + 1/1 ) 

PR(A) = 1.85

例子2: 有三个页面(A, B, C), 页面B有3个外链输出且其中一个链向页面A; 页面C有2个外链输出且其中一个链向页面A, 根据以上公式, 页面A的PR值为:

PR(A) = (1 - d)  + d*(PR(B)/C(B) + PR(C)/C(C) ) 

PR(A) = (1 - 0.85)  + 0.85*(1/3 + 1/2 ) 

PR(A) ≈ 0.86

以上两个例子只是帮助更好理解PageRank算法的原理, 真实网络结构及实际算法要更加复杂,这里不做进一步研究。 

Google已于2016年停止显示PR值

PageRank在为谷歌赢得市场份额的同时, 也给他们带来了困扰:大量SEO人员为提升网站PR, 通过作弊形式疯狂制造垃圾外链, 严重影响排名质量。为了冷却SEO人员对PR的关注,  Google官方已于2016年4月15日停止显示网站的PR值。 

Google还用PageRank(PR)算法吗?

虽然Google不再显示一个页面的PR值,但我相信它依然是Google排名算法的核心之一。这也是我为什么要特意写这篇文章来介绍PageRank. 

Google要抛弃PageRank算法, 必须得找到一个质量更高的算法来替换, 而如果这样的算法出现, 谷歌必然会去申请专利; 如果申请了专利, SEO领域也会知道PageRank的替代算法, 但目前还没有这方面的消息。

PS: 其实Google内部人员也多次透露过他们依然在使用PageRank算法。 

算法已进行N次迭代

Google每年都在迭代他的算法,当然也包括PR算法。 

不过, 我相信PageRank算法的逻辑不变, 依然是通过计算(自然真实的)链接的数量及质量的方式判断一个页面的质量及重要性。

同时,他们会有更有效的算法来判断哪些链接是自然产生的, 哪些是作弊产生的, 以及这些链接的质量。 因此, 通过低级作弊方式获取的外链, 不会为网站加分, 倒及有可能让网站受处罚(降低排名或删除页面收录)。 

PR的替代工

虽然Google不再显示页面PR值, 不过SEO对这种数据的查询需求依然存在,因此市面出现了一些提供类似“PR”数据查询的工具, 比如Moz, Ahrefs等。 

以Moz为例,他们的工具可以查询一个页面的PA(Page Authority, 类似于PR值,下面改用PA代表PR)值及对应域名的DA(Domain Authority)值。 据说他们是根据收集到实际排名数据(10亿条以上),结合抓取到的页面数据, 通过机器学习推测出Goolge的算法, 从而计算一个页面的PA。 

由于Google的实际算法非常复杂,相信Moz的算法跟Google的真实算法还是有很大的差距,不过第3方公司能做到最好的应该也就这样了吧。

一个外链数为0的页面,只靠网站本身的域名权重,可获得多高PA值?(域名权重主要根据整个网站获得的外链数量及质量计算得出)

要想得到结论,当然得有数据支持。由于Google不再提供类似的数据查询,因此数据收集只能依赖第3方工具。这里我还是通过Moz工具收集数据。

通过该工具,我随机收集到136个外链数为0的页面,并记录下这些页面对应的PA及DA, 数据整理如下:

回答问题(一个外链数为0的页面,只靠网站本身的域名权重DA,可获得多高PA值?)前, 得先回答另一个问题:页面的PA跟DA有关吗? 从上面表格的数据我们可以发现,在没有任何外链的情况下,页面的PA与DA成正相关,DA越高,PA越大。

为了更直观的理解这种关系,我把这两种数据用散点图画出来,如下:

我们可以确定DA对PA是有关系的。它们之间具体是什么关系呢?

从上图可看出,它们之间大体上是一种线性关系。通过回归分析,我找到它们之间的计算公式如下:

PA = 5 + 0.4 * DA 

通过这个公式验证实际数据,DA在8 - 75分之间的时候,PA的误差在3分以内,适用于绝大部分网站。

如果Moz提供的数据确实能反应Google真实排名的话,那对于低权重的网站确实非常不利。不过我自己的理解是,即使高权重的域名会传递给高PR值给页面,想要让这些PR值生效,页面本身得是高质量的,内容本身得满足用户需求。

对我们的3个指导

1. 网站本身有丰富的内部链接,页面之间相互支持,这样在获得外链时可以传递给其他页面,输出外链时也不会流失过多“PR”值;

2. 用正确手法坚持外链建设,多思考哪些方式容易获得外链,然后去实践;

3. 持续产出高质量内容;

你可能感兴趣的:(Google排名核心算法:PageRank)