数据挖掘十大经典算法(6) PageRank

 PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。
   Google 的 PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票, 被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自 学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。
  Google有一套自动化方法来计算这些投票。Google的PageRank分值从0到 10;PageRank为10表示最佳,但非常少见,类似里氏震级(Richter scale),PageRank级别也不是线性的,而是按照一种指数刻度。这是一种奇特的数学术语,意思是PageRank4不是比PageRank3好 一级——而可能会好6到7倍。因此,一个PageRank5的网页和PageRank8的网页之间的差距会比你可能认为的要大的多。
  PageRank较高的页面的排名往往要比PageRank较低的页面高,而这导致了人们对链 接的着魔。在整个SEO社区,人们忙于争夺、交换甚至销售链接,它是过去几年来人们关注的焦点,以至于Google修改了他的系统,并开始放弃某些类型的 链接。比如,被人们广泛接受的一条规定,来自缺乏内容的“link farm”(链接工厂)网站的链接将不会提供页面的PageRank,从PageRank较高的页面得到链接但是内容不相关(比如说某个流行的漫画书网站 链接到一个叉车规范页面),也不会提供页面的PageRank。Google选择降低了PageRank对更新频率,以便不鼓励人们不断的对其进行监测。
  Google PageRank一般一年更新四次,所以刚上线的新网站不可能获得PR值。你的网站很可能在相当长的时间里面看不到PR值的变化,特别是一些新的网站。PR值暂时没有,这不是什么不好的事情,耐心等待就好了。
  为您的网站获取外部链接是一件好事,但是无视其他SEO领域的工作而进行急迫的链接建设就是浪费时间,要时刻保持一个整体思路并记住以下几点:
  ·Google的排名算法并不是完全基于外部链接的
  ·高PageRank并不能保证Google高排名
  ·PageRank值更新的比较慢,今天看到的PageRank值可能是三个月前的值
  因此我们不鼓励刻意的去追求PageRank,因为决定排名的因素可以有上百种。尽管如 此,PageRank还是一个用来了解Google对您的网站页面如何评价的相当好的指示,建议网站设计者要充分认识PageRank在Google判断 网站质量中的重要作用,从设计前的考虑到后期网站更新都要给予PageRank足够的分析,很好的利用。我们要将PageRank看作是一种业余爱好而不 是一种信仰。
  ---------------------------------------------------------------------------------------------------------------------
  通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank 能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。
  此外,PageRank 还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。重要网页获得的 PageRank(网页排名)较高,从而显示在搜索结果的顶部。Google 技术使用网上反馈的综合信息来确定某个网页的重要性。搜索结果没有人工干预或操纵,这也是为什么 Google 会成为一个广受用户信赖、不受付费排名影响且公正客观的信息来源。
  ---------------
  其实简单说就是民主表决。打个比方,假如我们要找李开复博士,有一百个人举手说自己是李开复。那么谁是真的呢?也许有好几个真的,但即使如此谁又是大家真正想找的呢?:-) 如果大家都说在 Google 公司的那个是真的,那么他就是真的。
  在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就 高。这就是 Page Rank 的核心思想。 当然 Google 的 Page Rank 算法实际上要复杂得多。比如说,对来自不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。Page Rank 考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到网页本身的排名,这不成了先有鸡还是先有蛋的问题了吗?
  Google 的两个创始人拉里·佩奇 (Larry Page )和谢尔盖·布林 (Sergey Brin) 把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一 次迭代排名,然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真 实值。值得一提的事,这种算法是完全没有任何人工干预的。
  理论问题解决了,又遇到实际问题。因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论 上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵 就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。今 天 Google 的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多。
  我来 Google 后,拉里 (Larry) 在和我们几个新员工座谈时,讲起他当年和谢尔盖(Sergey) 是怎么想到网页排名算法的。他说:"当时我们觉得整个互联网就像一张大的图 (Graph),每个网站就像一个节点,而每个网页的链接就像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以用这个发现做个博士论文。" 他和谢尔盖就这样发明了 Page Rank 的算法。
  网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下,以前的信息检索大多把每一个网页当作独立的个体对待,很多人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。 
  今天,Google 搜索引擎比最初复杂、完善了许多。但是网页排名在 Google 所有算法中依然是至关重要的。在学术界, 这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程 (Information Retrieval) 的教程。 
  如何提高你网页的 PR 值?
  什么是PR值呢? PR值全称为PageRank,PR是英文Pagerank 的缩写形式,Pagerank取自Google的创始人LarryPage,它是Google排名运算法则(排名公式)的一部分,Pagerank是 Google对网页重要性的评估,是Google用来衡量一个网站的好坏的唯一标准。PageRank(网页级别)是Google用于评测一个网页“重要 性”的一种方法。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“重要 性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。 PR值的级别从1到10级,10级为满分。PR值越高说明该网页越受欢迎。Google把自己的网站的PR值定到10,这说明Google这个网站是非常 受欢迎的,也可以说这个网站非常重要。Google大受青睐的另一个原因就是它的网站索引速度。向Google提交你的网站直到为Google收录,一般 只需两个星期。如果你的网站已经为Google收录,那么通常Google会每月一次遍历和更新(重新索引)你的网站信息。不过对于那些PR值 (Pagerank)较高的网站,Google索引周期会相应的短一些。一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个 网站非常受欢迎。PR值最高为10,一般PR值达到4,就算是一个不错的网站了。那么PR值都受那些因素影响呢?下面我们一起来看看。
  第一:网站外部链接的数量和质量
  在计算网站排名时,Pagerank会将网站的外部链接数考虑进去。并不能说一个网站的外部链 接数越多其PR值就越高,如果这样的话,一个网站尽可能获得最多的外部链接就OK了,有这种想法是错误的。Google对一个网站上的外部链接数的重视程 度并不意味着你因此可以不求策略地与任何网站建立连接。这是因为Google并不是简单地由计算网站的外部链接数来决定其等级。Google的 Pagerank系统不单考虑一个网站的外部链接质量,也会考虑其数量。这个问题看来很有复杂。首先让我们来解释一下什么是阻尼因数(damping factor)。阻尼因素就是当你投票或链接到另外一个站点时所获得的实际PR分值。阻尼因数一般是0.85。当然比起你网站的实际PR值,它就显得微不 足道了。 
  现在让我们来看看这个PR分值的计算公式:PR(A)=(1- d)+d(PR(t1)/C(t1)+...+PR(tn)/C(tn)) 公式解释:其中PR(A)表示的是从一个外部链接站点t1上,依据Pagerank?系统给你的网站所增加的PR分值;PR(t1)表示该外部链接网站本 身的PR分值;C(t1)则表示该外部链接站点所拥有的外部链接数量。大家要谨记:一个网站的投票权值只有该网站PR分值的0.85, 
  那么,是不是说对一个网站而言,它所拥有的较高网站质量和较高PR分值的外部链接数量越多就越 好呢?错,因为-Google的Pagerank系统不单考虑一个网站的外部链接质量,也会考虑其数量.比方说,对一个有一定PR值的网站X来说,如果你 的网站Y是它的唯一一个外部链接,那么Google就相信网站X将你的网站Y视做它最好的一个外部链接,从而会给你的网站Y更多的分值。可是,如果网站X 上已经有49个外部链接,那么Google就相信网站X只是将你的网站视做它第50个好的网站。因而你的外部链接站点上的外部链接数越多,你所能够得到的 PR分值反而会越低,它们呈反比关系。
  说它对是因为-一般情况下,一个PR分值大于等于6的外部链接站点,可显著提升你的PR分值。 但如果这个外部链接站点已经有100个其它的外部链接时,那你能够得到的PR分值就几乎为零了。同样,如果一个外部链接站点的PR值仅为2,但你却是它的 唯一一个外部链接,那么你所获得的PR值要远远大于那个PR值为6,外部链接数为100的网站。 
  而且这个0.85的权值平均分配给其链接的每个外部网站。 
  第二:Google在你的网站抓取的页面数
  Google在你的网站抓取的页面数,数目越多,Pagerank值越高。但通常Google 并不会主动抓取你的网站的所有页面,尤其是网址里带有“?”的动态链接,Google不主动,那就要我们主动了,最笨的办法是把网站所有的页面都提交给 Google,但我想没有谁真会这么做,但页面不多的话可以试试。更好的办法是制作一个静态Html页面,通常被称作“网站地图”或“网站导航”,它里面 包含你要添加的所有网址,然后把这个静态页面提交给Google。
  第三:网站被世界三大知名网站 DMOZ,Yahoo和Looksmart 收录
  众所周知,Google的Pagerank系统对那些门户网络目录如DMOZ,Yahoo和 Looksmart尤为器重。特别是对DMOZ。一个网站上的DMOZ链接对Google的Pagerank?来说,就好像一块金子一样珍贵。如果你的网 站为ODP收录,则可有效提升你的页面等级。向ODP提交你的站点并为它收录,其实并不是一件难事,只是要多花点时间而已。只要确保你的网站提供了良好的 内容,然后在ODP合适的目录下点击"增加站点",按照提示一步步来就OK了。至少要保证你的索引页(INDEX PAGE)被收录进去。所以,如果你的网站内容涉及完全不同的几块内容,你可以把每个内容的网页分别向ODP提交-不过请记住"欲速则不达"。等到 Google对其目录更新后,你就能看到你的PR值会有什么变化了。如果你的网站为Yahoo和Looksmart所收录,那么你的PR值会得到显著提 升。如果你的网站是非商业性质的或几乎完全是非商业性质的内容,那么你可以通过zeall.com使你的网站为著名的网络目录Looksmart所收录。 Looksmart也是从Zeal网络目录获得非商业搜索列表。 
  Google PR值的更新周期是多长时间?
  一般情况下PR值更新的周期是2.5~3个月!最近一次PR更新是2008年1月中旬。 
  PageRank相关算法总结:
  1.PageRank
  基本思想:如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为:PR(T)/C(T)
  其中PR(T)为T的PageRank值,C(T)为T的出链数,则A的PageRank值为一系列类似于T的页面重要性得分值的累加。
  优点:是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。
  不足:人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低;另外,PageRank有很严重的对新网页的歧视。
  2.Topic-Sensitive PageRank(主题敏感的PageRank)
  基本思想:针对PageRank对主题的忽略而提出。核心思想:通过离线计算出一个 PageRank向量集合,该集合中的每一个向量与某一主题相关,即计算某个页面关于不同主题的得分。主要分为两个阶段:主题相关的PageRank向量 集合的计算和在线查询时主题的确定。
  优点:根据用户的查询请求和相关上下文判断用户查询相关的主题(用户的兴趣)返回查询结果准确性高。
  不足:没有利用主题的相关性来提高链接得分的准确性。
  3.Hilltop
  基本思想:与PageRank的不同之处:仅考虑专家页面的链接。主要包括两个步骤:专家页面搜索和目标页面排序。
  优点:相关性强,结果准确。
  不足:专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性,而专家页面 的质量和公平性难以保证;忽略了大量非专家页面的影响,不能反应整个Internet的民意;当没有足够的专家页面存在时,返回空,所以Hilltop适 合对于查询排序进行求精。
  那么影响google PageRank的因素有哪些呢?
  1 与pr高的网站做链接:
  2 内容质量高的网站链接
  3加入搜索引擎分类目录
  4 加入免费开源目录
  5 你的链接出现在流量大、知名度高、频繁更新的重要网站上
  6google对DPF格式的文件比较看重。
  7安装Google工具条
  8域名和tilte标题出现关键词与meta标签等
  9反向连接数量和反向连接的等级
  10Google抓取您网站的页面数量
  11导出链接数量
  PageRank科学排名遏止关键字垃圾
  目前,五花八门的网站为争夺网上排名采用恶意点击和输入关键字垃圾的手段来吸引网民的眼球,无论对于互联网企业还是互联网用户,这都不是一个好现象。
  为了解决这样的问题,Google 创始人之一拉里.佩奇(Larry Page)发明了一种算法PageRank,是由搜索引擎根据网页之间相互的超链接进行计算的网页排名。它经常和搜索引擎优化有关。PageRank 系统目前被Google 用来体现网页的相关性和重要性,以便科学排名,遏止关键字垃圾。
  PageRank这个概念引自一篇学术论文的被媒体转载的频度,一般被转载的次数越多,这篇论文的权威性就越高,价值也就越高。PageRank是1998年在斯坦福大学问世的,2001
  年9 月被授予美国专利。如今它在 Google 所有算法中依然是至关重要的。在学术界, 这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程(Information Retrieval) 的教程。
  PageRank 通过对由超过 5 亿个变量和 20 亿个词汇组成的方程进行计算,能科学公正地标识网页的等级或重要性。PR级别为1到10,PR值越高说明该网页越重要。例如:一个PR 值为1 的网站表明这个网站不太具有流行度,而PR 值为7到10则表明这个网站极其重要。PageRank级别不是一般的算术级数,而是按照一种几何级数来划分的。PageRank3 不是比PageRank2 好一级,而可能会好到数倍。
  PageRank根据网站的外部链接和内部链接的数量和质量来衡量网站的价值。 PageRank的概念是,每个到页面的链接都是对该页面的一次投票,被链接得越多,就意味着被其他网站投票越多。Google 有一套自动化方法来计算这些投票,但Google 的排名算法不完全基于外部链接。PageRank 对来自不同网页的链接会区别对待,来自网页本身排名高的链接更受青睐,给这些链接有较大的权重。
  同时,Google 不只是看一个网站的投票数量,或者这个网站的外部链接数量。它会对那些投票的网站进行分析。如果这些网站的PR 值比较高,则其投票的网站可从中受益。因此,Google 的技术专家提醒人们,在建设网站的外部链接时,应尽可能瞄准那些PR 值高且外部链接数又少的网站。这样的外部链接站点越多,你的PR 值就会越高,从而使得你的Google 排名得到显著提升。
  PageRank的另一作用是对关键字垃圾起到巨大的遏制作用。眼下,一些垃圾网站为了提高点击率,用一些与站点内容无关的关键字垃圾壮声威,比如用明星的名字、用公共突
  发事件称谓等。这些网页的目的或是为了骗取广告点击,或是为了传播病毒。还有一些无赖式的博客评论也从中搅局,在网上招摇过市,骗取网民的注意力,这也被网络技术人员
  视为垃圾。
  PageRank目前使用一种基于信任和名誉的算法帮助遏止关键字垃圾,它忽视这些关键字垃圾的存在,以网页相互链接评级别论高低。Google 排名之所以大受追捧,是由于它并非
  只使用关键字或代理搜索技术, 而是将自身建立在高级的网页级别技术基础之上。 别的搜索引擎提供给搜索者的是多种渠道值为 8 的网站信息得来的一个粗略的搜索结果,而Google 提供给它的搜索者的则是它自己产生的高度精确的搜索结果。这就是为什么网站管理员会千方百计去提高自己网站在Google 的排名了。

  PageRank一般一年更新四次,所以刚上线的新网站不可能获得PR 值。不过PR 值暂时没有,并不是什么不好的事情,耐心等待就能得到Google 的青睐。


本文转自: http://blog.csdn.net/aladdina/article/details/4141120

你可能感兴趣的:(数据挖掘十大经典算法(6) PageRank)