//Google工程师的文章,但我不晓得他愿意提供转载否
http://googlechinablog.com/2006/02/page-rank-google.html
评注:PageRank是个自然而然的想法。如果放在在互联网网页众多的今天来想。
http://blog.sina.com.cn/chengg0769
1. 想法来源
yahoo的分类目录方式的严重成本因素,滞后,不全面,效率低是一个问题。新的情况下需要一种自动或半自动的主要借助高性能的电脑处理能力来对互联网网页进行检索,这个想法是必然的趋势。PageRank更多的思想来自与形式上的关注度,就是说如果大家对你都关注,你就是热点,转念一想,这就是一种类明星文化的概念。
2. PageRank的缺陷
单重热度,未重内容相关性,未重分类,未重知识本身。这些都是致命弱点。
原因有几个:通俗的东西容易被关注,而科研性质,高端性质,受众范围小,专业程度高的内容不容易被关注。而这部分的价值恰恰相对受普通人关注的热点成反比。比如关注一个近期诞生的明星的关注度远远高与关注一个CPU内核的研究进展。而其价值是反过来的。总是生活化的,俗文化型的东西关注度高,但具有的价值低。
PageRank的资料来源是地毯式的网页抓取和索引。就是说不管你的网页在世界的哪个角落,只要出现某个Keyword,都被google使用倒索引方式作在索引里,前台用户可以利用模糊的关键字找到你的网页。但这个目前局限于静态网页部分,居于DataBase存储的部分,现在google还无法得到权力去检索。或者说数量巨大使得他无法抽身,目前DataBase里的数据检索得不是很好。
PageRank更多是形式表现上的热度检索,非语义上的,非知识性的检索。难怪会答非所问或者鱼目混杂,这是难免的。因为关键字运用也是居于具体上下文结合的。就比如我们这里也提到明星,但我们不是讨论明星的文章专题。
未分类其实是十分反感的,因为它把一坨东西扔在你面前,虽然看起来都与某个字有关,肯定或多或少提到这个词相关。但语义上,我们需要网页的分类,否则我们不能从千万个网页里得到任何东西。问题有四:1.人工筛选问题,2.时间成本问题,3.如果我重复搜索1000次,结果依然一样,我受累但一点办法都没有。4.我感兴趣的结果我可以搜藏,如果不藏,下次再想找到它,必须得进行一次重复的人工筛选。
举例说,我的目标网页都是在1000页,甚至10000页后面那些冷门网页,我估计我无法找到。或者令我放弃使用搜索。
3. 平面模式能持续多久
如果大家对此方式厌倦,或者有新的好的算法出来。用户从来都不会忠贞,只会更快背叛。PageRank会受到严峻挑战。这个挑战现在不是没有。那就是专业用户的垂直化需求和商业性质的定向,专业搜索。我们讲如果我是随意上网,能找到一个结果看看我很满足了。多与少,粗与精都不是该关心的。但这是生活化,粗俗化的使用人群。商业社会里,需要更多专业化服务的情况下,问题就出现了。在平面搜索里要于最快速度,最低成本,最完整性来获得结果,是不可能的了。
但反过来说,平面性的搜索是无法淘汰的。有它必然存在的价值。
4.演变的格局
演变的格局,肯定是平面搜索仍然继续,新生出专业化对口的垂直搜索,借以完善平面所不能垂直覆盖需求的部分使用人群。但我们看到,平面搜索商业模式的神话也将会破灭。直接的影响是股价的跌落和大众的吹捧不在,风光不再。人们或许会更清醒,更明白,哦原来所谓的广告投放效果非常好,是自吹自擂的结果,是VC资金无法得到迅速释放的结果。是整体效果虚高的结果。
5. 明星过后自有明星,搜索过后自有搜索
我们记得yahoo也曾经是明星,是神话,源自那个时代的局限。任何算法,都是与当时的硬件,需求,外部环境息息相关的。
过去是求多,现在是求精,过去是没有平面搜索,现在是太多选择。过去是10亿page,现在是100亿page.这些微妙变化的事实,决定必然会有多元的模式出现,必然会有新的模式冲击旧的算法。这是一个不争的事实。也许,似乎搜索或说检索技术也会符合莫尔规律。
6. 需求的本质
需求的本质是:应该看的要全看。不该看的一个也不要看。该看的能迅速看,不该看的不要耽误我一分钟时间。我想,这个是应该是以后搜索要把握的方向。也是我们能去主动适应纷繁复杂的检索需求的思路。
========以下原文===========================
谈 Page Rank – Google 的民主表决式网页排名技术
2006年2月27日 上午 08:38:00
发表者: 吴军, Google 工程师
大家可能听说过,Google 革命性的发明是它名为 “Page Rank” 的网页排名算法,这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是 Google。 Yahoo!公司最初第一个用目录分类的方式让用户通过互联网检索信息,但由于当时计算机容量和速度的限制,当时的 Yahoo! 和同时代的其它搜索引擎都存在一个共同的问题:收录的网页太少,而且只能对网页中常见内容相关的实际用词进行索引。那时,用户很难找到很相关信息。我记得 1999 年以前查找一篇论文,要换好几个搜索引擎。后来 DEC 公司开发了 AltaVista 搜索引擎,只用一台 ALPHA 服务器,却收录了比以往引擎都多的网页,而且对里面的每个词进行索引。AltaVista 虽然让用户搜索到大量结果,但大部分结果却与查询不太相关,有时找想看的网页需要翻好几页。所以最初的 AltaVista 在一定程度上解决了覆盖率的问题,但不能很好地对结果进行排序。
Google 的 “Page Rank” (网页排名)是怎么回事呢?其实简单说就是民主表决。打个比方,假如我们要找李开复博士,有一百个人举手说自己是李开复。那么谁是真的呢?也许有好几个真的,但即使如此谁又是大家真正想找的呢?:-) 如果大家都说在 Google 公司的那个是真的,那么他就是真的。
在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是 Page Rank 的核心思想。 当然 Google 的 Page Rank 算法实际上要复杂得多。比如说,对来自不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。Page Rank 考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到网页本身的排名,这不成了先有鸡还是先有蛋的问题了吗?
Google 的两个创始人拉里"佩奇 ( Larry Page )和谢尔盖"布林 ( Sergey Brin) 把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值。值得一提的事,这种算法是完全没有任何人工干预的。
理论问题解决了,又遇到实际问题。因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。今天 Google 的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多。
我来 Google 后,拉里 (Larry) 在和我们几个新员工座谈时,讲起他当年和谢尔盖(Sergey) 是怎么想到网页排名算法的。他说:"当时我们觉得整个互联网就像一张大的图(Graph),每个网站就像一个节点,而每个网页的链接就像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以用这个发现做个博士论文。" 他和谢尔盖就这样发明了 Page Rank 的算法。
网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下,以前的信息检索大多把每一个网页当作独立的个体对待,很多人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。
今天,Google 搜索引擎比最初复杂、完善了许多。但是网页排名在 Google 所有算法中依然是至关重要的。在学术界, 这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程 (Information Retrieval) 的教程。