Google搜索引擎背后的秘密是什么呢

谷歌算法及解密凭借强大的搜索引擎,Google在网络搜索市场遥遥领先于雅虎和微软等竞争对手。那么,Google搜索引擎背后的秘密是什么呢?随着企业规模不断扩大,Google开始向多个领域进军,包括网络地图、数字图书馆、视频共享以及桌面软件等等。 但是,Google的重中之重仍然是搜索引擎。通过Google搜索引擎,用户可以在浩如烟海的大量信息中找到自己需要的内容。正因为有了出色的搜索引擎,Google才成为了访问量最大、利润最为丰厚、甚至最为强大的互联网公司 今天就最新的蜂鸟算法以及排名算法简单解密一下,蜂鸟算法可以借助更加复杂的搜索请求更好地理解文字的概念,而不仅仅是文字本身,而且还能在各种概念之间建立联系。更注重语义分析。 辛哈表示,蜂鸟算法部署之后,Google搜索引擎可以更好的理解人类语言的概念,而不是一些零散的单词。这位高层表示,这样的算法改进是必需的,因为随着网络搜索日渐普及,许多网民会在搜索框中输入完整的问句进行搜索。 除了蜂鸟算法之外,谷歌还宣布了搜索引擎最近的一些升级举动,主要是针对手机小屏幕搜索作出的优化和改进。据介绍,改动主要涉及到在搜索结果顶部提供实用信息的“知识图谱”功能,以及主动根据用户位置和状况提供信息的“Google-Now”功能(所谓“主动式搜索”)。 Google Now与蜂鸟算法的出现,表明Google 越来越把自己视为一个可以与用户互动的代理人,而不仅仅是通向其他网站的门户。Google 研发部门今后的目标可能会更具野心,或许会提供医疗诊断和个性化投票指南,甚至对“我们为什么在这里?”这种原本只属于真实世界的问题做出解答。 Google正努力保证其搜索技术能够和互联网使用的发展同步。由于搜索条目变得更为复杂,传统“布尔型”(Boolean)或基于关键字的查询系统开始退化,因为除了关键字外,搜索结果还需要匹配概念和含义。搜索质量组是Google内部负责搜索结果排名的。每天Google处理无数查询,Google需要在不到一秒的时间内从数以亿计的网页中选择出应该返回哪些,以及以哪样的顺序显示。Google对排名算法一直都比较保密,主要原因有两条:竞争及防止被滥用。 Google排名算法的细节是Google皇冠上的珍珠,都以它为傲,并且非常注意保护。但是完全保密有时候也不是理想状况。这个部门的心脏是核心排名小组。排名是相当困难的,比大部分人所想象的更困难。其中一个原因是语言都是模棱两可的,文件也没有任何规则,怎样理解信息没有标准。所以需要理解任何人,因为任何原因所写的任何网页。这只是一部分。还需要理解用户的查询,再将查询投射到我们所理解的文件上。更不要说不同的人有不同的需求。而且需要在几毫秒之内完成这一切。 Google排名算法最出名的部分就是PageRank。PR 现在还在使用中,不过已经是一个更大的一系统中的一部分。其他部分还包括语言模块(处理短语,同义词,方言,拼写错误等的能力),查询模块(不仅仅是语言,还包括人们怎样使用语言),时间模块(有的查询返回一个30分钟前刚创作的网页最合适,有的时候返回已经存在很长时间的网页更合适),个性化模块(不是每个人都需要相同的东西)。另外一个组负责评估做的怎样。目标是改善用户体验,这不是主要目标,而是唯一的目标。有每分钟进行的自动评估,阶段性整体质量评估,更重要的还有个别算法调整的评估。当某个工程师有个好主意,开发一个新算法后,就会对这个主意进行测试。 一组统计学家会检查数据,确定这个新主意的价值。2007年,他们做了450次以上的调整,差不多每个星期9次。比如2009年1月份,他们对PR算法做了大幅调整。大多数时间他们都是寻找相关性改善的方法,有时他们也致力于简化算法,简单就是好的。(Zac的注释:关于简化算法这句话,是紧接着PR算法调整之后说的,不确认他是讲简化了PR算法,还是说笼统的对算法的简化。我的感觉是PR算法确实有了很大的改变。给我的感觉是,基本上给我们看的工具条PR是不准的,尤其很多该有PR值得内页显示PR为零。也许这就是Udi Manber所说的算法简化造成的。)在过去两年中,国际搜索是他们的主要焦点之一,包括所有的语言,而不仅限于主要语言。 另外一个小组专门负责新功能和用户界面。Google的用户搜索界面相当简单,当他们增加新功能时,尽量确保对用户来说是简单易用的。在过去几年中,主要的改变包括整合搜索,Google Notebooks,自定义搜索引擎以及iGoogle的改进。用户界面小组有一组易用性专家,在辅助研究用户及评估新功能。 还有一个小组专注于反垃圾和其他各种被滥用的技巧,这也就是Matt Cutts所负责的小组。这个组识别新的垃圾技术,并且以可扩展的方式克服这些垃圾。和其他组一样,这个组也是要处理国际多语种。反垃圾组与Google站长工具组紧密配合。

你可能感兴趣的:(算法)