观点 - 造一个搜索引擎有多难

一篇14年的文章

作者Alex Clemmer在微软工作。当时程序员社区热议造一个“好的”搜索引擎,打破谷歌垄断。作者用微软必应(Bing)比较,礼貌的告诉外行们别瞎BB。

这里摘译主要论点。感兴趣可以阅读原文。


观点 - 造一个搜索引擎有多难_第1张图片
谷歌搜索


观点1,问题不是招聘高手,而是招聘“足够的”高手。

以微软的规模,专注搜索相关性的小组不到谷歌的三分之一。

微软可以砸钱。问题是想砸找不到人。搞搜索相关性的人不多,大多在谷歌。


观点2,市场份额容易,搜索相关性则难多了。

微软有Windows 和IE绑定Bing,还可以争取到脸书(Facebook)这样的合作伙伴绑定。这些都有成本,但用钱可以解决。

Bing投入了很多,但在一部分人眼里搜索质量还是不行。主观客观不重要。重要的是你要造一个的话得问自己准备好了没。


观点3,社交网络也许是谷歌现在搜索方式的一个威胁。

Facebook之类社交网络里的信息是封闭的,谷歌拿不到。这是真正的短板。


观点4,大公司拥有的技术通常大幅领先开源世界最好的技术。

NoSQL数据库是很好的例子。大多数据库规模上到几百个节点就是瓶颈。Facebook放弃了自己开发的Cassandra,推特(Twitter)试了几年也放弃了。亚马逊(Amazon)和谷歌的数据库系统比普通公司高几个数量级。


观点5,大公司受自己之前投资的限制。

微软操作系统成功,Bing只求存在。谷歌搜索成功,Google plus还差很远。


观点6,大公司的数据比你多太多了,搜索算法也因此而更复杂。

你点了几次回退键,在找到想要的之前你点了几个搜索结果,甚至你的鼠标指着哪里,谷歌都记录下来,都对搜索相关性有作用。


结论

这只是冰山一角,让你小小感觉一下自己造一个要面对什么样的问题。


短评

喝咖啡的程序员:我职业经历涉及搜索有两次。一次垂直搜索,一次企业搜索。量级都不算大。最大的困扰就是搜索相关性。有人觉得有Lucene之类的开源引擎,搜索很简单。其实引擎只是工具的一部分。搜索容易,相关性很难,难度随规模增长应该是n次方增长吧。

谷歌搜索不可能被打败,只可能被淘汰。就像当初雅虎引领门户模式。门户技术很难打败雅虎。但是搜索模式直接把雅虎淘汰出局。基于索引的搜索,不一定是信息检索的终极模式。

你可能感兴趣的:(观点 - 造一个搜索引擎有多难)