搜索引擎早期重要论文推荐系列【2】

《challenge in web search engine》MR Henzinger, R Motwani, C Silverstein - ACM SIGIR Forum, 2002

推荐理由:

工程价值 4星

学术价值 2星

可读性 5星

本文例举了搜索引擎面对的主要难题,每一个难题都可以设一个单独的小组来完成。

让我们来看看都有哪些?

Spam(),反是搜索引擎主要难点,也是命门,搜索引擎的公信度是最重要的产品品质的体现,为了获得流量,搜索引擎不断花样翻新,防不慎防。

Content Quality(内容质量),早期的搜索引擎不成功主要是因为内容质量缺少可行方法,google早期很大程度上得益于PageRank的成功,包括技术上和宣传上的成功,虽然Pagerank也在被不断地利用,从而降低了排名的权重,但其思路确影响深远,例如BBS的link,Toolbar的link,用户点击的行为都被看做是网页内容评判的标准,前不久据说google对facebook中引用的站点和网页给与较高的权重。

Duplicate Host(多域名),这主要是搜索引擎的去重,目前基本采用bloom filter或改进方法来做早期抓取排重,后期做库排重,检索结构排重均采用一些简单有效的方法,因此这个问题目前并不算难题。

Vaguely-Stuctured Data(网页的弱结构化),这主要是信息抽取的问题,由于网页的弱结构,不同网站千姿百态,信息抽取要做到适应全部网站非常困难,以至于无数的规则的累积。

详细内容可以参见:

http://ce.sharif.ac.ir/courses/84-85/1/ce324/resources/root/Useful%20Resources/Challenges%20in%20Web%20Search%20Engines.pdf

如果说目前还有那些难题,我想可以补充这样几点

Ranking(排序),这可能是最困难,也是目前解决的最不好的一项,如何把握用户输入的query的意图,给出最佳答案,也许是永无止境的工作。

Efficience(效率),一次搜索不仅要越快越好,同时也需要节省费用,将每一次搜索的成本降低,且保证优越的用户体验,也是非常困难的。这需要在各个部分进行不断地优化,前端,索引,分词,无不例外。

Stability(稳定性),保证持续稳定的运营,错误用户无感知或弱感知,也是非常困难的。

Ad(广告),搜索广告的准确性,有效性,消耗的控制,这也是目前搜索引擎亟待解决的问题

你可能感兴趣的:(Web,搜索引擎,Google,Facebook,bbs)