解读搜索引擎(预处理)

上回说到采集其实采集过程也很复杂 想了解更多的细节可参见相关的资源。

我们通过搜索结果页可以看到展现的内容包括查询内容和超链接;
因此采集过程主要处理两部分Url 和 文本;

搜索引擎通过爬虫程序(robot/spider)来遍历互联网各个节点,在遍历的过程中会处理已经遍历和尚未遍历的url,以及攫取网站的文本内容。并存储在搜索数据库中。

所谓的预处理过程,恰恰就是完成这些操作。


用户在搜索框查询一个关键词的过程非常短暂,如果在查询时再去遍历整个网络寻找匹配的网页信息,搜索引擎无疑是杯水车薪。因此他有一套完整的预处理过程来保证快速、准确地反馈出用户查询的结果。

这就是我们能够看到百度快照和谷歌快照的原因。

查询请求反馈机制是索引机制,比如图书馆的数目索引。

搜索引擎在数据前端做索引查询,用户的查询是在索引数据库完成的。

结果页是经过计算得出,整个计算过程是极其复杂的。涉及到排序因子的原则和权重调控。搜索引擎的核心算法就是通过这里来发挥做用的。

做搜索引擎优化不可能了解到这些核心算法和排序因子的权重,但我们可以通过实践总结和摸索出那些因素的权重影响较大,正如你所知道的title就是其中之一。

以上是预处理的解读。


上一节:[url=http://ryee.iteye.com/blog/1234989]SEO前传 - 解读搜索引擎(采集)[/url]
下一节:[url=http://ryee.iteye.com/blog/1270903]搜索引擎优化入门:前端性能优化[/url]

你可能感兴趣的:(SEO入门)