搜索引擎的发展和蜘蛛抓取原理

搜索引擎的发展
随着互联网的不断发展搜索引擎也经过了几代的更新。大概分为以下几个过程。
第一代搜索引擎 人工检索 1994年Yahoo! 两位创始人 由人工手动整理添加
第二代搜索引擎 爬虫抓取 1998年Google公司 机器程序来抓取
第三代搜索 智能+用户参与 机器程序+用户点评
搜索引擎抓取程序,也叫爬虫、蜘蛛程序、机器人等。
常见的蜘蛛程序有:
谷歌机器人:Googlebot
百度蜘蛛:Baiduspider
搜 狗 :Sogou web spider
360 搜索:360Spider
搜 搜 :sosospider
Bing: bingbot

搜索引擎的发展和蜘蛛抓取原理_第1张图片
以上就是搜索引擎的发展,未来搜索引擎还有更加多的变化,搜索引擎随着用户的改变而变化

从搜索引擎输入关键词到百度给出的搜索结果的过程,仅仅需要几秒钟的就完成。百度如何在浩如烟海的互联网资源中快速将你的网站内容的信息呈现给用户?背后蕴藏着什么?搜索引擎的工作并不是仅仅是首页搜索框一样简单。
搜索引擎给用户呈现的每一条搜索结果都是对应互联网上的一个页面。每个搜索结果从产生到被搜索引擎呈现给用户都要经过四个步骤:抓取、过滤、建立索引和输出结果。
 抓取
百度蜘蛛,是百度搜索引擎的一个计算机程序,专门抓取互联网上的信息。当你的网站出现新增内容时,蜘蛛会通过互联网上某个指向该页面的链接进行访问和抓取,假如你并没有设置任何外部链接指向网站中的新增内容,则蜘蛛是无法对它进行抓取的。对已经抓取过的内容,搜索引擎会对抓取的页面进行记录,并依据这些页面对用户的重要程度安排不同频次的抓取更新工作。
     过滤
并非互联网中所有的页面都对用户有价值,例如:一些明显欺骗用户的网页,空白内容页面,死链接等,这种网页对用户、百度、站长来讲,都是没有价值的,因此百度会对其内容进行过滤,避免为用户和你的网站带来不必要的麻烦。
 建立索引
百度会对抓取回来的内容进行标记和识别,并讲这些进行存储为结构化数据,百度会将网页中的关键词进行存储和识别,便于用户搜索的内容进行匹配。
    输出结果
输入关键词之后,百度会对其进行一系列复杂的分析,并根据分析的结论在索引数据库中查找最匹配的网页,按照用户输入的关键词体现的需求强弱恶和网页的优劣打分,按最终的分数进行排列,呈现给用户。

总结:搜索引擎都是通过:抓取、过滤、建立索引、输出结果 这几个步骤的。看起来这几个步骤好像很简单,但是在搜索引擎里面经过的不是这么简单的时间。 所以我们对于搜索引擎蜘蛛抓取原理有一些简单的了解就行了。

以上内容由郑州seo整理发布

你可能感兴趣的:(搜索引擎的发展和蜘蛛抓取原理)