搜索引擎原理

  太原SEO-搜索引擎蜘蛛的名称

  百度蜘蛛:Baiduspider

  谷歌蜘蛛:Googlebot

  360蜘蛛:360Spider

  百度蜘蛛是抓取来抓取网页的,基础流程是什么?


搜索引擎原理_第1张图片
搜索引擎原理

  一、抓取

  搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为蜘蛛(Spider)。Spider顺着网页中的超链接、外链,从这个网站爬到另一个网站,去跟踪网页中的链接,从页发现并访问更多的网页,在互联网中发现搜集大量的这些网页信息,将网页从互联中搜集到自己的数据库中,这个过程称为抓取。抓取的过程中,搜索引擎蜘蛛一般有两种策略:深度抓取和广度抓取

  不利于蜘蛛抓取识别的内容?

  1.网站使用js,flash,iframe框架(层级多),镶嵌table,需要登录后的页面都是不利于蜘蛛抓取的,应该尽量避免。

  2.图片太多(用alt属性辅佐识别)

  二、过滤

  为了避免重复爬行和抓取网址,造成太多垃圾,从而影响用户体验,搜索引擎在抓取之后会通过各种算法对所有的网页进行过滤,过滤一些作弊的网站,如低质量的内容页面,或是采集,文不对题,对用户没有价值的内容进行降权,提取展示优质的网站和信息

  三、存储库索引

  搜索引擎会对信息进行有质量提取和组织建立索引库,当有用户搜索哪个关键词时,搜索只需要在存储索引数据库中进行查找。

  四、展示排名

  数据抓取过虑完毕,接下来要做的就是排名了。当我们在搜索引擎看到的只是一结果,搜索引擎会根据信息的有效性,原创性和信息的认可度,网站自身权重等综合算法给于相应的排名显示,对搜索用户的搜索做统计,最后根据该用户搜索习惯给出相应结果。

                                                                                                                                --------太原SEO

你可能感兴趣的:(搜索引擎原理)