百度蜘蛛的运行原理详解

     百度蜘蛛是百度搜索引擎中的一个自动程序,是搜索引擎的核心技术,它的作用是可以通过URL访问并抓取互联网上的网页,视频,图片,音频。

    搜索引擎构建了一个调度程序来调度和指挥百度蜘蛛进行工作,百度蜘蛛只下载网页。

百度蜘蛛的运行原理详解_第1张图片


    百度蜘蛛运行原理


    搜索引擎调度程序发出指令---百度蜘蛛开始爬行工作---通过URL和服务器建立连接,爬行,访问,抓取下载网页储存到补充数据区(文件储存)---调度程序调用索引程序算法预处理抓取下载到的网页---符合规则的网页放到检索区---排名展现。

百度蜘蛛的运行原理详解_第2张图片


    预处理:对搜索引擎蜘蛛抓取下载的页面进行文字提取,链接提取,中文分词。

    网页排名展现:当用户搜索关键词的时候,调度排名程序索引数据库,计算相关性,然后按一定格式生成搜索结果页面。

    爬行和抓取是搜索引擎第一步工作,完成网页的爬行,抓取,完成数据收集任务。现在的搜索引擎蜘蛛在抓取过程中也会一定程度的复制内容检检测。遇到权重低,大量转发别人网站内容,原创度低,质量不佳的网页可能不会继续抓取了。

    预处理是搜索引擎工作最重要的步骤,包括以下算法处理:

    为什么要预处理;搜索引擎蜘蛛抓取存储的原始页面,并不能直接用于排名查询,数据量太大,没有办法在毫秒之间返回结果给用户,所以必须先对原始页面进行预处理,以便为后面的查询排名做准备。

    第一步:提取原始网页文字


    搜索引擎预处理首先要做的就是从HTML网页中去除各种标签,程序,提取中可以用于网页排名的文字。但是除文字也会提取一些特殊的包含文字信息的代码比如,META标签,TITLE标签,DESCRITION,KEYWORDS,ALT,链接中的锚文字。

    第二步:中文分词


    中文分词是中文搜索引擎特有的步骤,因为中文不像英文那样,词与词之间有间隔,所有的词都是连在一起的,这就要求搜索引擎能够区分哪几个字组成一个词,那个字本身就是一个词。比如:SEO优化教程将被分为SEO优化,教程两个词。

    中文分词的两张方法:基于词典匹配,基于统计匹配。统计匹配是计算字与字之间相邻出现的频率来计算。

    搜索引擎对页面的分词取决于词库的规模,准确性,分词算法的好坏,而不是取决于页面本身的情况。SEOER能做的事情很少,唯一能做的是页面上用某种形式提示搜索引擎。比如在标题,H1等各种标签及黑体中出现关键词。

    通过点击查看百度快照,可以大致看出搜索引擎是如何分词

    知道分词原理去做锚文本外链才更加高效,举例:比如搜索引擎优化,被分为搜索引擎优化三个词的时候那分别做三个词的锚文本链接,这样提高搜索引擎优化效果最好。如果直接以搜索引擎优化为锚文本则排名没有那么好。

    第三:去停止词


    无论是中文搜索引擎还是因为搜索引擎,页面中会出现一些词频率很高,但是对内容没有任何影响的词,比如的,地,得之类的助词,啊,哈,呀等感叹词。搜索引擎在预处理的过程会去掉这些词,使索引数据跟为突出,减少无谓的计算量。

    第四:消除噪声


    除了停止词,还有一部分内容对页面主题没有什么贡献的,比如版权声明,导航条,广告等这些都属于噪声,对页面只能起到分散作用。

    消噪声是基本的办法是根据HTML标签对页面分块,区分出页头,页尾,导航,正文,广告等区域,在网站上大量重复出现的区块往往第噪声,对噪声消噪之后,剩下的就是网页的主题内容。

    第五:去重


    对于用户和搜索引擎来说不喜欢同一篇内容在不同网站和同一个网站不网址上出现,搜索引擎就需要识别并删除这些重复内容,这个过程就是去重。

    去重基本方法是对页面特征关键词计算指纹,也就是说在文章中选取最具有代表性出现频率最高的一部分(是分词,去停止词,消噪之后)关键词,通常选择10个左右特征关键词就可以达到较高的计算准确性了。

    针对现在一些不断增加一些跟文章无关紧要的词,进行所谓的伪原创,一样逃不过搜索引擎的去重算法。这样做无法改变关键词的特征。搜索引擎的去重算法很不过搜索引擎的去重算法。这样做无法改变关键词的特征。搜索引擎的去重算法很可能不止于页面级,二是进行到段落。

    注意:

    搜索引擎蜘蛛的爬行和抓取,只是搜索引擎工作的第一步,也就是完成数据的收集任务。

    搜索引擎蜘蛛访问任何一个网站的时候,都会先访问网站根目录中的ROBOTS文件,检查是否许可只搜索引擎蜘蛛的抓取。

    不管是浏览器或者是搜索引擎蜘蛛还是其他访问程序,都会标明自己的身份代理名称也就是USER-AGENT:

    文件储存:搜索引擎蜘蛛爬行抓取的数据存储到数据库,得到的数据和浏览器得到的HTML是完全一样的,并且每个URL都会标记上自己独特的文件编号。

    百度搜索引擎调度程序的原则,告诉并调度搜索引擎蜘蛛应该抓取下载什么样的网页,怎么去发现网页,发现更多网页;

    链接跟踪:为抓取更多页面,搜索引擎蜘蛛会跟踪页面上所有的链接,并顺着链接继续抓取下去。

    深度优先:指的是蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后再返回第一个页面,沿着另外一个链接再继续往前爬行。

    指的是互联网中的一些知名,有深度的门户站点优先抓取,并通过这些站点让搜索引擎蜘蛛抓取到更多的优质网页。

    广度优先:当搜索引擎蜘蛛在一个页面上发现多个链接时候,不是顺着链接一直向前,而是把页面上所有第一层链接先抓一遍,然后再抓第二层。

    权重优先:是指网页的反向链接较多的页面优先抓取。一般情况下网页抓取到40%是正常范围,60%算很好,100%是不可能。

    注意:百度蜘蛛只是负责爬行,访问,抓取,下载,存储到数据补充区,优先和权重原则都是搜索引擎调度程序去计算和分配。

    百度搜索引擎蜘蛛的工作要素:


    在深度优先,权重优先的机制下,百度蜘蛛终于访问抓取到了网站。

    百度蜘蛛抓取下载到网页首页后,调度程序会计算网页中的所有的URL,再继续返回给百度蜘蛛下一步的抓取链接列表,继续深入抓取下载更多的网页。(叫做跟踪链接,为了抓取到网上尽量多的网页)

    案例百度地图:


    为什么要在首页做百度地图的入口呢?可以通过百度地图来给百度蜘蛛一个抓取的方向,来左右百度蜘蛛去抓取哪些页面,让百度知道知道那个页面重要。也可以在首页构建更多的链接入口来,越多页面指向该页面,首页指向该页面,栏目指向该页面都能够提高这个页面的优先抓取,快速抓取。

    地图另外一个作用就是让搜索引擎蜘蛛能够抓取到更多网页。

    地图其实就是一个连接的列表提供给百度蜘蛛,来计算你的目录结构,找到通过站内连接来构建的重要页面。

    百度蜘蛛的应用原理


    在不改变板块结构的情况下,增加相关连接来提高网页质量,通过增加其他页面对该页的反向连接来提高权重,通过外部连接增加权重。如果改变了板块结构将导致seo的重新计算,所以一定不能改变板块结构的情况下来操作,增加连接要注意一个连接的质量和反向连接的数量的关系,短时间内增加大量的反向连接将导致k站,连接的相关性越高,对排名越有利。

    怎么样吸引搜索引擎蜘蛛


    网站,页面质量高,资格老的网站被认为权重高,蜘蛛对这样的网站的爬行深度高,更多的内页被收录;

    页面更新频率,更新质量,原创;

    导入链接,高质量的导入链接会让蜘蛛快速抓取并深度抓取;

    与首页的点击距离,首页权重最高,离首页点击越近,页面权重越高,被爬行的机会也就越大。

    排序原理的更新升级


    第一:搜索引擎刚开始的时候,是根据网页中的关键词和搜索词是否匹配的相关性原则,那时候关键词匹配度,关键词密度,频率都直接影响排名。

    第二:居于链接分析技术减少垃圾网页排名,提高用户体验度。可以靠反向链接的相关性,反向链接的锚文本链接来判定网页跟搜索词的匹配度,而不一定一定要在网页中出现跟搜索词完全的匹配的关键词了。这样就就是搜索引擎无法抓取的图片,FLASH,视频,音频也有了一定识别主题的能力。

你可能感兴趣的:(百度SEO)