搜索引擎的工作原理

 1、网站安全

对于中小型站点,在安全技术上比较薄弱,被黑被篡改的现象非常常见,一般被黑有常见几种情况,一种是主域被黑,一种是标题被篡改,还有一种是在页面里面加了很多的外链。一般主域被黑就是被劫持,就是主域被进行301的跳转到指定的网站,而如果在百度那边发现跳转后的是一些垃圾站,那么你这个站点抓取量会降低。


2、内容质量

搜索引擎现在对网站的内容十分注重,靠大量的采集的内容来充实网站已经行不通了,不但对网站优化不利,还有可能导致网站被搜索引擎降权。网站一定要坚持更新原创内容,内容还要跟网站主题相关,这才有利于搜索引擎优化。

3、站点响应速度

网页的大小会影响抓取,百度建议网页的大小在1M以内,当然类似大的门户网站,如新浪网、腾讯网这样的大网站就另当别论了。除了页面的大小要控制外,网页的代码质量、服务器机器的性能及带宽等,这些都是影响打开速度的重要因素。

4、同ip上面主域的数量

有些服务器IP是有很多个站点的,你的网站可能只是其中一个,同一个IP的站点越多那被搜索引擎抓取的几率就越小,而且同IP的网站里面有一个网站出了问题很有可能导致你的网站受到牵连,所以有条件的话还是建议买一个独立IP的服务器空间。

1.网站和页面权重。质量高、资格老的网站被认为权重比较高,这种网站上的页面被爬行的深度也会比较高,所以会有更多内页被收录。

2页面更新度。蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与第一次收录完全一样,说明页面没有更新,蜘蛛也就没有必要经常抓取。如果页面内容经常更新,蜘蛛就会更加频繁的访问这种页面,页面上出现的新链接,也自然会被蜘蛛更快的跟踪,抓取新页面。

3:导入链接。无论是外部链接,还是同一个网站的内部链接,要被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接也经常使页面上的导出链接被爬行深度增加。

4:与首页点击距离。一般来说网站上权重最高的是首页,大部分外部链接是指向首页的,蜘蛛访问最频繁的也是首页。离首页点击距离越近,页面权重越高,被蜘蛛爬行的机会也越大。

搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

简单来说

第一步:读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

第二步:使用数据库进行查找

第三步:搜索引擎从索引数据库中找到匹配该关键词的网页;

第四步:把收集来的网页进行排序,把这些进行最终的排序。

你可能感兴趣的:(搜索引擎的工作原理)