搜索引擎蜘蛛隐身三法

搜索引擎收录工作主要由搜索引擎蜘蛛来完成,每个主流的搜索引擎都有自己的蜘蛛爬虫,例如: Googlebot(Google蜘蛛)、baiduspider(百度蜘蛛)、Yahoo Slurp(Yahoo蜘蛛)、Msnbot(MSN蜘蛛)、Scooter(Altavista蜘蛛)、Lycos_Spider_(T-Rex) 、FAST-WebCrawler(Alltheweb蜘蛛)、ia_archiver(alexa蜘蛛)Slurp(INKTOMI蜘蛛)等。想做搜索引擎的隐形人,可以通过以下三种方法来实现。
  
  1、rel=nofollow
  
  这种不识别链接的搜索标签,可以告诉搜索引擎蜘蛛直接跳过而不索引。具体的介绍请见“如何做付费链接而不被Google惩罚”,对Google 、Yahoo 、MSN(Live search)有效,对百度无效。
  
  2、robots.txt
  
  只需在你的网站根目录下建一个robots.txt文件,文件中输入:Disallow: 字符串即可,例如:
  
  Disallow:newsunday.html 意思是要求蜘蛛爬虫不要下载该文件,不收录,不索引。
  
  Disallow:/newsunday/ 意思是对newsunday文件夹中的所有文件不收录,不索引,不下载。
  
  如果你想看一个具体的例子,可以看一下Google robots.txt是什么样的。
  
  3、利用代码来实现
  
  这是本文重点介绍的,但首先声明不要将此种用法用于对搜索引擎zuobi方面,不能将其用于违返搜索引擎相关规则、欺骗搜索引擎的用途上。代码实现的效果是,用户在浏览经过代码定义过的内容,正常显示,而搜索引擎蜘蛛抓取时会不显示用户浏览的内容,本文以百度蜘蛛为例:
  
  ASP
  
  $userAgent = Server.GetVariables("HTTP_USER_AGENT");
  If Not InStr(LCASE($userAgent), "baiduspider") Then
   ‘用户正常浏览时所能见到的内容代码
  Else 
   ‘搜索引擎蜘蛛能看到的代码及链接
  End If
  
  PHP
  
  $userAgent = $_SERVER['HTTP_USER_AGENT'];
  if(stristr(strtolower($userAgent), 'baiduspider') === FALSE) {
   //用户正常浏览时所能见到的内容
   //
  }
  else {
   //搜索引擎蜘蛛能看到的代码及链接
  }
  
  JSP
  
  <%
  String userAgent = request.getHeader( "User-Agent" );
  if(userAgent.toLowerCase().indexOf("baiduspider") != -1) {
   //用户正常浏览时所能见到的内容代码
  }
  else {
   //搜索引擎蜘蛛能看到的代码及链接
  }
  %>
  
  JAVASCRIPT
  
  if(navigator.userAgent.toLowerCase().indexOf("baiduspider") <= -1) {
   //用户正常浏览时所能见到的内容
  }
  else {
   //搜索引擎蜘蛛能看到的代码及链接
  }
  
  当你看完本文时,也许你会觉得这篇文章中的代码做得没有意义,其实如果你细琢磨一下,能想出不少东西来。具体我就不说了,如果你觉得有用可以收藏下来,如果觉得没有太大用就当了解一点儿搜索引擎的常识吧。

 

 

http://blog.tianya.cn/blogger/post_read.asp?BlogID=1783669&PostID=14847578

你可能感兴趣的:(搜索引擎,百度,Yahoo,Google,asp)