robot.txt 的编写

robots.txt 是一个纯文本文件,当网络蜘蛛来抓取网站的时候,首先就是访问这个网站的robot.txt文件。所以网站管理者都会在robots.txt 文件中声明该网站中不想被robots 访问的部分,或者只允许指定的搜索引擎收录指定的内容。 很明显robot.txt对我们做seo来说是很重要的。

 

下面来看看应该怎么写robot.txt?


1、user-agent和Disallow是robot里面的俩个重要的函数。


2、robot.txt的编写及范本:
例如:

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 “/robots.txt” file

 

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

 

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

 

禁止某个搜索引擎的访问 (下例中的BadBot)

User-agent: BadBot
Disallow: /

 

只允许某个搜索引擎的访问(下例中的Crawler)

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /



3、各大搜索引擎的蜘蛛名称
百度蜘蛛:baiduspider

google蜘蛛:googlebot
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
xaltavista蜘蛛:lycos_spider_(t-rex)
 lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler/
inktomi蜘蛛:slurp

 

4、<meta name="robots" contect="all|none|index|noindex|follow|nofollow">

 

其中的属性说明如下:

设定为all:文件将被检索,且页面上的链接可以被查询;

设定为none:文件将不被检索,且页面上的链接不可以被查询;

设定为index:文件将被检索;

设定为follow:页面上的链接可以被查询;

设定为noindex:文件将不被检索,但页面上的链接可以被查询;

设定为nofollow:文件将不被检索,页面上的链接可以被查询。



转帖请自觉加入SEO教程 文字链接(http://www.seowindows.com)

你可能感兴趣的:(robot)