用wordpress建站robots.txt的写法

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。via 维基百科


也许有朋友说,我巴不得搜索引擎多爬些呢,还禁用?事实上,善用robots.txt,可以简单但非常有效的对博客进行优化,我曾搜索了一些关于wordpress 博客 robots.txt写法的文章,但是众说纷纭,有的文章中说一套,可是自己的robot.txt却是另外的写法,实在让人难以信服。无奈之下,只有自己慢慢尝试,下面就望月的robots.txt的写法说一说自己的体会。

robots.txt


我的robots.txt的写法如下:


User-agent: *

Disallow: /cgi-bin

Disallow: /wp-

Disallow: /feed/

Disallow: /comments/feed

Disallow: /trackback

Disallow: /comments

Sitemap: http://www.52chuangyi.net/sitemap.xml


简单说明一下,这个robots.txt文件允许博客被所有搜索引擎收录,但是不允许蜘蛛访问cgi-bin文件夹以及wp开头的文件,这主要是为了博客的安全。


此外,不允许搜索引擎蜘蛛访问feed及comments的feed文件,主要是为了避免重复内容,这一点百度尤其重视,将wordpress 的很多页面视为重复内容,这也是wordpress博客在百度中排名不高的原因之一。事实上,在禁用了feed文件之后,我的博客来自百度的流量由之前的几乎为0增长到现在的每天300-500IP。


禁止访问trackback和comments是为了避免垃圾评论和垃圾引用。


之所以有两个sitemap文件,是因为我启用了Google XML Sitemaps 插件,所以将两个sitemap一并列了出来。


robots.txt协议并不是一个规范,而只是约定俗成的,所以,每个搜索引擎遵守robots.txt的方式也不一样,在你修改robots.txt文件时,可以用Google网站管理员工具或者Robots.txt Checker检测一下robots.txt是否符合规范。

你可能感兴趣的:(电脑常识)