站点的Robots.txt文件协议该如何书写?

Robots协议(也叫爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面是可以抓取的,哪些页面是不能抓取的。

搜索引擎爬虫在访问网站的时候,首先会寻找站点根目录中有没有 robots.txt文件,如果有这个文件就根据文件的内容确定网站收录的范围,如果没有就按默认访问以及收录所有页面。另外,当爬虫发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。

站点的Robots.txt文件协议该如何书写?_第1张图片
tobots.txt

robots文件该怎么写?

记住写robots的文件名必须全部用小写!

User-agent:该项的值用于描述搜索引擎robot的名字,一般后面用*来表示,代表支持全部搜索引擎。

Disallow:该项的值用于描述不希望被访问的一组URL,

Allow:该项的值用于描述希望被访问的一组URL

robots.txt文件的写法 User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有的动态页面

Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp 这里定义是允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

robots在SEO中的作用

1.死链接提交,如果网站中出现了死链接,是对我们网站的SEO有较大影响的,这时候可以利用robots文件,禁止抓取这些死链接,然后提交到百度站长的死链提交工具,从而解决这个问题。

2.robots.txt放网站xml地图:Sitemap:url/sitemap.xml,告诉蜘蛛我们的网站地图在哪里,提升搜索引擎的抓取效率

3.禁止搜索引擎抓取我们不想被抓取的文件和页面。

你可能感兴趣的:(站点的Robots.txt文件协议该如何书写?)