ROBOTS协议

1、Robots协议简介

 Robots协议的全称即网络爬虫排除标准”(Robots Exclusion Protocol),,网站通过Robots协议告诉搜索引擎(或者网络蜘蛛)可以抓取的页面范围。
 robots.txts是一个文本文件,是一个协议,而并非一个命令,其放置在网站的根目录下。robots.txt文件是搜索引擎访问网站时查看的第一个文件,若站点存在robots.txt文件,搜索引擎根据该文件中的内容访问确定的范围;若该文件不存在,则搜索引擎可以访问所有没有被保护的界面。
以某站点为例,其robots.txt文件如图所示:

ROBOTS协议_第1张图片

2、Robots协议作用

1、设置网络爬虫访问权限,以保护网站;
2、控制搜索引擎的搜索范围,集中权值到主要界面,而无用界面对于搜索引擎优化而言作用不大;
3、网站内容为个人所有,其意愿应被搜索引擎所尊重,robots协议给了网站所有者表达自己意愿的机会;

3、Robots协议的写法

User-agent:*是一个通配符,表示所有的所有引擎种类;例如Baiduspider,单独限制百度搜索引擎的搜索范围;
Allow:/article 表示允许获取aiticle目录内的内容;
Dissallow:/procuct/ 表示禁止获取product目录下面的目录;
通过以上三个命令,可以组合多种写法,针对具体的搜索引擎限制相应的搜索范围。

4、Robots协议的遵循方式

搜索引擎(网络爬虫):自动或人工识别robots.txt,再进行内容爬取;

ROBOTS协议_第2张图片

5、总结

  Robots协议是网站出于安全和隐私考虑,一方面防止搜索引擎和网络爬虫爬取敏感信息而设置,另一方面也避免搜索引擎获取无用界面而提高其效率。

你可能感兴趣的:(爬虫)