02.Robots协议

Robots协议是规范网络爬虫爬去规范的一种协议,每个网站的robots协议都存储在根目录叫做robots.txt的文件,如果一个网站没有robots.txt则可以认为所有资源都可以爬取。

User-agent: * #用来限制爬虫,*号代表所有爬虫都要遵守下面协议
Disallow: /scripts #不允许爬取包含/scripts路径
Disallow: /public
Disallow: /css/
Disallow: /images/
Disallow: /content/
Disallow: /ui/
Disallow: /js/
Disallow: /scripts/

User-agent设置对应爬虫,他下面的规则都是对这个爬虫的限制
Disallow:正则表达式, 不允许访问能匹配这个正则的地址

你可能感兴趣的:(网络爬虫)