Python网络爬虫与信息提取(2)—— 爬虫协议

前言

上一节学习了requests库,这一节学习robots协议

限制爬虫的方法

  1. 审查爬虫来源,需要网站作者有一定的编程基础
  2. 声明robots协议,一般放在网站的根目录下,robots.txt文件

京东robots协议

京东robots链接

User-agent: *
Disallow: /?*
Disallow: /pop/.html
Disallow: /pinpai/
.html?*
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /

其他robots协议

百度robots协议
新浪robots协议
qq的robots协议
qq新闻robots协议
国家教育部无robots协议
网站不提供robots协议则全网可以随意爬取

robots协议的使用

  • 任意爬虫文件应该可以自动识别robots.txt文件
  • 不遵守爬虫协议则可能面临法律风险
  • 低频率的爬虫访问网站是允许的,但不可商用

总结

爬虫协议说明:
User-angent: *表示所有用户
Disallow:/表示所有目录不可爬取

你可能感兴趣的:(爬虫,爬虫,python)