爬虫:robots协议 -- 爬虫的道德约束

摘要

robots协议全称是“网络爬虫排除标准”,它意在规范爬虫程序的行为。一个网站的robots协议就是在告诉
爬虫程序什么页面可以爬取,什么页面不可以爬虫,以及禁止某些爬虫程序等。不过robots协议并没有
形成法律的规范,仍然属于道德层面的约束。

robots协议的内容规范

User-agent: 表明爬虫名字
Disallow: 表示禁止爬取的页面
Allow: 表示允许爬取的页面
Sitemap: 表示网站地图

*: 表示任意长度的任意字符
$: 表示结尾
/: 表示这级文件夹下的所有文件
可以发现,这和这正则表达式有点相似,不过,?和.没有特别的含义,/也不需要转义

有关页面的写法:
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /
?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg禁止抓取网页所有的.jpg格式的图片 Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。 Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录 Allow: /tmp 这里定义是允许爬寻tmp的整个目录 Allow: .htm 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图

常用的写法:

  1. 允许所有的爬虫爬取任何页:
    User-agent: *
    Disallow:
  2. 禁止除特定爬虫A以外的爬虫爬取页面:
    User-agent: A
    Disallow:
    User-agent: *
    Disallow: /

查看一个网站的robots协议
在浏览器中网址一栏网站的根目录加上/robots.txt即可,如https://www.baidu.com/robots.txt表示访问百度的robots协议

解析robots.txt

通过urllib.robotparser模块解析robots协议
解析过程分为:

  1. 创建一个RobotFileParser对象
  2. 通过对象的set_url()方法获取robots.txt
  3. 读取robots.txt的内容
    这样创建的RobotFileParser对象就与这个robots.txt的内容联系起来了
  4. 判断某个User-agent(爬虫名)是否可以爬取某个url,比如Spider1,是否可以爬取url1,可以使用:
    can_fetch(Spider1, url1)

说明

以下代码默认已导入robotparser模块

from urllib import robotparser

下面列举一个例子:
判断BadSipder爬虫是否可以爬取https://www.baidu.com,代码如下:

    def parseRobots(url):
    '获取解析robots.txt的RobotFileParser对象'
    try:
        rp = robotparser.RobotFileParser()
        rp.set_url(url)  # 获取robots.txt
        rp.read()  # 读取robots.txt
        return rp
    except:
        return "出现异常"
    url = "https://baidu.com/robots.txt"
    rp = parseRobots(url)
    user_agent = "Badspider"
    web = "https://baidu.com"
    print(rp.can_fetch(user_agent, web))    

你可能感兴趣的:(爬虫:robots协议 -- 爬虫的道德约束)