下载文件主要会用到 urllib、urllib2、requests 这三个库,其中requests主要用到的是 urllib3。由于还没深入了解这一块,所以先记录以下基本的用法。
如果是执行简单的下载操作:
urllib.urlretrieve(url, save_path)
如果需要对获取完url的内容之后进行操作,如解码后进一步处理数据,则可以采用以下方式获取数据:
req = urllib2.urlopen(url, timeout=timeout)
data = req.read()
其中 timeout 为尝试链接的时间,以秒为单位。
而 requests 则丰富了更多的请求方式,可以处理带参的 url。
req = requests.get('https://www.douban.com/search', params={'q': 'python', 'cat': '1001'})
req.content 为内容,requests 也可以设置timeout。