编写requests
模块是因为Python的urllib
模块用起来太复杂。
使用举例
快速上手requests
,参考中文文档。
发起请求
发起GET
请求直接使用requests
的get
方法即可。例如下面的代码获取百度首页的信息:
import requests
baidu_url = 'https://www.baidu.com'
response = requests.get(baidu_url)
print(response.content.decode())
如果要在URL
上附加参数,使用params
参数传入字典即可,参数会自动附加到URL
上,列表参数也会正确的附加:
base_url = 'http://httpbin.org/'
params = {
'name': 'yitian',
'age': 22,
'friends': ['zhang3', 'li4']
}
response = requests.get(f'{base_url}get', params=params)
print(response.url)
结果:
http://httpbin.org/get?name=yitian&age=22&friends=zhang3&friends=li4
其他常用的HTTP操作例如PUT、DELETE、HEAD、OPTIONS
等也支持,调用相应方法即可。
获取结果
发起请求之后,返回值是一个Response
对象,利用它我们可以方便的获取结果。
Response
对象的常用属性和方法如下:
属性名 | 结果 |
---|---|
text | HTTP字符 |
encoding | 响应编码,这个值可以改变,改变之后text属性也会根据编码而变化 |
content | 未编码的二进制数据 |
json() | 返回JSON数据 |
raw | 结果的原始字节流 |
url | 请求的URL |
status_code | 状态码 |
headers | 请求头字典 |
cookies | cookies字典 |
history | 如果发生重定向,所有请求对象都会保存到这里 |
自定义header
如果要在请求上添加请求头,也非常简单。有些网站对客户端的限制比较严格,所以我们必须伪装header
。
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}
response = requests.get('http://httpbin.org/get', headers=headers)
print(response.text)
假如使用自带的urllib
标准库,那么代码就比较复杂了。从这里我们可以看到requests
确实非常方便。
import urllib.request
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}
request = urllib.request.Request(baidu_url, headers=headers)
html = urllib.request.urlopen(request).read().decode()
print(html)
POST数据
如果我们要发送复杂的表单,就需要POST
数据了。和GET
传送数据一样,向方法中额外添加一个data
参数。
data = {
'name': 'yitian',
'age': 22,
'friends': ['zhang3', 'li4']
}
response = requests.post(f'{base_url}post', data=data)
print(response.text)
有时候POST
数据不是使用表单方式,而是直接在请求体中附加参数。那么我们在发送参数的时候不能向data
参数添加字典了,而应该传递字符串。
import json
data = {
'name': 'yitian',
'age': 22,
'friends': ['zhang3', 'li4']
}
response = requests.post(f'{base_url}post', data=json.dumps(data))
print(response.text)
有些程序(例如Github的API)需要将JSON
字符串直接当做请求体发送,比如说上面这种将字典转换为JSON
的例子。在这种情况下,我们可以直接将字典的引用传递给方法的json
参数,这样就不需要我们手动转换,requests
会自动转换。
response = requests.post(f'{base_url}post', json=data)
上传文件
在网页上,上传头像等操作都需要上传multipart/form-data
类型的表单。使用requests
也非常简单。需要注意打开文件的时候最好使用二进制模式,使用文本模式打开文件可能导致requests
不能正确计算文件的大小。
file = open(r'c:\Windows\System32\drivers\etc\hosts', mode='rb')
data = {
'file': file
}
response = requests.post(f'{base_url}post', files=data)
print(response.text)
cookies
如果要获取响应的cookies
,调用cookies
属性即可,它会返回一个RequestsCookieJar
对象,它实现了标准库的http.cookiejar
。所以我们可以按照cookiejar
的方法来使用RequestsCookieJar
。比如说访问百度的时候,它会分配一个cookie
,所以我们可以使用下面的代码获取Cookie
。
response = requests.get(baidu_url)
print(response.cookies)
如果要在发送数据的时候向服务器传递cookie
,需要实例化一个RequestsCookieJar
,然后传递给发送方法的cookies
参数。
import requests.cookies
cookies = requests.cookies.RequestsCookieJar()
cookies.set('name', 'yitian')
response = requests.get(f'{base_url}cookies', cookies=cookies)
print(response.text)