Python requests 模块

官方文档链接： http://docs.python-requests.org/en/master/

requests模块

最简单的方式请求页面

>>> import requests
>>> r = requests.get("http://www.baidu.com")
>>> r.text

其他的HTTP请求类型：

>>> r = requests.post("http://httpbin.org/post")
>>> r = requests.put("http://httpbin.org/put")
>>> r = requests.delete("http://httpbin.org/delete")
>>> r = requests.head("http://httpbin.org/get")
>>> r = requests.options("http://httpbin.org/get")

带有参数的请求页面

有时需要为 URL 的查询字符串(query string)传递某种数据，requests允许使用params关键字参数，并以一个字典来提供这些参数。举例如果想传递key1=value1和key2=value2到httpbin.org/get，可以使用如下方式：

>>> payload = {"key1":"value1","key2":"value2"}  # 定义传递的参数
>>> r = requests.get("http://httpbin.org/get",params=payload)  # 请求
>>> print r.text
{
  "args": {
    "key1": "value1",
    "key2": "value2"
  },
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Host": "httpbin.org",
    "User-Agent": "python-requests/2.10.0"
  },
  "origin": "180.168.112.222",
  "url": "http://httpbin.org/get?key2=value2&key1=value1"
}

读取响应内容

>>> r = requests.get("http://www.jianshu.com")
>>> print r.text # 可以读取到首页的html源码
>>> r.encoding # requests 根据头信息推测的编码
'utf-8'

>>> r.encoding = 'ISO-8859-1' # 改变编码，并重新读取刚刚的页面
>>> print r.text # 会发现中文部分乱码

关于编码：requests会自动解码来自服务器的内容，大多数的unicode字符集都能被无缝的解码，请求发出后，requests会基于HTTP头部对响应的编码做出推测。r.encoding可以显示目前使用的编码，也可以赋值为其他的编码。

二进制响应内容

可以以字节的方式访问请求响应体，对于非文本请求，requests会自动解码gzip和deflate传输编码的响应数据。

JSON 响应内容

requests中也有一个内置的JSON解码器，r.json()来处理JSON数据。

原始响应内容

在罕见的情况下，你可能想获取来自服务器的原始套接字响应，那么你可以访问r.raw，并确保初始请求中设置了stream=True。

>>> r = requests.get('https://github.com/timeline.json', stream=True)
>>> r.raw

>>> r.raw.read(10)
'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03'

定制 headers

为请求添加HTTP头部，只要简单地传递一个dict给headers参数就可以了

>>> headers = {"user-agent":"hoho"}
>>> r = requests.get("http://httpbin.org/get",headers = headers)
>>> print r.text
{
  "args": {},
  "headers": {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate",
    "Host": "www.httpbin.org",
    "User-Agent": "hoho"
  },
  "origin": "180.168.112.222",
  "url": "http://www.httpbin.org/get"
}

注意: 定制 header 的优先级低于某些特定的信息源，例如：

如果在.netrc中设置了用户认证信息，使用headers=设置的授权就不会生效。而如果设置了 auth=参数，.netrc的设置就无效了。
如果被重定向到别的主机，授权header就会被删除。
代理授权header会被URL中提供的代理身份覆盖掉。
在我们能判断内容长度的情况下,header的Content-Length会被改写。

POST 请求发送数据

通常要发送一些编码为表单形式的数据，可以讲一个字典传递给data参数，数据字典在发出请求时会自动编码为表单形式：

>>> payload = {'key1': 'value1', 'key2': 'value2'}

>>> r = requests.post("http://httpbin.org/post", data=payload)
>>> print(r.text)
{
  ...
  "form": {
    "key2": "value2",
    "key1": "value1"
  },
  ...
}

有时候我们需要传送的信息不是表单形式的，需要我们传JSON格式的数据过去，所以我们可以用 json.dumps() 方法把表单数据序列化。

>>> import json
>>> import requests

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://httpbin.org/post", data=json.dumps(payload))
print r.text