（二）Requests

一、 requests_demo

#通用代码框架
import requests 
def getHTMLText(url):
      try:
          r = requests.get(url, timeout=30)
          r.raise_for_status() #如果状态不是200，引发HTTPError异常
          r.encoding = r.apparent_encoding
          return r.text
      except:
              return "产生异常"

if __name__ == "__main__":
      url = "http://www.baidu.com"
      html = getHTMLText(url)

二、综述

requests.request(method, url, **kwargs)

method : HTTP请求方式7种,作为爬虫最常使用 GET
**kwargs : 控制访问的参数，均为可选项：

params: 字典或字节序列，作为参数增加到url中

data: 字典、字节序列或文件对象，作为Requests的内容
json: JSON格式的数据，作为Requests的内容
headers: 字典，HTTP定制头
cookies: 字典或CookieJar， Requests中的cookie
auth: 元组，支持HTTP认证功能
files: 字典类型，传输文件
timeout: 设定超时时间，秒为单位
proxies: 字典类型，设定访问代理服务器，可以增加登陆验证
allow_redirects: 重定向开关，默认为True
stream: 获取内容立即下载开关，默认为True
verify: 认证SSL证书开关，默认为True
cert: 本地SSL证书路径

三、用法介绍

具体见 requests 库

英文版
中文版

（一）HTTP请求方法

在HTTP协议中，定义了八种方法来操作指定的资源（下面只会用到GET,POST）：
OPTIONS,HEAD,GET,POST,PUT,DELETE,TRACE,CONNECT。

OPTIONS：使服务器传回该资源所支持的所有HTTP请求方法，可以测试服务器功能是否正常运作。

HEAD：向服务器发出指定资源的请求，只不过服务器将不传回资源的本文部分。
GET：向指定的资源发出“显示”请求。
POST：向指定资源提交数据，请求服务器进行处理（例如提交表单或者上传文件）。
PUT：向指定的资源上传最新内容。
DELETE：请求服务器删除所标识的资源。
TRACE：显示服务器收到的请求，用于测试。
CONNECT：通常用于SSL加密服务器的链接。

>>> r = requests.get('https://github.com/timeline.json')
>>> r = requests.post("http://httpbin.org/post")
>>> r = requests.put("http://httpbin.org/put")
>>> r = requests.delete("http://httpbin.org/delete")
>>> r = requests.head("http://httpbin.org/get")
>>> r = requests.options("http://httpbin.org/get")

（二）表单提交 POST

1、传递URL参数

在传递url参数时，Requests 允许你使用 params 关键字参数，以一个字典来提供这些参数。举例来说，对于网站 http://bin.org/get?key=val 如果你想传递 key1=value1 和 key2=value2到 http://bin.org/get，那么你可以使用以下代码：

>>> payload = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.get("http://httpbin.org/get", params=payload)

通过打印输出该 URL，你能看到 URL 已被正确编码：

>>> print(r.url)
http://httpbin.org/get?key2=value2&key1=value1

2、单选按钮、复选框和其他输入

无论表单多么复杂，仍然只有两件事需要关注的：字段名称和值。
如果你不确定一个输入字段值的数据格式，可以通过浏览器跟踪，看网站的URL链接等
如果遇到一个看着比较复杂的POST表单，并且想查看浏览器向服务器传递了哪些参数，可以用Chrome的审查元素或F12开发者工具查看

3、提交文件，图像，多部分编码的文件

url = 'http://pythonscraping.com/pages/processing2.php'
files = {'file': open('Python-logo',  'rb')}
r = requests.post(url, files=files)
print(r.text)

还可以显式地设置文件名，文件类型和请求头
建议使用二进制打开文件

（三）响应内容 GET

1、编码

我们能读取服务器响应的内容：

>>> import requests
>>> r = requests.get('http://www.baidu.com')

>>> r.encoding
'ISO-8859-1'

从HTTP header中猜测的响应内容编码方式

>>> r.apparant_encoding
'utf-8'

从内容中分析出来的响应内容编码方式,这个方法比较准确

>>>r.encoding = 'utf-8'

如果你改变了编码，每当你访问 r.text ，Request 都将会使用 r.encoding 的新值。

2、不同格式的响应内容

字符串响应内容

>>> r.text

HTTP响应内容的字符串形式，即url对应的页面内容

二进制响应内容

>>> r.content
b'[{"repository":{"open_issues":0,"url":"https://github.com/...

HTTP响应内容的二进制形式
如果一张图片是以二进制存储的，就可以通过这样来还原图片

json响应内容

>>> import requests
>>> r = requests.get('https://github.com/timeline.json')
>>> r.json()
[{u'repository': {u'open_issues': 0, u'url': 'https://github.com/...

原始响应内容

（四）定制请求头 headers

如果你想为请求添加 HTTP 头部，只要简单地传递一个 dict 给 headers 参数就可以了。

>>> url = 'https://api.github.com/some/endpoint'
>>> headers = {'user-agent': 'my-app/0.0.1'}
>>> r = requests.get(url, headers=headers)

注意: 所有的 header 值必须是 string、bytestring 或者 unicode。尽管传递 unicode header 也是允许的，但不建议这样做。

1、浏览器头

headers = {
'Host': 'blog.csdn.net',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8',
'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
'Accept-Encoding': 'gzip, deflate',
'Referer': 'http://www.baidu.com',
'Connection': 'keep-alive',
'Cache-Control': 'max-age=0',
}

2、移动端头

headers = {
'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2896.3 Mobile Safari/537.36'
}
headers里也可以传入 cookies

3、响应头，响应状态码

statu_code

（五）、处理登录和cookie

如果某个响应中包含一些 cookie，你可以快速访问它们：

>>> url = 'http://example.com/some/cookie/setting/url'
>>> r = requests.get(url)
>>> r.cookies['example_cookie_name']
'example_cookie_value'

要想发送你的cookies到服务器，可以使用 cookies 参数：

>>> url = 'http://httpbin.org/cookies'
>>> cookies = dict(cookies_are='working')
>>> r = requests.get(url, cookies=cookies)
>>> r.text
'{"cookies": {"cookies_are": "working"}}'

对于一些复杂网站经常调整cookie或者你从一开始就完全不想要用cookie，可以用会话对象 session 函数
一班都会直接将 cookies 传入 headers 里

（六）重定向与请求历史

（七）超时

你可以告诉 requests 在经过以 timeout 参数设定的秒数时间之后停止等待响应：

>>> requests.get('http://github.com', timeout=0.001)
Traceback (most recent call last):
  File "", line 1, in 
requests.exceptions.Timeout: HTTPConnectionPool(host='github.com', port=80): Request timed out. (timeout=0.001)

（八）错误与异常

ConnectionError 遇到网络问题如：DNS 查询失败、拒绝连接等

HTTPError HTTP错误
URL.Required URL缺失异常
TooManyRedirects 请求超过了设定的最大重定向次数
ConnectTimeout 连接远程服务器超时异常
Timeout 请求URL超时，产生超时异常
所有Requests显式抛出的异常都继承自 requests.exceptions.RequestException

r.raise_for_status() 如果不是 200 产生异常requests.HTTPError