(二)Requests

一、 requests_demo

#通用代码框架
import requests 
def getHTMLText(url):
      try:
          r = requests.get(url, timeout=30)
          r.raise_for_status() #如果状态不是200,引发HTTPError异常
          r.encoding = r.apparent_encoding
          return r.text
      except:
              return "产生异常"

if __name__ == "__main__":
      url = "http://www.baidu.com"
      html = getHTMLText(url)

二、综述

requests.request(method, url, **kwargs)

  • method : HTTP请求方式7种,作为爬虫最常使用 GET
  • **kwargs : 控制访问的参数,均为可选项:
  • params: 字典或字节序列,作为参数增加到url中
  • data: 字典、字节序列或文件对象,作为Requests的内容
  • json: JSON格式的数据,作为Requests的内容
  • headers: 字典,HTTP定制头
  • cookies: 字典或CookieJar, Requests中的cookie
  • auth: 元组,支持HTTP认证功能
  • files: 字典类型,传输文件
  • timeout: 设定超时时间,秒为单位
  • proxies: 字典类型,设定访问代理服务器,可以增加登陆验证
  • allow_redirects: 重定向开关,默认为True
  • stream: 获取内容立即下载开关,默认为True
  • verify: 认证SSL证书开关,默认为True
  • cert: 本地SSL证书路径

三、用法介绍

具体见 requests 库

  • 英文版
  • 中文版

(一)HTTP请求方法

在HTTP协议中,定义了八种方法来操作指定的资源(下面只会用到GET,POST):
OPTIONS,HEAD,GET,POST,PUT,DELETE,TRACE,CONNECT。

  • OPTIONS:使服务器传回该资源所支持的所有HTTP请求方法,可以测试服务器功能是否正常运作。
  • HEAD:向服务器发出指定资源的请求,只不过服务器将不传回资源的本文部分。
  • GET:向指定的资源发出“显示”请求。
  • POST:向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件)。
  • PUT:向指定的资源上传最新内容。
  • DELETE:请求服务器删除所标识的资源。
  • TRACE:显示服务器收到的请求,用于测试。
  • CONNECT:通常用于SSL加密服务器的链接。
>>> r = requests.get('https://github.com/timeline.json')
>>> r = requests.post("http://httpbin.org/post")
>>> r = requests.put("http://httpbin.org/put")
>>> r = requests.delete("http://httpbin.org/delete")
>>> r = requests.head("http://httpbin.org/get")
>>> r = requests.options("http://httpbin.org/get")

(二)表单提交 POST

1、传递URL参数

在传递url参数时,Requests 允许你使用 params 关键字参数,以一个字典来提供这些参数。举例来说,对于网站 http://bin.org/get?key=val 如果你想传递 key1=value1 和 key2=value2到 http://bin.org/get,那么你可以使用以下代码:

>>> payload = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.get("http://httpbin.org/get", params=payload)

通过打印输出该 URL,你能看到 URL 已被正确编码:

>>> print(r.url)
http://httpbin.org/get?key2=value2&key1=value1
2、单选按钮、复选框和其他输入

无论表单多么复杂,仍然只有两件事需要关注的:字段名称和值。
如果你不确定一个输入字段值的数据格式,可以通过浏览器跟踪,看网站的URL链接等
如果遇到一个看着比较复杂的POST表单,并且想查看浏览器向服务器传递了哪些参数,可以用Chrome的审查元素或F12开发者工具查看

3、提交文件,图像,多部分编码的文件
url = 'http://pythonscraping.com/pages/processing2.php'
files = {'file': open('Python-logo',  'rb')}
r = requests.post(url, files=files)
print(r.text)

还可以显式地设置文件名,文件类型和请求头
建议使用二进制打开文件

(三)响应内容 GET

1、编码

我们能读取服务器响应的内容:

>>> import requests
>>> r = requests.get('http://www.baidu.com')
>>> r.encoding
'ISO-8859-1'

从HTTP header中猜测的响应内容编码方式

>>> r.apparant_encoding
'utf-8'

从内容中分析出来的响应内容编码方式,这个方法比较准确

>>>r.encoding = 'utf-8'

如果你改变了编码,每当你访问 r.text ,Request 都将会使用 r.encoding 的新值。

2、不同格式的响应内容
字符串响应内容
>>> r.text

HTTP响应内容的字符串形式,即url对应的页面内容

二进制响应内容
>>> r.content
b'[{"repository":{"open_issues":0,"url":"https://github.com/...

HTTP响应内容的二进制形式
如果一张图片是以二进制存储的,就可以通过这样来还原图片

json响应内容
>>> import requests
>>> r = requests.get('https://github.com/timeline.json')
>>> r.json()
[{u'repository': {u'open_issues': 0, u'url': 'https://github.com/...
原始响应内容

(四)定制请求头 headers

如果你想为请求添加 HTTP 头部,只要简单地传递一个 dict 给 headers 参数就可以了。

>>> url = 'https://api.github.com/some/endpoint'
>>> headers = {'user-agent': 'my-app/0.0.1'}
>>> r = requests.get(url, headers=headers)

注意: 所有的 header 值必须是 string、bytestring 或者 unicode。尽管传递 unicode header 也是允许的,但不建议这样做。

1、浏览器头

headers = {
'Host': 'blog.csdn.net',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8',
'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
'Accept-Encoding': 'gzip, deflate',
'Referer': 'http://www.baidu.com',
'Connection': 'keep-alive',
'Cache-Control': 'max-age=0',
}

2、移动端头

headers = {
'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2896.3 Mobile Safari/537.36'
}
headers里也可以传入 cookies

3、响应头,响应状态码

statu_code

(五)、 处理登录和cookie

如果某个响应中包含一些 cookie,你可以快速访问它们:

>>> url = 'http://example.com/some/cookie/setting/url'
>>> r = requests.get(url)
>>> r.cookies['example_cookie_name']
'example_cookie_value'

要想发送你的cookies到服务器,可以使用 cookies 参数:

>>> url = 'http://httpbin.org/cookies'
>>> cookies = dict(cookies_are='working')
>>> r = requests.get(url, cookies=cookies)
>>> r.text
'{"cookies": {"cookies_are": "working"}}'

对于一些复杂网站经常调整cookie或者你从一开始就完全不想要用cookie,可以用会话对象 session 函数
一班都会直接将 cookies 传入 headers 里

(六)重定向与请求历史

(七)超时

你可以告诉 requests 在经过以 timeout 参数设定的秒数时间之后停止等待响应:

>>> requests.get('http://github.com', timeout=0.001)
Traceback (most recent call last):
  File "", line 1, in 
requests.exceptions.Timeout: HTTPConnectionPool(host='github.com', port=80): Request timed out. (timeout=0.001)

(八)错误与异常

  • ConnectionError 遇到网络问题如:DNS 查询失败、拒绝连接等
  • HTTPError HTTP错误

  • URL.Required URL缺失异常

  • TooManyRedirects 请求超过了设定的最大重定向次数

  • ConnectTimeout 连接远程服务器超时异常
    Timeout 请求URL超时,产生超时异常

  • 所有Requests显式抛出的异常都继承自 requests.exceptions.RequestException

r.raise_for_status() 如果不是 200 产生异常requests.HTTPError

你可能感兴趣的:((二)Requests)