python3爬虫(一):请求库之requests

python3爬虫(一):请求库之requests

Request是基于urllib编写、采用Apache2 Licensed开源协议的HTTP库,在使用方面Requests比urllib更加方便

一、HTTP请求

1. GET

requests.get(url [, params={‘key’: ‘value’}])

  • 通过url的查询字符串传递数据时,数据以键值对的形式跟在url的一个问号之后
  • Requests允许使用params关键字参数传递数据

注意:

  • 字典中值为None的键不会添加到查询字符串中
  • 键值可以是列表
import requests

# 无查询字符串
res1 = requests.get('http://www.baidu.com')

# 有查询字符串
data2 = {
	'key1': 'value1',
	'key2': 'value2'
}
res2 = requests.get('http://www.xxx.com', params=data)
print(res2)		# http://www.xxx.com?key1=value1&key2=value2

# 查询字符串中有列表
data3 = {
	'key1': 'value1',
	'key2': ['value2', 'value3']
}
res3 = requests.get('http://www.xxx.com', params=data)
print(res3)		# http://www.xxx.com?key1=value1&key2=value2&key2=value3

2. POST

requests.post(url [, data={‘key’: ‘value’}, json={‘key’: ‘value’}])

  • 以字典形式提交表单数据
  • 可以传入一个元组列表,尤其是表单中多个元素使用同一key
  • 发送数据并非编码为表单形式。如传递一个string,会被直接发布出去
  • 除自行对dict进行编码,可以使用json参数直接传递,会被自动编码
import requests

url = 'http://www.xxx.com'

# 传递字典
data1 = {
	'name': '12345',
	'age': '23'
}
res1 = requests.post(url, data=data1)

# 传递元组
data2 = (('key1', 'value1'), ('key1', 'value2'))
res2 = requests.post(url, data=data2)

import json
data3 = {'some': 'data'}
res3 = requests.post(url, data=json.dumps(payload))

# 数据未编码
data4 = {'some': 'data'}
res4 = requests.post(url, json=data4)

3. PUT

requests.put(url [, data={‘key’: ‘value’}])
以字典形式提交表单数据

import requests

url = 'http://www.xxx.com'
data = {
	'name': '12345',
	'age': '23'
}
res = requests.put(url, data=data)

4. DELETE

requests.delete(url)

import requests
res = requests.delete(url)

5. HEAD

requests.head(url)

import requests
res = requests.head(url)

6. OPTIONS

requests.options(url)

import requests
res = requests.options(url)

二、头部信息

  • 为所有请求(get, post, put, delete等)添加HTTP头部信息,只需要传递一个字典dict给headers参数
  • 所有的header值类型:string, bytestring, unicode(不建议使用unicode)
  • 大小写不敏感

注意:定制header的优先级低于某些特定的信息源

import requests

url = 'http://www.baidu.com'
headers = {'user-agent': 'xxxxxxxxxxxxxx'}
res = requests.get(url, headers=headers)

三、Respone对象

使用requests方法后,会返回 respone 对象,存储了服务器相应内容

  • res.text:读取已被解码的服务器响应的内容
    • 基于HTTP头部对响应的编码作出的推测进行内容编码
    • 能够使用 res.encoding 来改变编码方式
import requests
res - requests.get('https://api.github.com/events')
pirnt(res.text)		# u'[{"repository":{"open_issues":0,"url":"https://github.com/...
  • res.encoding:响应内容的编码方式
    • getter:查询当前响应内容的编码方式
    • setter:改变当前响应内容的编码方式
  • res.content:二进制响应内容
    • 以字节的形式访问请求响应体
    • 会自动解码 gzip 和 deflate 传输编码的响应数据
import requests
res - requests.get('https://api.github.com/events')
pirnt(res.content)		# b'[{"repository":{"open_issues":0,"url":"https://github.com/...

# 请求返回的二进制数据创建一张图片
from PIL import Image
from io import BytesIO
i = Image.open(BytesIO(res.content))
  • res.json():返回JSON数据
    • 内置的JSON解码器,有助于处理JSON数据
    • 解码失败,则会抛出一个异常

注意:调用 res.json() 成功不意味着响应成功(有时响应失败也会包含一个JSON对象)

import requests
res - requests.get('https://api.github.com/events')
pirnt(res.json())		# [{u'repository': {u'open_issues': 0, u'url': 'https://github.com/...
  • res.raw:原始响应内容
    • 在初始请求中设置 stream=True
    • 可以使用 res.iter_content(xxx)处理大量直接使用 res.raw 不得不处理的
res = requests.get('https://api.github.com/events', stream=True)
print(res.raw)		# 
print(res.raw.read(10))		# '\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03'

# 一般情况下,以下面的模式将文本刘保存到文件
with open(filename, 'wb') as fd:
	for chunk in r.iter_content(chunk_size):
		fd.write(chunk)
  • res.status_code:检测响应的状态码
    • 可以使用 Requests 内置的状态码 requests.codes.xx 查询对象
res = resquests.get('http://www.xxx.com')
print(res.status_code)		# 200
print(res.status_code == requests.code.ok)		# True
  • res.raise_for_status():抛出异常

    • 当发送了错误请求,可使用 res.raise_for_status() 来抛出异常
    • 当发送了正确请求时,res.raise_for_status()返回None
  • res.headers:查看服务器响应头

    • 以字典 dict 形式展示响应头
    • 大小写不敏感
    • 服务器可以多次接受同一header,每次都使用不同的值,但Requests胡将它们合并
  • res.cookies:访问响应中的cookie

  • res.history:追踪重定向

四、Cookie

1. 访问cookies

使用 respone.cookies 访问服务器响应中包含的cookie

url = 'http://www.xxx.com'
res = requests.get(url)
print(res.cookies)

2. 发送cookies

  • 发送HTTP请求时,使用 cookies 参数
  • 类型:
    • 字典 dict
    • RequestsCookieJar对象(行为与字典类似,但接口更为完整,适合跨域名、跨路径使用)
url = 'http://www.xxx.com'

cookies1 = {'key': 'value'}
res1 = requests.get(url, cookies.cookies1)

cookies2  = requests.cookies.RequestsCookieJar()
cookies2.set('key', 'value', domain='...', path='...')		# domain:有效域,path:有效路径
res2 = resquests.get(url, cookies=cookies2)

五、文件上传

发型POST请求时,使用 files 文件

  • 上传多部分编码(Multipart-Encoded)文件
url = 'http://httpbin.org/post'
files = {'file': open('report.xls', 'rb')}
res = requests.post(url, files=files)
  • 显示地设置文件名、文件类型、请求头
url = 'http://httpbin.org/post'
files = {'file': ('report.xls', open('report.xls', 'rb'), 'application/vnd.ms-excel', {'Expires': '0'})}
res = requests.post(url, files=files)
  • 发送作为文件来接受的字符串
url = 'http://httpbin.org/post'
files = {'file': ('report.csv', 'some,data,to,send\nanother,row,to,send\n')}
 res = requests.post(url, files=files)

注意:

  • 发送一个非常大的文件作为 multipart/form-data 请求,requests不支持将请求做成数据流,但第三方包 requests-toolbelt支持
  • 强烈建议用二进制模式(binary mode)打开文件(原因:Requests试图提供Content-Length header,会被设为文件的字节数),而不是文本模式(text mode)

六、重定向与请求历史

  • 默认情况下,除了HEAD,Requests会自动处理所有重定向
  • res.history是一个response对象的列表,按照从最老到最近的请求进行排序
  • get, post, put, patch, delete, options请求可以通过 allow_redirects参数禁用重定向处理
  • head请求也可以使用 allow_redirects 启用重定向
    allow_redirects:默认为 True(启用)

七、超时 timeout

  • 发送HTTP请求时,使用 timeout参数设定超时时间以停止等待响应
  • 一般都应使用该参数
  • 仅对连接过程有效,与响应提的下载无关

八、错误与异常

所有显示抛出的异常都继承自Requests.exceptions.RequestException

  • 网络问题(DNS查询失败、拒绝连接等):Requests抛出 ConnectionError异常
  • HTTP请求返回了不成功的状态码:Response.raise_for_status()抛出HTTPError异常
  • 请求超时:Timeout异常
  • 请求超过了设定的最大重定向次数:TooManyRedirects异常

你可能感兴趣的:(python)