一、介绍
Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib 更加 Pythoner。更重要的一点是它支持 Python3!
二、安装
- pip安装
pip install requests
- GitHub下载安装
$ git clone git://github.com/kennethreitz/requests.git
$ cd requests
$ python setup.py install
三、使用
Request库的几个主要方法
- requests.request():构造一个请求,支持以下各种方法
- requests.get():获取html的主要方法
- requests.head():获取html头部信息的主要方法
- requests.post():向html网页提交post请求的方法
- requests.put():向html网页提交put请求的方法
- requests.patch():向html提交局部修改的请求
- requests.delete():向html提交删除请求
requests.get()
# 具体参数
requests.get(url,params,**kwargs)
- url: 需要爬取的网站地址。
- params: 参数,使用这个参数可以把一些键值对以?key1=value1&key2=value2的模式增加到url中
- **kwargs : 12个控制访问的参数
- 简单的使用
import requests
response = requests.get('https://www.baidu.com') # 最基本的GET请求
print(response .status_code) # 获取返回状态
- 12个**kwargs
- data:字典,字节序或文件对象,重点作为向服务器提供或提交资源是提交。作为request的内容,与params不同的是,data提交的数据并不放在url链接里, 而是放在url链接对应位置的地方作为数据来存储。它也可以接受一个字符串对象。
- json:json格式的数据, json合适在相关的html,http相关的web开发中非常常见, 也是http最经常使用的数据格式, 他是作为内容部分可以向服务器提交。
- headers:字典是http的相关语,对应了向某个url访问时所发起的http的头i字段, 可以用这个字段来定义http的访问的http头,可以用来模拟任何我们想模拟的浏览器来对url发起访问。
- cookies:字典或CookieJar,指的是从http中解析cookie
- auth:元组,用来支持http认证功能
- files:字典, 是用来向服务器传输文件时使用的字段。
- timeout: 用于设定超时时间, 单位为秒,当发起一个get请求时可以设置一个timeout时间, 如果在timeout时间内请求内容没有返回, 将产生一个timeout的异常。
- proxies:字典, 用来设置访问代理服务器。
- allow_redirects: 开关, 表示是否允许对url进行重定向, 默认为True。
- stream: 开关, 指是否对获取内容进行立即下载, 默认为True。
- verify:开关, 用于认证SSL证书, 默认为True。
- cert: 用于设置保存本地SSL证书路径
- 带参数的Get请求
# 复杂的get请求
import requests
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
url = "https://www.baidu.com/s"
params = {
"ie":"utf-8",
"kw":"校花"
}
r = requests.get(url=url,headers=headers,params=params)
# get请求的参数用params形参来接收,接收的时候字典就行
print(r.status_code)
- 获取cookies
import requests
r = requests.get('http://www.google.com.hk/')
print(r.cookies['NID'])
print(tuple(r.cookies))
对于某些需要登录才能访问的网站,获取到Cookies后,下次请求时我们可以携带Cookies进行网站的访问
- 携带cookie
import requests
url = 'http://httpbin.org/cookies'
cookies = {'testCookies_1': 'Hello_Python3', 'testCookies_2': 'Hello_Requests'}
# 在Cookie Version 0中规定空格、方括号、圆括号、等于号、逗号、双引号、斜杠、问号、@,冒号,分号等特殊符号都不能作为Cookie的内容。
r = requests.get(url, cookies=cookies)
print(r.json())
requests有一个Session对象可以用于保存会话。练习将使用Session对象来保存对话
- 上传文件
# 上传图片
import requests
url = 'http://127.0.0.1:5000/upload'
files = {'file': open('./test.jpg', 'rb')}
#files = {'file': ('test.jpg', open('/test.jpg', 'rb'))} #显式的设置文件名
r = requests.post(url, files=files)
print(r.text)
# 把字符串当成文件进行上传
import requests
url = 'http://127.0.0.1:5000/upload'
files = {'file': ('test.txt', b'Hello Requests.')} #必需显式的设置文件名
r = requests.post(url, files=files)
print(r.text)
- 使用代理
import requests
proxies = {
"http": "http://10.10.1.10:3128",
"https": "http://10.10.1.10:1080",
}
requests.get("http://www.zhidaow.com", proxies=proxies)
response的对象属性
- 对象属性
- status_code:请求的返回状态,若为200则表示请求成功。
- text:响应内容的字符串形式,即返回的页面内容
- encoding:从http header 中猜测的相应内容编码方式
- apparent_encoding:从内容中分析出的响应内容编码方式(备选编码方式)
- content:响应内容的二进制形式返回
- 使用
>>> import requests
>>> r=requests.get("http://www.baidu.com")
>>> r.status_code
200
>>> r.encoding
'ISO-8859-1'
>>> r.apparent_encoding
'utf-8'
>>> r.content
'\r\n ipt> æ\x9b´å¤\x9a产å\x93\x81