Python3的第三方Requests库

一、介绍

Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib 更加 Pythoner。更重要的一点是它支持 Python3!

二、安装

  • pip安装
pip install requests
  • GitHub下载安装
$ git clone git://github.com/kennethreitz/requests.git
$ cd requests
$ python setup.py install

三、使用

Request库的几个主要方法

  • requests.request():构造一个请求,支持以下各种方法
  • requests.get():获取html的主要方法
  • requests.head():获取html头部信息的主要方法
  • requests.post():向html网页提交post请求的方法
  • requests.put():向html网页提交put请求的方法
  • requests.patch():向html提交局部修改的请求
  • requests.delete():向html提交删除请求

requests.get()

# 具体参数
requests.get(url,params,**kwargs)

- url: 需要爬取的网站地址。
- params: 参数,使用这个参数可以把一些键值对以?key1=value1&key2=value2的模式增加到url中 
- **kwargs : 12个控制访问的参数 
  • 简单的使用
import requests
 
response = requests.get('https://www.baidu.com')    # 最基本的GET请求
print(response .status_code)    # 获取返回状态
  • 12个**kwargs
- data:字典,字节序或文件对象,重点作为向服务器提供或提交资源是提交。作为request的内容,与params不同的是,data提交的数据并不放在url链接里, 而是放在url链接对应位置的地方作为数据来存储。它也可以接受一个字符串对象。
- json:json格式的数据, json合适在相关的html,http相关的web开发中非常常见, 也是http最经常使用的数据格式, 他是作为内容部分可以向服务器提交。
- headers:字典是http的相关语,对应了向某个url访问时所发起的http的头i字段, 可以用这个字段来定义http的访问的http头,可以用来模拟任何我们想模拟的浏览器来对url发起访问。 
- cookies:字典或CookieJar,指的是从http中解析cookie
- auth:元组,用来支持http认证功能
- files:字典, 是用来向服务器传输文件时使用的字段。
- timeout: 用于设定超时时间, 单位为秒,当发起一个get请求时可以设置一个timeout时间, 如果在timeout时间内请求内容没有返回, 将产生一个timeout的异常。
- proxies:字典, 用来设置访问代理服务器。
- allow_redirects: 开关, 表示是否允许对url进行重定向, 默认为True。
- stream: 开关, 指是否对获取内容进行立即下载, 默认为True。
- verify:开关, 用于认证SSL证书, 默认为True。
- cert: 用于设置保存本地SSL证书路径
  • 带参数的Get请求
# 复杂的get请求
import requests
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
url = "https://www.baidu.com/s"
params = {
    "ie":"utf-8",
    "kw":"校花"
}

r = requests.get(url=url,headers=headers,params=params)
# get请求的参数用params形参来接收,接收的时候字典就行
print(r.status_code)

  • 获取cookies
import requests
 
r = requests.get('http://www.google.com.hk/')
print(r.cookies['NID'])
print(tuple(r.cookies))

对于某些需要登录才能访问的网站,获取到Cookies后,下次请求时我们可以携带Cookies进行网站的访问

  • 携带cookie
import requests
 
url = 'http://httpbin.org/cookies'
cookies = {'testCookies_1': 'Hello_Python3', 'testCookies_2': 'Hello_Requests'}
# 在Cookie Version 0中规定空格、方括号、圆括号、等于号、逗号、双引号、斜杠、问号、@,冒号,分号等特殊符号都不能作为Cookie的内容。
r = requests.get(url, cookies=cookies)
print(r.json())

requests有一个Session对象可以用于保存会话。练习将使用Session对象来保存对话

  • 上传文件
# 上传图片
import requests
 
url = 'http://127.0.0.1:5000/upload'
files = {'file': open('./test.jpg', 'rb')}
#files = {'file': ('test.jpg', open('/test.jpg', 'rb'))}     #显式的设置文件名
 
r = requests.post(url, files=files)
print(r.text)


# 把字符串当成文件进行上传
import requests
 
url = 'http://127.0.0.1:5000/upload'
files = {'file': ('test.txt', b'Hello Requests.')}     #必需显式的设置文件名
 
r = requests.post(url, files=files)
print(r.text)
  • 使用代理
import requests

proxies = {
  "http": "http://10.10.1.10:3128",
  "https": "http://10.10.1.10:1080",
}

requests.get("http://www.zhidaow.com", proxies=proxies)

response的对象属性

  • 对象属性
- status_code:请求的返回状态,若为200则表示请求成功。
- text:响应内容的字符串形式,即返回的页面内容
- encoding:从http header 中猜测的相应内容编码方式
- apparent_encoding:从内容中分析出的响应内容编码方式(备选编码方式)
- content:响应内容的二进制形式返回
  • 使用
>>> import requests
>>> r=requests.get("http://www.baidu.com")
>>> r.status_code
200

>>>  r.encoding
'ISO-8859-1'

>>> r.apparent_encoding
'utf-8'

>>> r.content
'\r\n ipt> æ\x9b´å¤\x9a产å\x93\x81 

æ\x84\x8fè§\x81å\x8f\x8dé¦\x88 äº¬ICPè¯\x81030173å\x8f· 

\r\n' >>> r.encoding='utf-8' >>> r.text '\r\n   意见反馈 京ICP证030173号 

\r\n'

练习

import requests

# 主页url
url = "https://weibo.cn/6370062528/info"
# 登录接口
login_url = "https://passport.weibo.cn/sso/login"

# 请求头
headers = {
    'Accept': '*/*',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Connection': 'keep-alive',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
    'Host': 'passport.weibo.cn',
    'Origin': 'https://passport.weibo.cn',
    'Referer': 'https://passport.weibo.cn/signin/login?entry=mweibo&r=https%3A%2F%2Fweibo.cn%2F%3Fluicode%3D20000174&backTitle=%CE%A2%B2%A9&vt='

}
# 请求体
data = {
    'username':'USERNAME',
    'password': 'PASSWORD',
    'savestate':'1',
    'r': 'https://weibo.cn/?luicode=20000174',
    'ec': '0',
    'pagerefer': 'https://weibo.cn/pub/?vt=',
    'entry': 'mweibo',
    'wentry':'',
    'loginfrom':'',
    'client_id':'',
    'code':'',
    'qq':'',
    'mainpageflag': '1',
    'hff':'',
    'hfp':''
}

# r = requests.post(url=login_url,data=data,headers=headers)
# 【注意】requests无法保存会话信息

# requests有一个Session对象可以用于保存会话。这样在我们登录完成后就可以再访问主页了。当然你也可以选择不使用Session来保存会话,而选择在登录完成后再访问主页的时候携带你的cookies。
s = requests.Session()
r = s.post(url=login_url,data=data,headers=headers)
print(r.text)


res = s.get(url=url,headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'})
print(res.status_code)

with open("weibo.html",'wb') as fp:
    fp.write(res.content)

你可能感兴趣的:(Python3的第三方Requests库)