Requests库的基本使用

什么是Requests库?

Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库
如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作。(用了requests之后,你基本都不愿意用urllib了)一句话,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。
默认安装好python之后,是没有安装requests模块的,需要单独通过pip安装

requests功能详解

import requests#导入requests库

r = requests.get('https://www.baidu.com')
print(type(r)) #响应头的类型
print(r.status_code)#状态码
print(type(r.text))#str类型的文本输出
print(r.text)
print(type(r.content))
print(r.content)#bytes类型的文本输出
print(type(r.cookies))
print(r.cookies)

输出结果:


200


 ç�¾åº¦ä¸�ä¸�ï¼�ä½ å°±ç�¥é��  
b'\r\n \xe7\x99\xbe\xe5\xba\xa6\xe4\xb8\x80\xe4\xb8\x8b\xef\xbc\x8c\xe4\xbd\xa0\xe5\xb0\xb1\xe7\x9f\xa5\xe9\x81\x93
\r\n' ]>

我们会发现r.text输出会有乱码的出现。
我们可以先以r.content形式输出,然后再用.decode('utf-8')的形式将r.content转化为r.text

import requests#导入requests库

r = requests.get('https://www.baidu.com')
print(r.content)
print(type(r.content.decode('utf-8')))
print(r.content.decode('utf-8'))

输出结果:

b'\r\n \xe7\x99\xbe\xe5\xba\xa6\xe4\xb8\x80\xe4\xb8\x8b\xef\xbc\x8c\xe4\xbd\xa0\xe5\xb0\xb1\xe7\x9f\xa5\xe9\x81\x93  
\r\n' 百度一下,你就知道

关于百度 About Baidu

©2017 Baidu 使用百度前必读  意见反馈 京ICP证030173号 

我们可以看出response使用起来确实非常方便,这里有个问题需要注意一下:
很多情况下的网站如果直接response.text会出现乱码的问题,所以这个使用response.content
这样返回的数据格式其实是二进制格式,然后通过decode()转换为utf-8,这样就解决了通过response.text直接返回显示乱码的问题.
请求发出后,Requests 会基于 HTTP 头部对响应的编码作出有根据的推测。当你访问 response.text 之时,Requests 会使用其推测的文本编码。你可以找出 Requests 使用了什么编码,并且能够使用 response.encoding 属性来改变它.如:

import requests#导入requests库

r = requests.get('https://www.baidu.com')
print(r.text)
print(r.content.decode('utf-8'))
r.encoding = 'utf-8'
print(r.text)

输出如下:


 ç�¾åº¦ä¸�ä¸�ï¼�ä½ å°±ç�¥é��  
百度一下,你就知道

关于百度 About Baidu

©2017 Baidu 使用百度前必读  意见反馈 京ICP证030173号 

百度一下,你就知道

关于百度 About Baidu

©2017 Baidu 使用百度前必读  意见反馈 京ICP证030173号 

解决乱码的问题:用r.content.decode('utf-8')或者r.encoding = 'utf-8'都可以

Requests的各种请求方式

import requests
requests.post("http://httpbin.org/post")
requests.put("http://httpbin.org/put")
requests.delete("http://httpbin.org/delete")
requests.head("http://httpbin.org/get")
requests.options("http://httpbin.org/get")

我们常用的是get和post请求方式

get请求的基本用法

import requests#导入requests库

url = 'http://httpbin.org/get'
r = requests.get(url)
print(r.text)

输出结果如下:

{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.21.0"
  }, 
  "origin": "218.94.83.135, 218.94.83.135", 
  "url": "https://httpbin.org/get"
}

带参数的GET请求

import requests#导入requests库

url = 'http://httpbin.org/get?name=zhaofan&age=23'
r = requests.get(url)
print(r.text)

输出结果如下:

{
  "args": {
    "age": "23", 
    "name": "zhaofan"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.21.0"
  }, 
  "origin": "218.94.83.135, 218.94.83.135", 
  "url": "https://httpbin.org/get?name=zhaofan&age=23"
}

如果我们想要在URL查询字符串传递数据,通常我们会通过httpbin.org/get?key=val方式传递。Requests模块允许使用params关键字传递参数,以一个字典来传递这些参数,例子如下:

import requests#导入requests库

data = {'name':'zhaofan',
        'age':'23'
        }
url = 'http://httpbin.org/get'
r = requests.get(url, params=data)
print(r.text)

输出如下:

{
  "args": {
    "age": "23", 
    "name": "zhaofan"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.21.0"
  }, 
  "origin": "218.94.83.135, 218.94.83.135", 
  "url": "https://httpbin.org/get?name=zhaofan&age=23"
}

上述两种的结果是相同的,通过params参数传递一个字典内容,从而直接构造url
注意:第二种方式通过字典的方式的时候,如果字典中的参数为None则不会添加到url上

解析json

import requests#导入requests库
import json

url = 'http://httpbin.org/get'
r = requests.get(url)
print(type(r.text))
print(r.text)
print(type(r.json()))
print(r.json())
print(type(json.loads(r.text)))
print(json.loads(r.text))

输出结果如下:


{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.21.0"
  }, 
  "origin": "218.94.83.135, 218.94.83.135", 
  "url": "https://httpbin.org/get"
}


{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.21.0'}, 'origin': '218.94.83.135, 218.94.83.135', 'url': 'https://httpbin.org/get'}

{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.21.0'}, 'origin': '218.94.83.135, 218.94.83.135', 'url': 'https://httpbin.org/get'}

从结果可以看出requests里面集成的json其实就是执行了json.loads()方法,两者的结果是一样的

获取二进制数据

在上面提到了response.content,这样获取的数据是二进制数据,同样的这个方法也可以用于下载图片以及
视频资源

添加headers

和前面我们将urllib模块的时候一样,我们同样可以定制headers的信息,如当我们直接通过requests请求知乎网站的时候,默认是无法访问的

import requests

url = 'https://www.zhihu.com'
r = requests.get(url)
print(r.text)

输出结果如下:


400 Bad Request

400 Bad Request


openresty

我们会发现返回有一个Bad requests,要解决这个问题我们可以尝试添加headers

import requests

url = 'https://www.zhihu.com'
headers = {'user-agent':'mozilla/5.0'}
r = requests.get(url, headers=headers)
print(r.text)

这样就可以正确的访问知乎了

基本POST请求

通过在发送post请求时添加一个data参数,这个data参数可以通过字典构造成,这样
对于发送post请求就非常方便

import requests

url = 'http://httpbin.org/post'
headers = {'user-agent':'mozilla/5.0'}
r = requests.post(url, headers=headers)
print(r.text)

输出结果如下:

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "0", 
    "Host": "httpbin.org", 
    "User-Agent": "mozilla/5.0"
  }, 
  "json": null, 
  "origin": "218.94.83.135, 218.94.83.135", 
  "url": "https://httpbin.org/post"
}

响应

我们可以通过response获得很多属性,例子如下:

import requests

response = requests.post("http://www.baidu.com")
print(type(response.status_code), response.status_code)
print(type(response.cookies), response.cookies)
print(type(response.headers), response.headers)
print(type(response.url), response.url)
print(type(response.history), response.history)
import requests

当然在发送post请求的时候也可以和发送get请求时一样,通过headers传递一个字典型的数据。

import requests

data = {
    "name":"zhaofan",
    "age":23
}
response = requests.post("http://www.zhihu.com",data=data)
print(response.text)

结果如下:


400 Bad Request

400 Bad Request


openresty

我们尝试添加headers

import requests

headers = {
   "user-agent":"mozilla/5.0"
}
data = {
   "name":"zhaofan",
   "age":23
}
response = requests.post("http://www.zhihu.com",headers=headers, data=data)
print(response.text)

这样就可以成功返回数据。

requests的高级用法

文件上传

import requests

files = {'学习资料':open(r'C:\Users\董贺贺\Desktop\学习资料.jpg', 'rb')}
headers = {'user-agent':'mozilla/5.0'}
r = requests.post('http://httpbin.org/post', headers = headers, files=files)
print(r.text)

返回数据显示上传成功:


局部截图

获取cookie

import requests

r =requests.get('https://www.baidu.com')#方法一
print(r.cookies)

for key,value in r.cookies.items():#方法二
    print(key+"="+value)

输出结果如下:

]>
BDORZ=27315

会话维持

import requests

s = requests.session()
s.get('http://httpbin.org/cookies/set/number/123456')
r = s.get('http://httpbin.org/cookies')
print(r.cookies)

上面是正确的的,下面是错误的示范:

import requests

s.get('http://httpbin.org/cookies/set/number/123456')
r = s.get('http://httpbin.org/cookies')
print(r.cookies)

为什么错呢?因为这种方式是两次requests请求之间是独立的,而第一次则是通过创建一个session对象,两次请求都通过这个对象访问。

证书验证

现在的很多网站都是https的方式访问,所以这个时候就涉及到证书的问题
之前可以用12306的网址举例,现在12306的证书都有了,举个鸡儿例子
没有证书你就verify = Flase
这样就可以跨过证书审查这关,不过系统还会提醒你,不进行证书审查不好,那怎么能屏蔽系统的废话呢
from requests.packets import urllib3
urllib3 disable_warning()
即可。

代理设置

import requests

proxies= {
    "http":"http://127.0.0.1:9999",
    "https":"http://127.0.0.1:8888"
}
response  = requests.get("https://www.baidu.com",proxies=proxies)
print(response.text)

如果代理需要设置账户名和密码,只需要将字典更改为如下:
proxies = {
"http":"http://user:[email protected]:9999"
}
如果你的代理是通过sokces这种方式则需要pip install "requests[socks]"
proxies= {
"http":"socks5://127.0.0.1:9999",
"https":"sockes5://127.0.0.1:8888"
}

你可能感兴趣的:(Requests库的基本使用)