什么是Requests库？

Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库
如果你看过上篇文章关于urllib库的使用，你会发现，其实urllib还是非常不方便的，而Requests它会比urllib更加方便，可以节约我们大量的工作。（用了requests之后，你基本都不愿意用urllib了）一句话，requests是python实现的最简单易用的HTTP库，建议爬虫使用requests库。
默认安装好python之后，是没有安装requests模块的，需要单独通过pip安装

requests功能详解

import requests#导入requests库

r = requests.get('https://www.baidu.com')
print(type(r)) #响应头的类型
print(r.status_code)#状态码
print(type(r.text))#str类型的文本输出
print(r.text)
print(type(r.content))
print(r.content)#bytes类型的文本输出
print(type(r.cookies))
print(r.cookies)

输出结果：


200


 ç�¾åº¦ä¸�ä¸�ï¼�ä½ å°±ç�¥é��         
        
 
 
  æ�°é�» hao123 å�°å�¾ è§�é¢� è´´å�§   æ�´å¤�äº§å�� 
 
 
    å
³äº�ç�¾åº¦ About Baidu 
 ©2017 Baidu ä½¿ç�¨ç�¾åº¦å��å¿
è¯»  æ��è§�å��é¦� äº¬ICPè¯�030173å�·   
 
 
   


b'\r\n \xe7\x99\xbe\xe5\xba\xa6\xe4\xb8\x80\xe4\xb8\x8b\xef\xbc\x8c\xe4\xbd\xa0\xe5\xb0\xb1\xe7\x9f\xa5\xe9\x81\x93         
        
 
 
  \xe6\x96\xb0\xe9\x97\xbb hao123 \xe5\x9c\xb0\xe5\x9b\xbe \xe8\xa7\x86\xe9\xa2\x91 \xe8\xb4\xb4\xe5\x90\xa7   \xe6\x9b\xb4\xe5\xa4\x9a\xe4\xba\xa7\xe5\x93\x81 
 
 
    \xe5\x85\xb3\xe4\xba\x8e\xe7\x99\xbe\xe5\xba\xa6 About Baidu 
 ©2017 Baidu \xe4\xbd\xbf\xe7\x94\xa8\xe7\x99\xbe\xe5\xba\xa6\xe5\x89\x8d\xe5\xbf\x85\xe8\xaf\xbb  \xe6\x84\x8f\xe8\xa7\x81\xe5\x8f\x8d\xe9\xa6\x88 \xe4\xba\xacICP\xe8\xaf\x81030173\xe5\x8f\xb7   
 
 
   \r\n'

]>

我们会发现r.text输出会有乱码的出现。
我们可以先以r.content形式输出，然后再用.decode('utf-8')的形式将r.content转化为r.text

import requests#导入requests库

r = requests.get('https://www.baidu.com')
print(r.content)
print(type(r.content.decode('utf-8')))
print(r.content.decode('utf-8'))

输出结果：

b'\r\n \xe7\x99\xbe\xe5\xba\xa6\xe4\xb8\x80\xe4\xb8\x8b\xef\xbc\x8c\xe4\xbd\xa0\xe5\xb0\xb1\xe7\x9f\xa5\xe9\x81\x93         
        
 
 
  \xe6\x96\xb0\xe9\x97\xbb hao123 \xe5\x9c\xb0\xe5\x9b\xbe \xe8\xa7\x86\xe9\xa2\x91 \xe8\xb4\xb4\xe5\x90\xa7   \xe6\x9b\xb4\xe5\xa4\x9a\xe4\xba\xa7\xe5\x93\x81 
 
 
    \xe5\x85\xb3\xe4\xba\x8e\xe7\x99\xbe\xe5\xba\xa6 About Baidu 
 ©2017 Baidu \xe4\xbd\xbf\xe7\x94\xa8\xe7\x99\xbe\xe5\xba\xa6\xe5\x89\x8d\xe5\xbf\x85\xe8\xaf\xbb  \xe6\x84\x8f\xe8\xa7\x81\xe5\x8f\x8d\xe9\xa6\x88 \xe4\xba\xacICP\xe8\xaf\x81030173\xe5\x8f\xb7   
 
 
   \r\n'


 百度一下，你就知道         
        
 
 
  新闻 hao123 地图 视频 贴吧   更多产品 
 
 
    关于百度 About Baidu 
 ©2017 Baidu 使用百度前必读  意见反馈 京ICP证030173号

我们可以看出response使用起来确实非常方便，这里有个问题需要注意一下：
很多情况下的网站如果直接response.text会出现乱码的问题，所以这个使用response.content
这样返回的数据格式其实是二进制格式，然后通过decode()转换为utf-8，这样就解决了通过response.text直接返回显示乱码的问题.
请求发出后，Requests 会基于 HTTP 头部对响应的编码作出有根据的推测。当你访问 response.text 之时，Requests 会使用其推测的文本编码。你可以找出 Requests 使用了什么编码，并且能够使用 response.encoding 属性来改变它.如：

import requests#导入requests库

r = requests.get('https://www.baidu.com')
print(r.text)
print(r.content.decode('utf-8'))
r.encoding = 'utf-8'
print(r.text)

输出如下：


 ç�¾åº¦ä¸�ä¸�ï¼�ä½ å°±ç�¥é��         
        
 
 
  æ�°é�» hao123 å�°å�¾ è§�é¢� è´´å�§   æ�´å¤�äº§å�� 
 
 
    å
³äº�ç�¾åº¦ About Baidu 
 ©2017 Baidu ä½¿ç�¨ç�¾åº¦å��å¿
è¯»  æ��è§�å��é¦� äº¬ICPè¯�030173å�·   
 
 
   


 百度一下，你就知道         
        
 
 
  新闻 hao123 地图 视频 贴吧   更多产品 
 
 
    关于百度 About Baidu 
 ©2017 Baidu 使用百度前必读  意见反馈 京ICP证030173号   
 
 
   


 百度一下，你就知道         
        
 
 
  新闻 hao123 地图 视频 贴吧   更多产品 
 
 
    关于百度 About Baidu 
 ©2017 Baidu 使用百度前必读  意见反馈 京ICP证030173号

解决乱码的问题：用r.content.decode('utf-8')或者r.encoding = 'utf-8'都可以

Requests的各种请求方式

import requests
requests.post("http://httpbin.org/post")
requests.put("http://httpbin.org/put")
requests.delete("http://httpbin.org/delete")
requests.head("http://httpbin.org/get")
requests.options("http://httpbin.org/get")

我们常用的是get和post请求方式

get请求的基本用法

import requests#导入requests库

url = 'http://httpbin.org/get'
r = requests.get(url)
print(r.text)

输出结果如下：

{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.21.0"
  }, 
  "origin": "218.94.83.135, 218.94.83.135", 
  "url": "https://httpbin.org/get"
}

带参数的GET请求

import requests#导入requests库

url = 'http://httpbin.org/get?name=zhaofan&age=23'
r = requests.get(url)
print(r.text)

输出结果如下：

{
  "args": {
    "age": "23", 
    "name": "zhaofan"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.21.0"
  }, 
  "origin": "218.94.83.135, 218.94.83.135", 
  "url": "https://httpbin.org/get?name=zhaofan&age=23"
}

如果我们想要在URL查询字符串传递数据，通常我们会通过httpbin.org/get?key=val方式传递。Requests模块允许使用params关键字传递参数，以一个字典来传递这些参数，例子如下：

import requests#导入requests库

data = {'name':'zhaofan',
        'age':'23'
        }
url = 'http://httpbin.org/get'
r = requests.get(url, params=data)
print(r.text)

输出如下：

{
  "args": {
    "age": "23", 
    "name": "zhaofan"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.21.0"
  }, 
  "origin": "218.94.83.135, 218.94.83.135", 
  "url": "https://httpbin.org/get?name=zhaofan&age=23"
}

上述两种的结果是相同的，通过params参数传递一个字典内容，从而直接构造url
注意：第二种方式通过字典的方式的时候，如果字典中的参数为None则不会添加到url上

解析json

import requests#导入requests库
import json

url = 'http://httpbin.org/get'
r = requests.get(url)
print(type(r.text))
print(r.text)
print(type(r.json()))
print(r.json())
print(type(json.loads(r.text)))
print(json.loads(r.text))

输出结果如下:


{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.21.0"
  }, 
  "origin": "218.94.83.135, 218.94.83.135", 
  "url": "https://httpbin.org/get"
}


{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.21.0'}, 'origin': '218.94.83.135, 218.94.83.135', 'url': 'https://httpbin.org/get'}

{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.21.0'}, 'origin': '218.94.83.135, 218.94.83.135', 'url': 'https://httpbin.org/get'}

从结果可以看出requests里面集成的json其实就是执行了json.loads()方法，两者的结果是一样的

获取二进制数据

在上面提到了response.content，这样获取的数据是二进制数据，同样的这个方法也可以用于下载图片以及
视频资源

添加headers

和前面我们将urllib模块的时候一样，我们同样可以定制headers的信息，如当我们直接通过requests请求知乎网站的时候，默认是无法访问的

import requests

url = 'https://www.zhihu.com'
r = requests.get(url)
print(r.text)

输出结果如下：


400 Bad Request

400 Bad Request
openresty

我们会发现返回有一个Bad requests,要解决这个问题我们可以尝试添加headers

import requests

url = 'https://www.zhihu.com'
headers = {'user-agent':'mozilla/5.0'}
r = requests.get(url, headers=headers)
print(r.text)

这样就可以正确的访问知乎了

基本POST请求

通过在发送post请求时添加一个data参数，这个data参数可以通过字典构造成，这样
对于发送post请求就非常方便

import requests

url = 'http://httpbin.org/post'
headers = {'user-agent':'mozilla/5.0'}
r = requests.post(url, headers=headers)
print(r.text)

输出结果如下：

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "0", 
    "Host": "httpbin.org", 
    "User-Agent": "mozilla/5.0"
  }, 
  "json": null, 
  "origin": "218.94.83.135, 218.94.83.135", 
  "url": "https://httpbin.org/post"
}

响应

我们可以通过response获得很多属性，例子如下：

import requests

response = requests.post("http://www.baidu.com")
print(type(response.status_code), response.status_code)
print(type(response.cookies), response.cookies)
print(type(response.headers), response.headers)
print(type(response.url), response.url)
print(type(response.history), response.history)
import requests

当然在发送post请求的时候也可以和发送get请求时一样，通过headers传递一个字典型的数据。

import requests

data = {
    "name":"zhaofan",
    "age":23
}
response = requests.post("http://www.zhihu.com",data=data)
print(response.text)

结果如下:


400 Bad Request

400 Bad Request
openresty

我们尝试添加headers

import requests

headers = {
   "user-agent":"mozilla/5.0"
}
data = {
   "name":"zhaofan",
   "age":23
}
response = requests.post("http://www.zhihu.com",headers=headers, data=data)
print(response.text)

这样就可以成功返回数据。

requests的高级用法

文件上传

import requests

files = {'学习资料':open(r'C:\Users\董贺贺\Desktop\学习资料.jpg', 'rb')}
headers = {'user-agent':'mozilla/5.0'}
r = requests.post('http://httpbin.org/post', headers = headers, files=files)
print(r.text)

返回数据显示上传成功：

局部截图

获取cookie

import requests

r =requests.get('https://www.baidu.com')#方法一
print(r.cookies)

for key,value in r.cookies.items():#方法二
    print(key+"="+value)

输出结果如下:

]>
BDORZ=27315

会话维持

import requests

s = requests.session()
s.get('http://httpbin.org/cookies/set/number/123456')
r = s.get('http://httpbin.org/cookies')
print(r.cookies)

上面是正确的的，下面是错误的示范：

import requests

s.get('http://httpbin.org/cookies/set/number/123456')
r = s.get('http://httpbin.org/cookies')
print(r.cookies)

为什么错呢？因为这种方式是两次requests请求之间是独立的，而第一次则是通过创建一个session对象，两次请求都通过这个对象访问。

证书验证

现在的很多网站都是https的方式访问，所以这个时候就涉及到证书的问题
之前可以用12306的网址举例，现在12306的证书都有了，举个鸡儿例子
没有证书你就verify = Flase
这样就可以跨过证书审查这关，不过系统还会提醒你，不进行证书审查不好，那怎么能屏蔽系统的废话呢
from requests.packets import urllib3
urllib3 disable_warning()
即可。

代理设置

import requests

proxies= {
    "http":"http://127.0.0.1:9999",
    "https":"http://127.0.0.1:8888"
}
response  = requests.get("https://www.baidu.com",proxies=proxies)
print(response.text)

如果代理需要设置账户名和密码,只需要将字典更改为如下：
proxies = {
"http":"http://user:[email protected]:9999"
}
如果你的代理是通过sokces这种方式则需要pip install "requests[socks]"
proxies= {
"http":"socks5://127.0.0.1:9999",
"https":"sockes5://127.0.0.1:8888"
}

Requests库的基本使用

什么是Requests库？

requests功能详解

Requests的各种请求方式

get请求的基本用法

带参数的GET请求

解析json

获取二进制数据

添加headers

400 Bad Request

基本POST请求

响应

400 Bad Request

requests的高级用法

文件上传

获取cookie

会话维持

证书验证

代理设置

你可能感兴趣的:(Requests库的基本使用)