〖Python网络爬虫实战⑦〗- requests的使用(一)

  • 订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+

                python项目实战

                Python编程基础教程系列(零基础小白搬砖逆袭)

  • 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,可报销(名额有限,先到先得)
  • 作者:爱吃饼干的小白鼠。Python领域优质创作者,2022年度博客新星top100入围,荣获多家平台专家称号。

 最近更新

〖Python网络爬虫实战⑥〗- 多线程和多进程

〖Python网络爬虫实战⑦〗- requests的使用(一)

⭐️ requests的使用(一)

 大家好,今天就来说说requests的基础用法。requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多。

1.准备工作

首先呢,我们要确保我们已经之前安装requests库,如果没有安装,按照下面步骤按照库。

✨pip 安装

无论是 Windows、Linux 还是 Mac,都可以通过 pip 这个包管理工具来安装。

在命令行下运行如下命令即可完成 requests 库的安装:

pip3 install requests

这是最简单的安装方式,推荐此种方法安装。

✨验证安装

为了验证库是否已经安装成功,可以在命令行下测试一下:

import requests

res = requests.get('https://www.baidu.com/')

print(res)

输入如上内容,如果什么错误提示也没有,那么就证明我们已经成功安装了 requests。

2.实例引入

requests库请求网页用到的是get()方法,下面通过实例来看一下。

import requests

res = requests.get('https://www.baidu.com/')

print(type(res))

print(res)

print(res.text)

print(res.cookies)

这里我们调用get()方法实现,得到一个response对象,然后分别输出response的类型,状态码,内容以及cookies。

使用get()方法成功实现一个get()请求这不算什么,更方便的请求还有其他的。比如post(),put()等等。

3.get()请求

HTTP最常见的请求之一就是GET请求,下面我们首先先来了解一下利用requests构建GET的方法

✨基本实例

首先,我们构建一个最简单的get请求,请求的链接如下,该网站会判断如果用户发起的的是get请求的话,它就会返回响应的请求信息。

import requests

res = requests.get('http://httpbin.org/get')

print(res.text)

运行的结果如下:

{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.27.1", 
    "X-Amzn-Trace-Id": "Root=1-637ae5d7-35da1bf57b139d152585d12a"
  }, 
  "origin": "223.215.67.113", 
  "url": "http://httpbin.org/get"
}

可以发现,我们成功发起了get请求,返回结果中包含请求头,url,IP等信息。

那么,对于GET请求,如果我们想要附加额外信息,一般怎么添加呢?比如讲,现在想添加两个参数,其中name是Tina,age是18。要构造这个请求链接,是不是可以直接写成:

r = requests.get('http://httpbin.org/get?name=Tina&age=18')

这样也是可以的,我们还可以通过字典来构造。利用params这个参数就好了。

import requests

data = {

    'name':'Tina',
    
    'age':'18'
    }

res = requests.get('http://httpbin.org/get',params = data)

print(res.text)

运行结果如下:

{
  "args": {
    "age": "18", 
    "name": "Tina"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.27.1", 
    "X-Amzn-Trace-Id": "Root=1-637ae902-695483e87b26b3ad49d15df7"
  }, 
  "origin": "223.215.67.113", 
  "url": "http://httpbin.org/get?name=Tina&age=18"
}

通过运行结果判断,请求的链接自动变成了带有后缀的链接。

另外,网页返回的类型实际上是str,但是它是json()格式的,我们可以用json返回一个字典。如果不是json格式,使用json就会报错,抛出json.decoder.JSONDecodeError异常。

4.post()请求

上面我们了解了最基本的get请求,另外一种比较常见的请求方式就是post()。使用requests实现post请求也是非常简单,示例如下。

import requests

res = requests.post('http://httpbin.org/post')

print(res.text)

运行之后就会发现得到了结果,就说明我们post请求成功。

 5.响应

发送请求,之后得到的肯定就是响应。除了text,还有状态码,响应头,cookies等等。

requests 库可以用来发送 HTTP 请求并获取响应。当你发送一个 HTTP 请求时,你会得到一个 Response 对象,它包含了从服务器返回的所有数据。Response 对象有以下属性:

  • status_code:HTTP 状态码,表示服务器的响应状态。
  • headers:一个字典,其中包含了从服务器返回的所有头部信息。
  • body:一个字节串,包含了从服务器返回的所有数据。

总结

        requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多。

        本文我们说了requests的简单用法,知道了如何发送请求,下一篇我们更深层次的来学习requests。我们看看高级一点的操作,比如讲文件上传,cookies设置,代理设置之类的。

你可能感兴趣的:(Python3网络爬虫开发实战,python,爬虫,开发语言,pycharm,后端)