- 订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000+
python项目实战
Python编程基础教程系列(零基础小白搬砖逆袭)
- 说明:本专栏持续更新中,目前专栏免费订阅,在转为付费专栏前订阅本专栏的,可以免费订阅付费专栏,可报销(名额有限,先到先得)。
- 作者:爱吃饼干的小白鼠。Python领域优质创作者,2022年度博客新星top100入围,荣获多家平台专家称号。
〖Python网络爬虫实战⑥〗- 多线程和多进程
〖Python网络爬虫实战⑦〗- requests的使用(一)
大家好,今天就来说说requests的基础用法。requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多。
首先呢,我们要确保我们已经之前安装requests库,如果没有安装,按照下面步骤按照库。
无论是 Windows、Linux 还是 Mac,都可以通过 pip 这个包管理工具来安装。
在命令行下运行如下命令即可完成 requests 库的安装:
pip3 install requests
这是最简单的安装方式,推荐此种方法安装。
为了验证库是否已经安装成功,可以在命令行下测试一下:
import requests
res = requests.get('https://www.baidu.com/')
print(res)
输入如上内容,如果什么错误提示也没有,那么就证明我们已经成功安装了 requests。
requests库请求网页用到的是get()方法,下面通过实例来看一下。
import requests
res = requests.get('https://www.baidu.com/')
print(type(res))
print(res)
print(res.text)
print(res.cookies)
这里我们调用get()方法实现,得到一个response对象,然后分别输出response的类型,状态码,内容以及cookies。
使用get()方法成功实现一个get()请求这不算什么,更方便的请求还有其他的。比如post(),put()等等。
HTTP最常见的请求之一就是GET请求,下面我们首先先来了解一下利用requests构建GET的方法
首先,我们构建一个最简单的get请求,请求的链接如下,该网站会判断如果用户发起的的是get请求的话,它就会返回响应的请求信息。
import requests
res = requests.get('http://httpbin.org/get')
print(res.text)
运行的结果如下:
{
"args": {},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.27.1",
"X-Amzn-Trace-Id": "Root=1-637ae5d7-35da1bf57b139d152585d12a"
},
"origin": "223.215.67.113",
"url": "http://httpbin.org/get"
}
可以发现,我们成功发起了get请求,返回结果中包含请求头,url,IP等信息。
那么,对于GET请求,如果我们想要附加额外信息,一般怎么添加呢?比如讲,现在想添加两个参数,其中name是Tina,age是18。要构造这个请求链接,是不是可以直接写成:
r = requests.get('http://httpbin.org/get?name=Tina&age=18')
这样也是可以的,我们还可以通过字典来构造。利用params这个参数就好了。
import requests
data = {
'name':'Tina',
'age':'18'
}
res = requests.get('http://httpbin.org/get',params = data)
print(res.text)
运行结果如下:
{
"args": {
"age": "18",
"name": "Tina"
},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.27.1",
"X-Amzn-Trace-Id": "Root=1-637ae902-695483e87b26b3ad49d15df7"
},
"origin": "223.215.67.113",
"url": "http://httpbin.org/get?name=Tina&age=18"
}
通过运行结果判断,请求的链接自动变成了带有后缀的链接。
另外,网页返回的类型实际上是str,但是它是json()格式的,我们可以用json返回一个字典。如果不是json格式,使用json就会报错,抛出json.decoder.JSONDecodeError异常。
上面我们了解了最基本的get请求,另外一种比较常见的请求方式就是post()。使用requests实现post请求也是非常简单,示例如下。
import requests
res = requests.post('http://httpbin.org/post')
print(res.text)
运行之后就会发现得到了结果,就说明我们post请求成功。
发送请求,之后得到的肯定就是响应。除了text,还有状态码,响应头,cookies等等。
requests
库可以用来发送 HTTP 请求并获取响应。当你发送一个 HTTP 请求时,你会得到一个 Response
对象,它包含了从服务器返回的所有数据。Response
对象有以下属性:
status_code
:HTTP 状态码,表示服务器的响应状态。headers
:一个字典,其中包含了从服务器返回的所有头部信息。body
:一个字节串,包含了从服务器返回的所有数据。requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多。
本文我们说了requests的简单用法,知道了如何发送请求,下一篇我们更深层次的来学习requests。我们看看高级一点的操作,比如讲文件上传,cookies设置,代理设置之类的。