python的爬虫库_一文带你深入了解并学会Python爬虫库!从此数据不用愁

熟悉爬虫的基本概念之后,我们可以直接开始爬虫实战的学习,先从Python的requests库即re库入手,可以迅速“get”到python爬虫的思想以及流程,并且通过这两个库就可以建立一个完整的爬虫系统。

一、requests库

1.简介

Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库。它比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求。在日常使用中我们绝大部分使用requests库向目标网站发起HTTP请求。

通过上图官网对requests的介绍可知此库的强大之处:Requests是唯一适用于Python的Non-GMO HTTP库,可供人类安全使用。

2.入门测试

我们首先通过代码实例测试一下Requests库的使用情景。首先本文采用配置环境为win10 anaconda3 Python3.7.4,直接在终端运行:

pip install requests

如果出现以下字样即代表安装完成。

urllib 库中的urlopen()方法实际上是以GET方式请求网页,而requests 中相应的方法就是get()。在Python中运行以下代码:import requests# 以get方式获取百度官网源代码res = requests.get('https://www.baidu.com')# 获取返回类型print(type(res))# 获取状态码print(res.status_code)# 获取返回源代码内容类型print(typ

你可能感兴趣的:(python的爬虫库)