Python网络爬虫(二):请求库的使用

Python网络爬虫(二):请求库的使用

学习爬虫,最初的操作便是模拟浏览器向服务器发出请求,我们需要可以先从使用最基本的HTTP库,比如urllib、httplib2、requests、treq等。本章我们主要介绍urllib和requests,在本章的博客中,我们主要讲解基本概念,由于代码部分内容有点多,所以上传至GitHub,可以自行下载,格式为.ipynb。
链接为:
https://github.com/Yuchen-Zhou/SpiderLearning

1.urllib

在Python中,我们可以使用urllib库来实现请求的发送,其官方文档链接为:https://docs.python.org/3/library/urllib.html
Python网络爬虫(二):请求库的使用_第1张图片
本节内容的html链接:https://github.com/YuchenZhou/SpiderLearning/blob/main/Usage_StanderLib/Usage_urllib.html

2.requests

上一节中,我们了解了urllib的基本用法,但是其中确实有不方便的地方,为了更加方便地实现这些操作,就有了更为强大的库requests。
Python网络爬虫(二):请求库的使用_第2张图片

本节内容html文件链接:
https://github.com/Yuchen-Zhou/SpiderLearning/blob/main/Usage_StanderLib/Usage_requests.html

3.正则表达式

本节,我们看一下正则表达式的相关用法。正则表达式是处理字符串的强大工具,它有自己特定的语法结构,可以实现字符串的检索、替换、匹配验证都不在话下
Python网络爬虫(二):请求库的使用_第3张图片
本节内容html文件链接:
https://github.com/Yuchen-Zhou/SpiderLearning/blob/main/Usage_StanderLib/Usage_re.html

本周内容较多,CSDN里写不下,就只能上传到GitHub上了

你可能感兴趣的:(Python网络爬虫,python,github)