python使用requests_html进行爬虫的小案例

最近公司开展了一次爬虫小作业,对于我这个初学者,连爬虫都没接触过,实在是惭愧,幸亏参考了一下同事的作业
查看过后,恍然大悟,突然发现,原来爬虫,入门也不是太难。

万事开头难,对于任何程序员而言,思路,是最重要的东西
首先,需要理清自己的思路,思路清晰:
1.对于这次案例是爬取糗事百科的笑话
2.在页面中,爬取作者以及对应的内容保存到json文件中即可

下面正式开始:
1.解析每一页的html内容
2.从内容中提取出作者与内容
3.将内容保存到json文件
就是这么简单。

下面开始正式实践:
1.因为糗事百科的笑话页面中,有13页,也就是说有13个url,我们需要分别对13个url发送请求解析html
  因此,封装一个函数为拼接url集合的函数

python使用requests_html进行爬虫的小案例_第1张图片


2.拼接完成url后,我们需要封装一个解析html的函数

python使用requests_html进行爬虫的小案例_第2张图片

 

3.有了以上两个步骤,我们以及得到了url集合以及访问url的函数,因此,我们可以编写一个获取所有笑话的集合函数

python使用requests_html进行爬虫的小案例_第3张图片

python使用requests_html进行爬虫的小案例_第4张图片

 

4.获取到了所有内容的集合函数,最后我们需要把它load到本地文件

python使用requests_html进行爬虫的小案例_第5张图片

python使用requests_html进行爬虫的小案例_第6张图片

 

最后附上main运行的函数

python使用requests_html进行爬虫的小案例_第7张图片

 

 

最重要的不是编码,而是分析,代码,只是一个工具,我们强调的是思路。

接到一个需求后,先分析,再把这个需求拆分成其他功能点,将功能点使用代码实现后,再把功能点配合起来。完成最后的任务。

你可能感兴趣的:(个人学习)