新手爬虫必备!一招搞定漂亮数据结构,这个Python库还有人不知道?

嗨,小鱼来了~

前言

在学习爬虫的时候,大家肯定碰到过返回的结果是json字符串格式的数据。对于这种数据我们通常使用的是json模块,将json字符串,转化为字典格式的数据,然后采用 “键值对” 方式,获取我们想要的数据。

但是存在一个问题:

我们爬取到的数据多为json数据,转化为字典后,嵌套太多。看起来密密麻麻,一团糟,毫无规律可言。

今天就告诉大家解决这个问题的宝藏Python库——pprint,这可算是一个超实用的爬虫技巧,大家赶紧拿出小本本,记录下来。

一、举例说明

下面我们以腾讯新闻为爬取对象,看看最终得到的数据是个什么样子。

import requests
import json

china_url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}

response = requests.get(url = china_url,headers = headers).json()
data = json.loads(response["data"])
print(type(data))
print(data)

最后爬取结果如下:

新手爬虫必备!一招搞定漂亮数据结构,这个Python库还有人不知道?_第1张图片

我们利用json(  )方法,直接将json字符串,转换为了dict格式的数据。扫描一下数据,我的妈!一大堆,我该怎么解析?有时候碰到爬取的结果比较简短时还好,要是一整页的数据这不是让人头疼么?

那么,有没有一种好的办法,能够快速帮助我们理清数据之间的关系呢?pprint模块是一个很好的选择。

二、Pprint是干啥的?

pprint模块 提供了打印出任何Python数据结构类和方法。

pprint模块包含一个“漂亮的打印机”,用于生成美观的数据结构视图。格式化程序生成数据结构的表示,可以由解释器正确解析,并且人们也可以轻松阅读。如果可能,输出将保留在一行中,并在分割为多行时缩进。

三、使用方法

1、这是一个第三方库,在使用之前,我们需要pip安装。

pip install pprint  

2、安装后,直接导入即可。

rom pprint import pprint  

3、接着,对于上述案例,我们使用pprint()函数,打印一下,看看会有什么好的效果呢?

from pprint import pprint  
  
pprint(data)  

结果如下:

新手爬虫必备!一招搞定漂亮数据结构,这个Python库还有人不知道?_第2张图片

从图中我们就可以清楚地看出这个嵌套关系,一目了然,这样应该很好解析了吧。

4、下面再用一个简单的案例,带大家感受一下。

dic = { 'main': {'temp': 44, 'feels\_like': 40.42, 'temp\_min': 44,   
'temp\_max': 44, 'pressure': 1002, 'humidity': 11},   
'visibility': 6000, 'wind': {'speed': 4.1, 'deg': 290,   
'gust': 9.3}, 'clouds': {'all': 30}, 'dt': 1590398990,   
'sys': {'type': 1, 'id': 9165, 'country': 'IN',   
'sunrise': 1590364538, 'sunset': 1590414050},   
'timezone': 19800, 'id': 1273294, 'name': 'Delhi',   
'cod': 200}

有这样一个嵌套字典,如果想要获sys标签下面的id数据,应该怎么办呢?

pprint(dic)  

结果如下:

新手爬虫必备!一招搞定漂亮数据结构,这个Python库还有人不知道?_第3张图片

对于上面这个数据,我想大家应该没问题了吧,如果想要获取sys标签下的id数据,你应该知道怎么做吧?

dic['sys']['id']

结果如下:

总结

网页源代码的结果,基本是一致的,因此你清楚了这中结构关系,只需要一个for循环,就可以很简单的拿到你想要的数据。pptrint全称 "Data pretty printer",顾名思义就是让显示结果更漂亮。只要在程序编写的过程中加上pprint模块,就能一招搞定杂乱如麻的数据结果,这样简单又实用的小技巧谁能抵抗的了呢?


在实操过程中有问题的可以进群咨询,里面有各个阶段志同道合的朋友,你会在这里找到你想要的答案哦~交流群:954526228(注意进群暗号是:小鱼)

里面还有适合小白新手的全套资料给到大家~

快来和小鱼一起成长进步吧!

① 2000多本Python电子书(主流和经典的书籍应该都有了)

② Python标准库资料(最全中文版)

③ 项目源码(四五十个有趣且经典的练手项目及源码)

④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)

⑤ Python学习路线图(告别不入流的学习)

你可能感兴趣的:(Python干货,python,爬虫,后端)