爬虫数据提取之json与JsonPath

一、
JSON是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成
。适用于进行数据交互的场景,比如网站前台与后台的数据交互
1、json简单说就是javascripy 中的对象和数组,所以这两种结构就是对象和数组两种结构,通过这两种结构可以表示各种复杂的结构
2、
(1)字典:对象在js中表示为{}括起来的内容,数据结构为{key:value,key:value…}的键值对的结构,在面向对象的语言中,key为对象属性,value为对应的属性值,所以很容易理解,取值方法为对象(注意这是个点–》).key获取属性值,这个属性值的类型可以是数字,字符串、数组、对象这几种。
(2)列表(数组):数组在js中是中括号[]括起来的内容,数据结构为[“Python”,“javascript”,“c++”,…],取值方式
和所有语言一样,使用索引获取,字段值的类型可以是数字,字符串,数组,对象几种
3、json模块
json模块提供了四个功能:dumps、dump、loads、load,用于字符串和python数据类型间进行转换
(1)json.loads()可以理解为将字符串转化为json字典格式
把Json格式字符串解码转换成Python对象,从json到python 的类型转化对照如下:
爬虫数据提取之json与JsonPath_第1张图片
(2)json.dumps()–转化成字符串的操作
实现python类型转化为json字符串,返回一个str对象 把一个Python对象编码转换成Json字符串。
从python原始类型向json类型的转化对照如下:
爬虫数据提取之json与JsonPath_第2张图片
json.dumps()序列化时默认使用的是ascii编码,添加参数ensure_ascii=False,禁用ascii
编码,按utf-8编码
str=json.dumps(dict,ensure_ascii=False)
print(str)
(3)json.dump()写到文件
将Python内置类型序列化转为json对象后写入文件
obj=json.dump(dict,open(“hello.json”,‘w’,encoding=‘utf-8’),ensure_ascii=False)
print(obj)
(4)json.load()读到内存
读取文件中json形式的字符串元素,转化成python类型
obj= json.load(open(“hello.json”,“r”,encoding=“utf-8”))
print(obj)
扩展:JsonPath与Xpath的语法对比
爬虫数据提取之json与JsonPath_第3张图片

你可能感兴趣的:(python,网络爬虫)