转：序列化Python对象

http://woodpecker.org.cn/diveintopython3/serializing.html

难度等级: ♦♦♦♦♢

❝ Every Saturday since we’ve lived in this apartment, I have awakened at 6:15, poured myself a bowl of cereal, added
a quarter-cup of 2% milk, sat on this end of this couch, turned on BBC America, and watched Doctor Who. ❞
— Sheldon, The Big Bang Theory

‣ 显示目录

深入#

序列化的概念很简单。内存里面有一个数据结构，你希望将它保存下来，重用，或者发送给其他人。你会怎么做？嗯, 这取决于你想要怎么保存，怎么重用，发送给谁。很多游戏允许你在退出的时候保存进度，然后你再次启动的时候回到上次退出的地方。(实际上, 很多非游戏程序也会这么干。) 在这个情况下, 一个捕获了当前进度的数据结构需要在你退出的时候保存到磁盘上，接着在你重新启动的时候从磁盘上加载进来。这个数据只会被创建它的程序使用，不会发送到网络上，也不会被其它程序读取。因此，互操作的问题被限制在保证新版本的程序能够读取以前版本的程序创建的数据。

在这种情况下，pickle 模块是理想的。它是Python标准库的一部分, 所以它总是可用的。它很快; 它的大部分同Python解释器本身一样是用C写的。它可以存储任意复杂的Python数据结构。

什么东西能用pickle模块存储?

所有Python支持的原生类型 : 布尔, 整数, 浮点数, 复数, 字符串, bytes(字节串)对象, 字节数组, 以及 None.
由任何原生类型组成的列表，元组，字典和集合。
由任何原生类型组成的列表，元组，字典和集合组成的列表，元组，字典和集合(可以一直嵌套下去，直至Python支持的最大递归层数).
函数，类，和类的实例(带警告)。

如果这还不够用，pickle模块也是可扩展的。如果你对可扩展性有兴趣，请查看本章最后的进一步阅读小节中的链接。

本章例子的快速笔记#

本章会使用两个Python Shell来讲故事。本章的例子都是一个单独的故事的一部分。当我演示pickle 和 json 模块时，你会被要求在两个Python Shell中来回切换。

为了让事情简单一点，打开Python Shell 并定义下面的变量:

>>>shell =1

保持该窗口打开。现在打开另一个Python Shell 并定义下面下面的变量:

>>>shell =2

贯穿整个章节, 在每个例子中我会使用shell变量来标识使用的是哪个Python Shell。

⁂

保存数据到 Pickle 文件#

pickle模块的工作对象是数据结构。让我们来创建一个：

①	在Python Shell #1 里面。
②	想法是建立一个Python字典来表示一些有用的东西，比如一个Atom 供稿的entry。但是为了炫耀一下`pickle`模块我也想保证里面包含了多种不同的数据类型。不需要太关心这些值。
③	`time` 模块包含一个表示时间点(精确到1毫秒)的数据结构(`time_struct`)以及操作时间结构的函数。`strptime()`函数接受一个格式化过的字符串并将其转化成一个`time_struct`。这个字符串使用的是默认格式，但你可以通过格式化代码来控制它。查看`time`模块来获得更多细节。

①	仍然在Python Shell #1 中。
②	使用`open()` 函数来打开一个文件。设置文件模式为`'wb'`来以二进制写模式打开文件。把它放入`with` 语句中来保证在你完成的时候文件自动被关闭。
③	`pickle`模块中的`dump()`函数接受一个可序列化的Python 数据结构, 使用最新版本的pickle协议将其序列化为一个二进制的，Python特定的格式，并且保存到一个打开的文件里。

①	这是Python Shell #2.
②	这里没有`entry` 变量被定义过。你在Python Shell #1 中定义了`entry`变量, 但是那是另一个拥有自己状态的完全不同的环境。
③	打开你在Python Shell #1中创建的`entry.pickle`文件。`pickle`模块使用二进制数据格式，所以你总是应该使用二进制模式打开pickle文件。
④	`pickle.load()`函数接受一个流对象, 从流中读取序列化后的数据，创建一个新的Python对象，在新的Python对象中重建被序列化的数据，然后返回新建的Python对象。
⑤	现在`entry`变量是一个键和值看起来都很熟悉的字典。

①	切换回Python Shell #1。
②	打开`entry.pickle`文件。
③	将序列化后的数据装载到一个新的变量, `entry2`。
④	Python 确认两个字典, `entry` 和 `entry2` 是相等的。在这个shell里, 你从零开始构造了`entry`, 从一个空字典开始然后手工给各个键赋值。你序列化了这个字典并将其保存在`entry.pickle`文件中。现在你从文件中读取序列化后的数据并创建了原始数据结构的一个完美复制品。
⑤	相等和相同是不一样的。我说的是你创建了原始数据结构的一个完美复制品, 这没错。但它仅仅是一个复制品。
⑥	我要指出`'tags'`键对应的值是一个元组，而`'internal_id'`键对应的值是一个`bytes`对象。原因在这章的后面就会清楚了。

①	`pickle.dumps()`函数(注意函数名最后的`'s'`)执行和`pickle.dump()`函数相同的序列化。取代接受流对象并将序列化后的数据保存到磁盘文件，这个函数简单的返回序列化的数据。
②	由于pickle协议使用一个二进制数据格式，所以`pickle.dumps()`函数返回`bytes`对象。
③	`pickle.loads()`函数(再一次, 注意函数名最后的`'s'`) 执行和`pickle.load()`函数一样的反序列化。取代接受一个流对象并去文件读取序列化后的数据，它接受包含序列化后的数据的`bytes`对象, 比如`pickle.dumps()`函数返回的对象。
④	最终结果是一样的: 原始字典的完美复制。

①	我们将创建一个新的数据结构，而不是重用现存的`entry`数据结构。在这章的后面, 我们将会看见当我们试图用JSON编码更复杂的数据结构的时候会发生什么。
②	JSON 是一个基于文本的格式，这意味你可以以文本模式打开文件，并给定一个字符编码。用UTF-8总是没错的。
③	同`pickle`模块一样, `json` 模块定义了`dump()`函数，它接受一个Python 数据结构和一个可写的流对象。`dump()` 函数将Python数据结构序列化并写入到流对象中。在`with`语句内工作保证当我们完成的时候正确的关闭文件。

笔记	JSON	Python 3
	object	dictionary
	array	list
	string	string
	integer	integer
	real number	float
*	`true`	`True`
*	`false`	`False`
*	`null`	`None`
* 所有的 JSON 值都是大小写敏感的。

①	好的, 是时间再看看`entry` 数据结构了。它包含了所有的东西: 布尔值，`None`值，字符串，字符串元组, `bytes`对象, 以及`time`结构体。
②	我知道我已经说过了，但是这值得再重复一次：JSON 是一个基于文本的格式。总是应使用UTF-8字符编码以文本模式打开JSON文件。
③	嗯，这可不好。发生什么了？

①	为了给一个JSON没有原生支持的数据类型定义你自己的“迷你序列化格式”, 只要定义一个接受一个Python对象为参数的函数。这个对象将会是`json.dump()`函数无法自己序列化的实际对象 — 这个例子里是`bytes` 对象 `b'\xDE\xD5\xB4\xF8'`。
②	你的自定义序列化函数应该检查`json.dump()`函数传给它的对象的类型。当你的函数只序列化一个类型的时候这不是必须的，但是它使你的函数的覆盖的内容清楚明白，并且在你需要序列化更多类型的时候更容易扩展。
③	在这个例子里面, 我将`bytes` 对象转换成字典。`__class__` 键持有原始的数据类型(以字符串的形式, `'bytes'`), 而 `__value__` 键持有实际的数据。当然它不能是`bytes`对象; 大体的想法是将其转换成某些可以被JSON序列化的东西! `bytes`对象就是一个范围在0–255的整数的序列。我们可以使用`list()` 函数将`bytes`对象转换成整数列表。所以`b'\xDE\xD5\xB4\xF8'` 变成 `[222, 213, 180, 248]`. (算一下! 这是对的! 16进制的字节 `\xDE` 是十进制的 222, `\xD5` 是 213, 以此类推。)
④	这一行很重要。你序列化的数据结构可能包含JSON内建的可序列化类型和你的定制序列化器支持的类型之外的东西。在这种情况下，你的定制序列化器抛出一个`TypeError`，那样`json.dump()` 函数就可以知道你的定制序列化函数不认识该类型。

①	`customserializer` 模块是你在前一个例子中定义`to_json()`函数的地方。
②	文本模式, UTF-8 编码, yadda yadda。(你很可能会忘记这一点! 我就忘记过好几次! 事情一切正常直到它失败的时刻, 而它的失败很令人瞩目。)
③	这是重点: 为了将定制转换函数钩子嵌入`json.dump()`函数, 只要将你的函数以`default`参数传入`json.dump()`函数。(万岁, Python里一切皆对象!)
④	好吧, 实际上还是不能工作。但是看一下异常。`json.dump()` 函数不再抱怨无法序列化`bytes`对象了。现在它在抱怨另一个完全不同的对象: `time.struct_time` 对象。

①	为了演示目的，切换到Python Shell #2 并且删除在这一章前面使用`pickle`模块创建的`entry`数据结构。
②	最简单的情况下，`json.load()`函数同`pickle.load()`函数的结果一模一样。你传入一个流对象，它返回一个新的Python对象。
③	有好消息也有坏消息。好消息先来: `json.load()` 函数成功的读取了你在Python Shell #1中创建的`entry.json`文件并且生成了一个包含那些数据的新的Python对象。接着是坏消息: 它没有重建原始的 `entry` 数据结构。`'internal_id'` 和 `'published_date'` 这两个值被重建为字典 — 具体来说, 你在`to_json()`转换函数中使用JSON兼容的值创建的字典。

①	这函数也同样接受一个参数返回一个值。但是参数不是字符串，而是一个Python对象 — 反序列化一个JSON编码的字符串为Python的结果。
②	你只需要检查这个对象是否包含`to_json()`函数创建的`'__class__'`键。如果是的，`'__class__'`键对应的值将告诉你如何将值解码成原来的Python数据类型。
③	为了解码由`time.asctime()`函数返回的字符串，你要使用`time.strptime()`函数。这个函数接受一个格式化过的时间字符串(格式可以自定义，但默认值同`time.asctime()`函数的默认值相同) 并且返回`time.struct_time`.
④	为了将整数列表转换回`bytes` 对象, 你可以使用 `bytes()` 函数。

①	为了将`from_json()`函数嵌入到反序列化过程中，把它作为`object_hook` 参数传入到`json.load()`函数中。接受函数作为参数的函数; 真方便!
②	`entry` 数据结构现在有一个值为`bytes`对象的`'internal_id'`键。它也包含一个`'published_date'`键，其值为`time.struct_time`对象。

①	即使在序列化过程中加入了`to_json()`钩子函数, 也在反序列化过程中加入`from_json()`钩子函数, 我们仍然没有重新创建原始数据结构的完美复制品。为什么没有？
②	在原始的`entry` 数据结构中, `'tags'`键的值为一个三个字符串组成的元组。
③	但是重现创建的`entry2` 数据结构中, `'tags'` 键的值是一个三个字符串组成的列表。JSON 并不区分元组和列表；它只有一个类似列表的数据类型，数组，并且`json`模块在序列化过程中会安静的将元组和列表两个都转换成JSON 数组。大多数情况下，你可以忽略元组和列表的区别，但是在使用`json` 模块时应记得有这么一回使。

转：序列化Python对象

深入#

本章例子的快速笔记#

保存数据到 Pickle 文件#

从Pickle文件读取数据#

不使用文件来进行序列化#

字节串和字符串又一次抬起了它们丑陋的头。#

调试Pickle 文件#

序列化Python对象以供其它语言读取#

将数据保存至 JSON 文件#

将Python数据类型映射到JSON#

序列化JSON不支持的数据类型#

从JSON文件加载数据#

进一步阅读#

你可能感兴趣的:(python)