在程序运行的过程中,所有的变量都是在内存中,有时候希望将对象存储下来。我们把对象从内存中变成可存储或传输的过程称之为序列化,在Python中叫pickling。
Python提供两个模块来实现序列化:cPickle
和pickle
。这两个模块功能是一样的,区别在于cPickle
是C语言写的,速度快,pickle
是纯Python写的,速度慢。
import pickle
a1 = ['abc', [1, 2], {'x': 3}]
s1 = pickle.dumps(a1)
print(s1)
b'\x80\x03]q\x00(X\x03\x00\x00\x00abcq\x01]q\x02(K\x01K\x02e}q\x03X\x01\x00\x00\x00xq\x04K\x03se.'
a2 = pickle.loads(s1)
print(a2)
['abc', [1, 2], {'x': 3}]
import pickle
a1 = ['abc', [1, 2], {'x': 3}]
with open('a1.txt', 'wb') as f:
s1 = pickle.dump(a1, f)
with open('a1.txt', 'rb') as f:
a2 = pickle.load(f)
joblib库是由scikit-learn外带的,常用于保存机器学习模型。对于大数据而言,joblib比pickle更加高效,但是joblib只能将对象存储在磁盘文件中,不能保存为字符串。
from sklearn.externals import joblib
a1 = ['abc', [1, 2], {'x': 3}]
joblib.dump(a1, 'a1.txt')
a2 = joblib.load('a1.txt')