数据高速读取,使用pandas HDF5

Pandas有一个内置的解决方案,它使用 HDF5,这是一种专门用于存储表格数据阵列的高性能存储格式。

创建储存对象,并存为 save_data

data_store = pd.HDFStore('save_data.h5')

将 DataFrame 放进对象中,并设置 key 为 save_data

data_store['save_data'] = df
data_store.close()

现在,你可以关闭计算机并休息一下。等你回来的时候,你处理的数据将在你需要时为你所用,而无需再次加工。

获取数据储存对象

data_store = pd.HDFStore('save_data.h5')

通过key获取数据

data = data_store['save_data']
data_store.close()

数据存储可以容纳多个表,每个表的名称作为键。

你可能感兴趣的:(数据高速读取,使用pandas HDF5)