10. pandas临时DataFrame存取

0 背景

  • 需求处理过程中,难免中断临时改程序,而前期已经处理好的数据,弃之可惜;
  • 直接读取存储数据库,对带宽的要求颇高;
  • pd.HDFStore,可直接存取DataFrame整个结构,速度快(但生成过程中对内存要求颇高);

1 DataFrame的存储

下面程序中,bi_tips是自用的包,用于快速访问数据库,可忽略。

__author__ = 'bi_user'
import pandas as pd
import bi_tips

(engine, conn, cur) = bi_tips.bi_choose_mysql_database(server='aliyun_mysql_master_inside', dbname='bi_cube')
sql = "select tid from jst_cube_2018"
tids = pd.read_sql(sql,con=engine)
data_store = pd.HDFStore("D:\\temp\\temp.h5", complib='zlib')
data_store['tids'] = tids
data_store.close()

2 DataFrame的读取

data_store = pd.HDFStore("D:\\temp\\temp.h5", complib='zlib')
tids = data_store['tids']
print tids.shape
data_store.close()

你可能感兴趣的:(10. pandas临时DataFrame存取)