【pandas】放弃csv, 拥抱hdf (h5)

最近需要从csv中读取数据, Csv文件较大时,运行速度极慢。

我现在读取的是这个csv文件,一只股票的数据:

大约在170MB的大小。

首先把他转化为h5格式:

a = pd.read_csv('SZ300133.csv')
a.to_hdf('sz300133.h5', 'data)

注意, to_hdf的第一个参数就是你保存的文件路径, 而第二个参数是你设置的key, 这是因为h5里可以同时保存多个dataframe,后面可以根据key来索引。 但这里我们暂时不需要, 我就随便取了个’data’。

接下来, 可以在console测验下速度:

%timeit pd.read_csv('SZ300133.csv')
%timeit pd.read_csv('sz300133.h5')

结果如图:
在这里插入图片描述
读取速度增加了近20倍!
存储空间上也节约了特别多:
在这里插入图片描述
如果需要频繁读取excel类文件的话,拥抱hdf吧!

你可能感兴趣的:(python)