pandas压缩csv数据-节省空间

做项目或做竞赛中,会遇到很大的数据集,几十个G以上,若是直接保存csv,则会浪费本地磁盘空间。偶然看到一篇pandas使用小技巧,实现csv文件压缩与读取,对我这样的小白很实用。

首先创建一个数据集 300M左右

df = pd.DataFrame(pd.np.random.randn(50000,300))
df.to_csv(‘random_data.csv’, index=False)

保存csv时进行压缩为.gzip格式,可以从本地看到文件大小变为136M

df.to_csv(‘random_data.gz’, compression=’gzip’, index=False)

可以对.gzip压缩文件直接进行读取。

df = pd.read_csv(‘random_data.gz’)

原文链接:
https://mp.weixin.qq.com/s/7i7Cu-ec4CkhMNBzEtjdmA

你可能感兴趣的:(笔记)