今天发现一个问题,就是有一个数据,很长,几百个被试的fmri数据,有10M+行,使用pandas.to_csv占用的时间特别长,写了20分钟还没写完。于是上网寻找更快的数据保存方式。
stage.to_hdf(r'path/file.h5', key='stage', mode='w')
import pyarrow as pa
import pyarrow.csv as csv
df = pandas.DataFrame(xxxxxx)
new_df = pa.Table.from_pandas(df)
new_df_name = 'Downloads/data/results'
csv.write_csv(new_df, new_df_name) # 不需要加其他参数,自动带header 和没有index
最后还是强烈推荐使用 pyarrow。