在python中如何快速读取存储量大的文件

首先我们从以下几个维度来比较不同数据处理包对数据进行处理的优劣。

  • 是否拥有丰富的数据处理函数
  • 是否读取数据够快
  • 是否需要额外设备(例如GPU)的支持

但无论这些工具包处理数据的时间多快,在碰到例如10G以上的数据时,都还是会耗费一些时间的,快的可能几十秒,慢的可能几十分钟,然后再进行一些特征抽取等等,快的话也得几十分钟,而此时,为了节省时间消耗,我们就需要将这些中间结果线存储到磁盘上面,而不同格式的存储,带来的差别是巨大的,比如:

  • 存储一个大的文件,存成csv格式需要10G,但是存成其它格式可能就只需要2G;
  • 存成csv文件读取需要20分钟,存成其它格式读取只需要10秒。

存储格式的选择也会节省海量的时间,那么究竟选用何种存储方式呢?本文我们就对比下面几大流行的存储格式。

csv

csv格式是使用最多的一个存储格式,但是其存储和读取的速度会略慢。

dtypes = {
   
    "row_id": "int64",
    

你可能感兴趣的:(Python)