python 使用pandas 读取较大csv文件的加速技巧

问题背景

基于python将较大的文本文件读取为dataframe时(文本文件可能是csv或者xlsx类型)。直接用pandas对整个文件进行读取的话,会比较耗时。
这里提供一个简单的加速方案:分批读取。

实现方案

需要首先将文件转为可以分批读取的数据类型:csv(’,‘分隔)或者tsv(’\t’分隔)。
然后基于 pandas 的 read_csv函数的 chunksize参数实现分批读取(此参数用于设定每批读入多少行数据)。一般设置为一个稍大的整数即可明显提速。
封装成以下的函数,可以直接调用:
说明:此函数针对csv文件,如果文件不是基于逗号分隔,在read_csv函数中设置对应的sep参数(分隔符)。

def read_single_csv(input_path):
    import pandas as pd
    df_chunk=pd.read_csv(input_path,chunksize=1000)
    res_chunk=[]
    for chunk in df_chunk:
        res_chunk.append(chunk)
    res_df=pd.concat(res_chunk)
    return res_df

以上方案在文件行数较大的情况下(数十万行以上),亲测提速明显。

你可能感兴趣的:(python,python)