基于python将较大的文本文件读取为dataframe时(文本文件可能是csv或者xlsx类型)。直接用pandas对整个文件进行读取的话,会比较耗时。
这里提供一个简单的加速方案:分批读取。
需要首先将文件转为可以分批读取的数据类型:csv(’,‘分隔)或者tsv(’\t’分隔)。
然后基于 pandas 的 read_csv函数的 chunksize参数实现分批读取(此参数用于设定每批读入多少行数据)。一般设置为一个稍大的整数即可明显提速。
封装成以下的函数,可以直接调用:
说明:此函数针对csv文件,如果文件不是基于逗号分隔,在read_csv函数中设置对应的sep参数(分隔符)。
def read_single_csv(input_path):
import pandas as pd
df_chunk=pd.read_csv(input_path,chunksize=1000)
res_chunk=[]
for chunk in df_chunk:
res_chunk.append(chunk)
res_df=pd.concat(res_chunk)
return res_df
以上方案在文件行数较大的情况下(数十万行以上),亲测提速明显。