Pandas利用groupby拆分超大型csv

关键步骤:

1、利用pandas的pd.read_csv读取csv内容到pandas dataframe结构里;

2、利用groupby按共同元素聚合;

3、提取groupby后的dataframe对象信息并输出。

 df=pd.read_csv(pathDir+"//"+"xx.csv",sep=",",engine='python',header=0)
    grouped=df.groupby(by="REGISTRY_ID")# 此处为groupby的聚合项
    for value,group in grouped:
        filename=str(value)+'.'+'csv'
        try:
            f=open(filename,'w')
            if f:
                #清空文件
                f.truncate()
                #写入新文件
                group.to_csv(filename,sep=',',index=False,mode='w',encoding='utf-8')
        except Exception as e:
            print(e)

注意输入的csv编码格式。win下的SQL导出的csv在linux下要做个转换。

处理速度还可以。

你可能感兴趣的:(Python)