关键步骤:
1、利用pandas的pd.read_csv读取csv内容到pandas dataframe结构里;
2、利用groupby按共同元素聚合;
3、提取groupby后的dataframe对象信息并输出。
df=pd.read_csv(pathDir+"//"+"xx.csv",sep=",",engine='python',header=0)
grouped=df.groupby(by="REGISTRY_ID")# 此处为groupby的聚合项
for value,group in grouped:
filename=str(value)+'.'+'csv'
try:
f=open(filename,'w')
if f:
#清空文件
f.truncate()
#写入新文件
group.to_csv(filename,sep=',',index=False,mode='w',encoding='utf-8')
except Exception as e:
print(e)
注意输入的csv编码格式。win下的SQL导出的csv在linux下要做个转换。
处理速度还可以。