groupby使用的小TIPS

在做文本的数据预处理时,我需要把数据集里相同business_id的数据分为一组并单独保存。

读取数据,使用groupby对数据按business_id这一标签进行分组

review_csv=pd.read_csv('review.csv',encoding='gb18030').head(200)

review_df=pd.DataFrame(review_csv,columns=['business_id','description']).dropna()

review_group=review_df.groupby('business_id')

输出分组结果

for business_id, description in review_group:
print(business_id)
print(description)

分组后处理数据

使用file_name.get_group('index') 来按分组后标签来获取数据。

for group in review_group:
group[1].to_csv(str(group[0])+'.csv')
上述代码用来将分组数据分组保存为当前目录下的.csv文件

你可能感兴趣的:(groupby使用的小TIPS)