数据预处理 Pandas drop_duplicates函数介绍:删除dataframe中的重复项

id a b c
1 32 xx cc
1 32 vv zz
2 43 ff pp
2 45 gg oo
3 12 hh ll
3 12 jj kk

删除数据中 id,a列中相同的数据,保留第一次出现的项或,最后一次出现的项

data = data.drop_duplicates(subset=["id", "a"], keep='first', inplace=False)

keep属性=first表示保留第一次的,last保留最后一次

subset默认是所有列。

你可能感兴趣的:(数据预处理 Pandas drop_duplicates函数介绍:删除dataframe中的重复项)