pandas函数之drop_duplicates

pandas版本号: 0.21.1 API链接

 DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)

subset : column label or sequence of labels, optional
            Only consider certain columns for identifying duplicates, by default use all of the columns
keep : {‘first’, ‘last’, False}, default ‘first’
            first : Drop duplicates except for the first occurrence.
            last : Drop duplicates except for the last occurrence.
            False : Drop all duplicates.
inplace : boolean, default False
            Whether to drop duplicates in place or to return a copy

drop_duplicates是 用于删除重复的数据,第一个参数时传入用于判断的列:

data = DataFrame({'k1':['one']*3+['two']*4,'k2':[1,1,2,3,3,4,4]})
data['v1']=range(7)
data
data.drop_duplicates(['k1','k2'])
pandas函数之drop_duplicates_第1张图片
drop_duplicates_subset.PNG

而第二个参数keep用于指定删除方式,first表示留下重复数据第一条,last表示留下重复数据的最后一条,False表示删除所有重复数据。


pandas函数之drop_duplicates_第2张图片
drop_duplicates_keep.PNG

inplace参数,False时表示在原数据的copy上删除重复数据后,返回copy视图的保留数据(默认为False),True时表示直接在原数据视图操作,没有返回值。


pandas函数之drop_duplicates_第3张图片
drop_duplicates_inplace.PNG

你可能感兴趣的:(pandas函数之drop_duplicates)