**1.1使用函数:**duplicated():df.duplicated(subset=None, keep=‘first’/‘last’/False)
1.2参数解析:
A.subset:对应值是列名,表示只考虑写的列,将列对应值相同的行进行去重,默认值None,即考虑所有列;
B.keep='first/last/False’:first:默认值,除了第一次出现外,其余相同的被标记为重复;last:除了最后一次出现外,其余相同的被标记为重复;False:即所有相同的都被标记为重复;
C.使用duplicated()函数检测标记Series中的值、DataFrame中的记录行是否是重复,重复为True,不重复为False;
1.3实战:
A.keep=‘first’
B.keep=‘last’
C.keep=False
D.选定列标签列表,对列表内标签作为进行检测重复字段:subset
E.把重复的数据找出来,删除;
drop:需要把我们要删除的索引找出来,然后删除索引的方式,把数据删除;
**2.1使用函数:**drop_duplicates(): df.drop_duplicates(subset=None, keep=‘first’, inplace=False)
2.2参数解析:
A.drop_duplicate是对DataFrame格式的数据,去除特定列下面的重复行,返回DataFrame格式的数据;
B.subset : 用来指定特定的列,默认所有列;
C.keep : 有三个值,{‘first’, ‘last’, False}, 默认first,删除重复项并保留第一次出现的项;
D.inplace:是直接在原来数据上修改还是保留一个副本
2.3实战:
编者寄:文章内容参考与学习资料;整理不易,喜欢就来个赞~