pandas数据处理---1查看、删除重复元素 df.duplicated(subset=None, keep='first'/'last'/False)

1.查看标记重复元素

**1.1使用函数:**duplicated():df.duplicated(subset=None, keep=‘first’/‘last’/False)
1.2参数解析:
A.subset:对应值是列名,表示只考虑写的列,将列对应值相同的行进行去重,默认值None,即考虑所有列;
B.keep='first/last/False’:first:默认值,除了第一次出现外,其余相同的被标记为重复;last:除了最后一次出现外,其余相同的被标记为重复;False:即所有相同的都被标记为重复;
C.使用duplicated()函数检测标记Series中的值、DataFrame中的记录行是否是重复,重复为True,不重复为False;
1.3实战:
A.keep=‘first’
pandas数据处理---1查看、删除重复元素 df.duplicated(subset=None, keep='first'/'last'/False)_第1张图片
B.keep=‘last’
pandas数据处理---1查看、删除重复元素 df.duplicated(subset=None, keep='first'/'last'/False)_第2张图片
C.keep=False
pandas数据处理---1查看、删除重复元素 df.duplicated(subset=None, keep='first'/'last'/False)_第3张图片
D.选定列标签列表,对列表内标签作为进行检测重复字段:subset
pandas数据处理---1查看、删除重复元素 df.duplicated(subset=None, keep='first'/'last'/False)_第4张图片
E.把重复的数据找出来,删除;
drop:需要把我们要删除的索引找出来,然后删除索引的方式,把数据删除;
pandas数据处理---1查看、删除重复元素 df.duplicated(subset=None, keep='first'/'last'/False)_第5张图片

2.删除重复元素

**2.1使用函数:**drop_duplicates(): df.drop_duplicates(subset=None, keep=‘first’, inplace=False)
2.2参数解析:
A.drop_duplicate是对DataFrame格式的数据,去除特定列下面的重复行,返回DataFrame格式的数据;
B.subset : 用来指定特定的列,默认所有列;
C.keep : 有三个值,{‘first’, ‘last’, False}, 默认first,删除重复项并保留第一次出现的项;
D.inplace:是直接在原来数据上修改还是保留一个副本
2.3实战:
pandas数据处理---1查看、删除重复元素 df.duplicated(subset=None, keep='first'/'last'/False)_第6张图片
编者寄:文章内容参考与学习资料;整理不易,喜欢就来个赞~
在这里插入图片描述

你可能感兴趣的:(数据分析,python)