10.1.1 重复值检测

1. duplicated() 和 drop_duplicated()

duplicated() 检测重复值,drop_duplicated() 去掉重复值。


image.png

image.png

1.1 查看重复值的比

image.png

(1)所有列重复为重复

df.duplicated() 的结果为TRUEor False,进行均值得到重复值的比。比例很大,说明共线性很大。


image.png

(2)指定列重复才作为重复,参数subset

image.png

(3)指定第一个还是最后一个不为重复值

first,last, 为first, 第一个保留,其他作为重复值。

image.png

通过df.loc 得到重复行的索引
image.png

image.png

你可能感兴趣的:(10.1.1 重复值检测)