删除重复值drop_duplicates()

处理重复值, 使用drop_duplicates()方法;
其具体用法是: dataframe.drop_duplicates(subset=‘列1’) 表示删除dataframe中列1中有重复的值所在的行
并保留重复值中第一行

import pandas as pd

data_list = pd.DataFrame([['张三','男',27,180,20000,1],['赵五','男',30,177,24000,0.92],
                          ['刘六','男',31,168,6000,0.45],['韩美','女',25,165,6000,0.90],
                          ['韩美','女',30,156,8000,0.44],['帧','女',39,165,20000,0.45]],
                         columns = ['姓名','性别','年龄','身高','月薪','相亲受青睐系数'],)

# 创建二维列表
print(data_list)

输出结果: 
   姓名 性别  年龄 身高  月薪  相亲受青睐系数
0  张三  男  27  180  20000     1.00
1  赵五  男  30  177  24000     0.92
2  刘六  男  31  168   6000     0.45
3  韩美  女  25  165   6000     0.90
4  韩美  女  30  156   8000     0.44
5   帧  女  39  165  20000     0.45


```python



amend = data_list.drop_duplicates(subset='姓名') # 删除"姓名"这一列中有重复值的行,并默认保留重复值中的第一行
print(amend)

输出结果:
姓名 性别 年龄 身高 月薪 相亲受青睐系数
0 张三 男 27 180 20000 1.00
1 赵五 男 30 177 24000 0.92
2 刘六 男 31 168 6000 0.45
3 韩美 女 25 165 6000 0.90
5 帧 女 39 165 20000 0.45

modify = data_list.drop_duplicates(subset=['姓名','相亲受青睐系数']) # 只有设置的这2列有同时重复值才删除
print(modify)

输出结果:
姓名 性别 年龄 身高 月薪 相亲受青睐系数
0 张三 男 27 180 20000 1.00
1 赵五 男 30 177 24000 0.92
2 刘六 男 31 168 6000 0.45
3 韩美 女 25 165 6000 0.90
4 韩美 女 30 156 8000 0.44
5 帧 女 39 165 20000 0.45

你可能感兴趣的:(python,python,删除重复值)