pandas数据清洗--处理重复数据

import pandas as pd

data = pd.DataFrame(
    {'age': [28, 31, 27, 28],
    'gender': ['M', 'M', 'M', 'F'],
    'surname': ['Liu', 'Li', 'Chen', 'Liu']}
)
data
#判断有无重复数据
data.duplicated()
#判断两列'age', 'surname'有无重复数据
data.duplicated(subset=['age', 'surname'])
#去掉重复数据
data.drop_duplicates(subset=['age', 'surname'])
#去掉重复数据 保留后者
data.drop_duplicates(subset=['age', 'surname'], keep='last')


你可能感兴趣的:(小象学院,数据清洗,pandas)