python 使用Pandas进行数据清洗

文章目录

    • 数据缺失
      • 缺失值检测 isnull()
      • 丢弃缺失值dropna()
      • 缺失值填充fillna()
    • 数据重复
      • 去重复值drop_duplicates()
    • 数据不一致
      • 值替换replace
      • 异常值处理

数据清洗:对采集的数据进行重新审查和校验的过程,其目的在于删除重复信息、纠正存在的错误,保证数据的一致性。
常见问题:数据缺失、数据重复、数据不一致

数据缺失

缺失值检测 isnull()

python 使用Pandas进行数据清洗_第1张图片

丢弃缺失值dropna()

dropna(axis,how,thresh,…)

axis:0表示按行滤除,1表示按列滤除,默认为axis=0 how: “all”表示滤除全部值都为NaN的行或列
Thresh:只留下有效数据数大于或等于thresh的行或列
python 使用Pandas进行数据清洗_第2张图片

案例:
python 使用Pandas进行数据清洗_第3张图片

缺失值填充fillna()

fillna(value, method,…) value:填充值,可以是标量、字典等 method:‘ffill’, ‘bfill’
用同列前一行或后一行数据填充
python 使用Pandas进行数据清洗_第4张图片

案例:
python 使用Pandas进行数据清洗_第5张图片
python 使用Pandas进行数据清洗_第6张图片

数据重复

去重复值drop_duplicates()

data. drop_duplicates(inplace=True) #去掉重复的数据,inplace=True时,直接删除重复数据
python 使用Pandas进行数据清洗_第7张图片

数据不一致

值替换replace

replace(to_replace, value, …)

data[‘Age’].replace(20, np.nan) #将年龄20替换为空值
data[‘Age’].replace({20:np.nan, 21:0})

异常值处理

案例:
python 使用Pandas进行数据清洗_第8张图片

你可能感兴趣的:(Python初学,python,数据挖掘,数据分析)