数据分析基础之《pandas(6)—高级处理》

一、缺失值处理

1、如何处理nan
两种思路:
(1)如果样本量很大,可以删除含有缺失值的样本
(2)如果要珍惜每一个样本,可以替换/插补(计算平均值或中位数)

2、判断数据是否为nan
pd.isnull(df)
pd.notnull(df)

3、缺失值处理方式
存在缺失值nan,并且是np.nan
(1)dropna(axis='rows')
删除存在缺失值

(2)fillna(value, inplace=True)
替换缺失值
说明:
value:替换成的值
inplace:
    True:会修改原数据
    False:不替换修改原数据,生成新的对象

(3)缺失值不是nan,是其他标记的
后面再说

二、缺失值处理实例

1、电影数据文件获取

你可能感兴趣的:(机器学习,数据分析)