Python玩转数据分析——数据处理之数据清洗(处理缺失值)

处理缺失值

方法

  • 方法一:用一个样本统计量的值代替缺失值,通常用样本平均值和中位数。
  • 方法二:用一个统计模型计算的值代替缺失值,通常用回归模型、判别模型等。
  • 方法三:将有缺失值的记录删除。

这里仅展示方法一的Python实现。

准备数据

导入以下数据:

姓名 月收入
小明 3000
小红 5000
小华 8000
小新 3500
小赵 NaN
小兰 5500

代码如下:

df_incomp=pd.DataFrame(columns=['姓名','月收入'])
df_incomp['姓名']=['小明','小红','小华','小新','小赵','小兰']
df_incomp['月收入']=[3000,5000,8000,3500,np.nan,5500]

用样本平均值代替缺失值

df_incomp['月收入'].fillna(df_incomp['月收入'].mean(),inplace=True)

结果如下:
Python玩转数据分析——数据处理之数据清洗(处理缺失值)_第1张图片

用样本中位数代替缺失值

df_incomp['月收入'].fillna(df_incomp['月收入'].median(),inplace=True)

结果如下:
Python玩转数据分析——数据处理之数据清洗(处理缺失值)_第2张图片

你可能感兴趣的:(python,数据处理,数据清洗)