python利用pandas库查看数据集是否有缺失值(NA或Null)以及简单的缺失值填充

import pandas as pd

# data即为数据
pd.isnull(data).any()

得到结果,可以看到显示False的变量,如Date、Location、RainTomorrow 是没有缺失值的
而True则表示有缺失值

Date             False
Location         False
MinTemp           True
MaxTemp           True
Rainfall          True
Evaporation       True
Sunshine          True
WindGustDir       True
WindGustSpeed     True
WindDir9am        True
WindDir3pm        True
WindSpeed9am      True
WindSpeed3pm      True
Humidity9am       True
Humidity3pm       True
Pressure9am       True
Pressure3pm       True
Cloud9am          True
Cloud3pm          True
Temp9am           True
Temp3pm           True
RainToday         True
RainTomorrow     False
dtype: bool

然后是简单的填充,例如用-1来填充缺失值,将填充后的结果赋一下

data1 = data.fillna(-1)

或者直接对data原地修改

data.fillna(-1,inplace = True)

注意,如果你要将结果赋给一个变量,请不要加inplace = True
如果要直接在原数据上修改,请加上inplace = True。此时原数据已经修改,不可也不必要赋值给另一个变量
至于更高级更实用的填充方法,比如均值填充、众数填充,可以借助sklearn的impute来处理,有空会写一篇

你可能感兴趣的:(笔记,python,数据分析,开发语言,大数据,经验分享)