整理【Pandas的缺失值处理】

我们在处理数据的时候,数据大概率是“脏”的,肯定会出现缺失值、异常值等各种各样的情况,最近想总结以下pandas中的对于缺失值处理的方法,一些基本操作:

1.isnull()用于找出缺失值

2.notnull()用于找出非缺失值

3.dropna()用于去除缺失值

4.fillna()用于填充缺失值

isnull()就是用于找出数据中存在的缺失值的位置,返回的是一个布尔类型的True或者False,

对数据直接使用data.isnull()即可

notnull()和isnull()正好相反,是在数据中找出非空值,同样也是返回True或者False

dropna()就是丢弃缺失值

DataFrame.dropna(axis=0,how="any",thresh= None,subset=None,inplace=False)
'''
参数:
axis:默认为0,表示删除行还是列,也可以用“index”和“columns”表示how
thresh:表示删除非空值小于thresh个数时删除 
subset:列表类型,表示哪些列里有空值才删除行或列 inplace:与其他函数的inplace一样,表示是否覆盖原DataFrame
'''

fillna()就是填充缺失值

DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)

'''
参数:
value:设置用于填充DataFrame的值
method:默认为None;设置填充DataFrame的方法有:‘backfill’, ‘bfill’, - ‘pad’, ‘ffill’四种,其中‘backfill’和 ‘bfill’是用前面的值填充空缺值,‘pad’和 ‘ffill’是用后面的值填充空缺值
axis:填充缺失值所沿的轴,与上文的axis设置方法一样
inplace:是否替换原DataFrame,与上文的设置方法一样
limit:设置被替换值的数量限制 
downcast:表示向下兼容转换类型,不常用
'''

你可能感兴趣的:(pandas,python,数据分析)