.Dropna()滤除缺失数据||空字符串处理

滤除缺失数据

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
Remove missing values.

pd.dropna()函数(官方文档)用于过滤数据中的缺失数据.

属性说明

  • 默认参数axis=0,根据索引(index)删除指定的行
    axis=1,根据列名(columns)删除指定的列

  • 默认axis=0,how=‘any’,删除带有空值的行,只要有一个空值,就删除整行

  • axis=1,删除带有空值的列,只要有一个空值,就删除整列

  • how=‘all’, 整行都是空值时,才会被删除

  • thresh,设定阈值,缺失值个数大于该阈值,整行(axis=0)或整列(axis=1)才会被删除

  • subset=[1,2], 删除指定列(1,2)中包含缺失值的行

作者语:

某次实验过程用到了正则匹配替换、去停用词,DATa Frame中包含了空字符串(注意不是空值),作者首先用.dropna()函数过滤数据不成功,然后才发现使用.dropna()函数要保证数据中包含的是空值,故需要多一个过程(正则匹配替换空字符串),替换正则表达式如下所示:

DataFrame.replace(to_replace=r'^\s*$', value=np.nan, regex=True, inplace=True)

然后在使用.dropna()函数。

你可能感兴趣的:(数据预处理,Python)