DW_Pandas_Task7缺失数据

知识点整理

一、缺失值统计与删除

1.统计

1)检查单元格是否有缺失值:isna、isnull
2)检查某一列缺失或者非缺失的行:Seriesisna、notna进行布尔索引
3)同时对几个列,检索出全部为缺失或者至少有一个缺失或者没有缺失的行:用 isna、notna 和 any、all 的组合

2.删除

dropna 函数
参数理解:
axis:轴方向,默认为0,即删除行
how:删除方式,有 any 和 all 两种参数可以选择
thresh:删除的非缺失值个数阈值
subset:备选的删除子集

二、填充和插值

1.fillna

参数理解:
value:填充值
method:填充方法,用前面的元素填充 ffill 和用后面的元素填充 bfill 两种类型
limit:连续缺失值的最大填充次数

2.插值函数

interpolate 函数
插值方式:
1)线性插值
2)最近邻插值
3)索引插值
常用参数:
limit_direction :控制方向。默认为 forward,后向或者双向限制插值为 backward 或 both
limit :控制最大连续缺失值插值个数

三、Nullable类型

1.缺失记号及其缺陷

python:缺失值用 None 表示
numpy:缺失值用 np.nan表示
时间序列的对象:缺失值用 pd.NaT 表示

2.Nullable类型的性质

一般在数据处理时,读入数据集后,先通过 convert_dtypes 转为 Nullable 类型

3.缺失数据的计算和分组

1)sum, prob:缺失数据等价于被分别视作0和1,即不改变原来的计算结果
2)累计函数:会自动跳过缺失值所处的位置
3)进行单个标量运算:除了 np.nan ** 0 、1**np.nan 为确定的值之外,所有运算结果全为缺失,并且 np.nan 在比较操作时返回 False ,而 pd.NA 返回 pd.NA

练习题

假期没有带电脑,无法运行代码和做题,在2021年1月4日补上!

链接: DW_Pandas.

你可能感兴趣的:(python,数据分析)