1)检查单元格是否有缺失值:isna、isnull
2)检查某一列缺失或者非缺失的行:Series的isna、notna进行布尔索引
3)同时对几个列,检索出全部为缺失或者至少有一个缺失或者没有缺失的行:用 isna、notna 和 any、all 的组合
dropna 函数
参数理解:
axis:轴方向,默认为0,即删除行
how:删除方式,有 any 和 all 两种参数可以选择
thresh:删除的非缺失值个数阈值
subset:备选的删除子集
参数理解:
value:填充值
method:填充方法,用前面的元素填充 ffill 和用后面的元素填充 bfill 两种类型
limit:连续缺失值的最大填充次数
interpolate 函数
插值方式:
1)线性插值
2)最近邻插值
3)索引插值
常用参数:
limit_direction :控制方向。默认为 forward,后向或者双向限制插值为 backward 或 both
limit :控制最大连续缺失值插值个数
python:缺失值用 None 表示
numpy:缺失值用 np.nan表示
时间序列的对象:缺失值用 pd.NaT 表示
一般在数据处理时,读入数据集后,先通过 convert_dtypes 转为 Nullable 类型
1)sum, prob:缺失数据等价于被分别视作0和1,即不改变原来的计算结果
2)累计函数:会自动跳过缺失值所处的位置
3)进行单个标量运算:除了 np.nan ** 0 、1**np.nan 为确定的值之外,所有运算结果全为缺失,并且 np.nan 在比较操作时返回 False ,而 pd.NA 返回 pd.NA
假期没有带电脑,无法运行代码和做题,在2021年1月4日补上!
链接: DW_Pandas.