pandas由入门到精通-数据清洗-分类数据

pandas-02-数据清洗&预处理

  • E. 分类数据
    • 1. 适用情况
    • 2. Categorical 扩展数据类型
      • 2.1 通过astype将一个Series转化为Categorical类
      • 2.2 通过pd.Categorical 生成Categorical类
      • 2.3 通过pd.Categorical.from_codes 将标签列表和整数列表转化为Categorical类
      • 2.4 Categorical类的属性
      • 2.5 Categorical类的方法
    • 3. 实际应用:先分箱,再打上类别标签,分组聚合计算每个类别统计量,最后转换为one-hot向量
    • 4. 性能对比

文中用S代指Series,用Df代指DataFrame
数据清洗是处理大型复杂情况数据必不可少的步骤,这里总结一些数据清洗的常用方法:包括缺失值、重复值、异常值处理,数据类型统计,分箱,随机采样,

你可能感兴趣的:(pandas由入门到精通,pandas,数据分析,分类)