Pandas数据分析教程-数据处理

pandas-02-数据清洗&预处理

  • B. 数据处理
    • 1. 重复值处理
    • 2. map逐元素转换
    • 3. 值替换
    • 4. 改变索引值
    • 5. 离散化与分箱
    • 6. 检测过滤异常值
    • 7. 排列与随机采样
    • 8. 根据类别生成one-hot向量,向量化

文中用S代指Series,用Df代指DataFrame
数据清洗是处理大型复杂情况数据必不可少的步骤,这里总结一些数据清洗的常用方法:包括缺失值、重复值、异常值处理,数据类型统计,分箱,随机采样,向量化编码等方法。每种方法都给出了代码和实例,并用表格进行总结。

B. 数据处理

1. 重复值处理

  • 判断Df中的值是否之前出现过,(默认以整行为一个单位)Df.dulpicated()
  • 去掉Df中重复的值,(默认以整行为单位,保留第一次见到的值)Df.drop_duplicates()
  • 可以指定某一列为重复筛选的条件,该列有重复值就删掉 Df.drop_du

你可能感兴趣的:(pandas,pandas,数据分析,数据挖掘)