第三章-数据预处理

数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。


3.1数据清洗

数据清洗主要是删除原始数据集中的无关数据,重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值,异常值等。

3.1.1缺失值处理

处理缺失值的方法可分为三类:删除记录、数据插补和不处理
常用的插补方法如下图



插值法:拉格朗日插值法,牛顿插值法

拉格朗日插值法详解:https://www.zhihu.com/question/58333118/answer/262507694

插值法其实很简答:就是开开关的问题,x=x1时,y1的开关打开为1,其他y的开关关闭为0,最终值就为y1.

3.1.2 异常值处理

3.2 数据集成


主要包括冗余属性识别,同名异义,同名同义,单位不统一。

3.3数据变换

3.3.1 简单函数变换


3.3.3连续特征离散化

等宽,等频,基于聚类


3.3.4 属性构造

3.4 数据规约

1、合并属性
2、逐步向前选择
3、逐步先后选择
4、树模型做特征选择
5、主成分分析
3.5 python主要用于预处理的函数



你可能感兴趣的:(第三章-数据预处理)