数据挖掘之数据预处理小结

数据预处理的主要步骤:数据清理,数据集成、数据规约和数据变换。目的主要是将缺失的数据补充完整,消除噪声数据,识别和删除离群点并解决不一致性。做到将数据格式标准化、异常数据清除、错误纠正、重复数据清除。

1)异常数据处理:

异常数据分析:
(1)使用统计值进行判断,最大值、最小值、平均值等判断是否超出范围。
(2) 使用3原则,异常值和平均值比超出三倍标准差及小概率事件,可看做异常值.
(3)箱线图,数值超过了箱线图的上下边界即为异常值。
异常数据处理方式:
(1)删除异常数据
(2)视为缺失值,用缺失值处理方式进行处理
(3)平均值处理方法,前后观测值的平均值替代,或者整体数据的平均值。
(4)不进行处理,按正常数据

2)缺失值处理:

很多原因都会造成数据的缺失,现实世界的数据一般是不完整的、有噪声的和不一致的。主要原因有:
(1)保存不当缺失
(2)采集不当缺失
(3)不确定原因无法获取导致缺失
数据的缺失对数据挖掘有一定影响,因此我们需要进行对缺失值进行处理,处理缺失值主要方法:
(1)忽略元组
(2)人工填写缺失值
(3)使用一个全局常量填充缺失值(例如用unknown替换,该方法会让挖掘程序误认为他们形成了一个有趣的概念,因为他们都具有一个相同的常量unknown,因此该方法并不十分可靠)
(4)去掉缺失数据属性
(5)使用与给定元组属同一类的所有样本的属性均值或中位数代替
(6)默认值代替 预测值代替 插补法代替
插补法代替细分为:
(1)最近邻补插,附近值代替,前后值均值代替
(2)回归拟合代替

3)噪声数据处理:

噪声是被测量的变量的随机误差和方差,处理噪声的方法:
(1)分箱
(2)回归
(3)离群点分析
分箱法:按照一定的规律将数据放进一些箱子中,考察每个箱子中的数据,采用合适的方法处理箱子中的数据,分箱方法:
(1)权重分箱法(每个箱子里的数据量相同)
(2)统一区间法,根据属性区间平均分,相纸宽度是一个常量
(3)自定义区间法
分箱后对数据进行平滑处理的方法:
(1)平均值平滑
(2)边界值平滑
(3)中值平滑

离群点分析:可以通过如聚类来进行检测离群点,聚类将类似的值组织成群或“簇”,直观的,落在簇集合之外的值视为离群点,即为噪声数据

回归法:线性回归或者非线性回归来光滑数据 线性回归涉及找出拟合两个属性(或变量)的最佳直线,使得一个属性可以用来预测另外一个。多元线性回归是线性回归的扩充,涉及属性多于两个,并且数据拟合到一个多维曲面。

你可能感兴趣的:(数据挖掘)