数据挖掘概念与技术读书笔记(三)数据预处理

3.1 数据预处理  

  数据质量的三个要素:准确性、完整性和一致性。

3.1.2 数据预处理的主要任务

  数据清理:填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来”清理“数据。

  数据集成:

  数据归约:

3.2 数据清理

3.2.1 缺失值

  1.忽略元组

  2.人工填写缺失值

  3.使用一个全局常量填充缺失值

  4.使用属性的中心度量填充缺失值:中位数

  5.使用与给定元组属同一类的所有样本的属性均值或中位数

  6.使用最可能的值填充缺失值:回归/贝叶斯/决策树

  第6种是最流行的策略

3.2.2 噪声数据

  噪声:被测量的变量的随机误差或方差。

  数据光滑技术:

  分箱:通过考察数据的近邻来光滑有序数据值。这些有序的值被分布到一些桶或箱中。由于分箱考察近邻的值,因此它进行局部光滑。

  例:4,8,15,21,21,24,25,28,34

  分箱:每箱3个值

  箱1:4,8,15

  箱2:21,21,24

  箱3:25,28,34

  用均值光滑:

  箱1:9,9,9

  箱2:22,22,22

  箱3:29,29,29

  用箱边界光滑:宽度越大,光滑效果越明显  

  箱1:4,4,15

  箱2:21,21,22

  箱3:25,25,34

  回归:用一个函数拟合数据来光滑数据。线性回归涉及找到拟合两个属性的最佳直线,使得一个属性可以用来预测另一个。

  离群点分析:通过聚类来检测离群点。

3.2.3 数据清理作为一个过程

3.3 数据集成

3.3.1 实体识别问题

3.3.2 冗余和相关分析

  有些冗余可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据,度量一个属性能在多大程度上蕴含另一个。

  对于标称数据,用卡方检验,对于数值属性,用相关系数和协方差,它们都评估一个属性的值如何随另一个变化。

  1.标称数据的卡方相关检验

  卡方统计检验假设A和B是独立的。

  例3.1 使用卡方的标称属性的相关分析

  假设调查了1500个人,记录性别,是否小说,那么有两个属性:性别、是否小说。

  合计
小说 250(90) 200(360) 450
非小说 50(210) 1000(840) 1050
合计 300 120 1500

  单元(男,小说)的期望频率是:

  e11=count(男)*count(小说)/n=300*450/1500=90

  根据卡方值公式:

    

  自由度是(2-1)(2-1)=1

  2.数值数据的相关系数

  对于数值数据,可以通过计算A和B的相关系数,估计这两个属性的相关度rA,B

  

  该值处于-1到1之间,如果rA,B大于0,则正相关,意味着A值随着B值增大而增大。该值越大,相关性越强。因此一个较高的rA,B表明A或B可以作为冗余而被删除。

  如果该值为0,说明是独立的,没有相关性。

  如果该小于0,说明是负相关,一个值增加另一个减少。

  注意,相关性并不蕴涵因果关系,如果A和B是相关的,并不意味着A导致B或B导致A。

  3.数值数据的协方差

  协方差和方差是两个类似的度量,评估两个属性如何一起变化。A和B的均值又称为期望值。

  A和B的协方差定义为:

  

  

  对于两个趋向于一起改变的属性A和B,如果A大于E(A),B很可能大于E(B)。因此,A和B的协方差为正。另一方面,如果一个属性小于它的期望值,另一个属性趋势向于大于它的期望值,则A和B的协方差为负。

  如果A和B是独立 的,E(AB)=E(A)*E(B),则协方差为0。但是如果协方差为0,未必是独立的。、

  例:数值属性的协方差分析

时间点 AllElectronics HighTech
t1 6 20
t2 5 10
t3 4 14
t4 3 5
t5 2 5

  E(AllElectronics)=(6+5+4+3+2)/5=4

  E(HighTech)=(20+10+14+5+5)/5=10.8

  Cov=(6*20+5*10+4*14+3*5+2*5)/5-4*10.8=50.2-43.2=7

  协方差为正,说明两个公司股票同时上涨

3.3.3 元组重复

3.3.4 数据值冲突的检测与处理

 

你可能感兴趣的:(数据挖掘概念与技术读书笔记(三)数据预处理)