3.1 数据预处理
数据质量的三个要素:准确性、完整性和一致性。
3.1.2 数据预处理的主要任务
数据清理:填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来”清理“数据。
数据集成:
数据归约:
3.2 数据清理
3.2.1 缺失值
1.忽略元组
2.人工填写缺失值
3.使用一个全局常量填充缺失值
4.使用属性的中心度量填充缺失值:中位数
5.使用与给定元组属同一类的所有样本的属性均值或中位数
6.使用最可能的值填充缺失值:回归/贝叶斯/决策树
第6种是最流行的策略
3.2.2 噪声数据
噪声:被测量的变量的随机误差或方差。
数据光滑技术:
分箱:通过考察数据的近邻来光滑有序数据值。这些有序的值被分布到一些桶或箱中。由于分箱考察近邻的值,因此它进行局部光滑。
例:4,8,15,21,21,24,25,28,34
分箱:每箱3个值
箱1:4,8,15
箱2:21,21,24
箱3:25,28,34
用均值光滑:
箱1:9,9,9
箱2:22,22,22
箱3:29,29,29
用箱边界光滑:宽度越大,光滑效果越明显
箱1:4,4,15
箱2:21,21,22
箱3:25,25,34
回归:用一个函数拟合数据来光滑数据。线性回归涉及找到拟合两个属性的最佳直线,使得一个属性可以用来预测另一个。
离群点分析:通过聚类来检测离群点。
3.2.3 数据清理作为一个过程
3.3 数据集成
3.3.1 实体识别问题
3.3.2 冗余和相关分析
有些冗余可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据,度量一个属性能在多大程度上蕴含另一个。
对于标称数据,用卡方检验,对于数值属性,用相关系数和协方差,它们都评估一个属性的值如何随另一个变化。
1.标称数据的卡方相关检验
卡方统计检验假设A和B是独立的。
例3.1 使用卡方的标称属性的相关分析
假设调查了1500个人,记录性别,是否小说,那么有两个属性:性别、是否小说。
男 | 女 | 合计 | |
小说 | 250(90) | 200(360) | 450 |
非小说 | 50(210) | 1000(840) | 1050 |
合计 | 300 | 120 | 1500 |
单元(男,小说)的期望频率是:
e11=count(男)*count(小说)/n=300*450/1500=90
根据卡方值公式:
自由度是(2-1)(2-1)=1
2.数值数据的相关系数
对于数值数据,可以通过计算A和B的相关系数,估计这两个属性的相关度rA,B
该值处于-1到1之间,如果rA,B大于0,则正相关,意味着A值随着B值增大而增大。该值越大,相关性越强。因此一个较高的rA,B表明A或B可以作为冗余而被删除。
如果该值为0,说明是独立的,没有相关性。
如果该小于0,说明是负相关,一个值增加另一个减少。
注意,相关性并不蕴涵因果关系,如果A和B是相关的,并不意味着A导致B或B导致A。
3.数值数据的协方差
协方差和方差是两个类似的度量,评估两个属性如何一起变化。A和B的均值又称为期望值。
A和B的协方差定义为:
对于两个趋向于一起改变的属性A和B,如果A大于E(A),B很可能大于E(B)。因此,A和B的协方差为正。另一方面,如果一个属性小于它的期望值,另一个属性趋势向于大于它的期望值,则A和B的协方差为负。
如果A和B是独立 的,E(AB)=E(A)*E(B),则协方差为0。但是如果协方差为0,未必是独立的。、
例:数值属性的协方差分析
时间点 | AllElectronics | HighTech |
t1 | 6 | 20 |
t2 | 5 | 10 |
t3 | 4 | 14 |
t4 | 3 | 5 |
t5 | 2 | 5 |
E(AllElectronics)=(6+5+4+3+2)/5=4
E(HighTech)=(20+10+14+5+5)/5=10.8
Cov=(6*20+5*10+4*14+3*5+2*5)/5-4*10.8=50.2-43.2=7
协方差为正,说明两个公司股票同时上涨
3.3.3 元组重复
3.3.4 数据值冲突的检测与处理