数据挖掘---数据处理

大致流程:问题分析(需求分析),数据预处理(数据清洗,数据集成,数据归约),特征选择,模型选择(方案设计),模型求解,模型评估,模型解释,写成报告形式,展示。
先撇开问题分析不说,数据预处理是数据分析挖掘最重要也是最基本的步骤。因为数据的质量往往能决定结果的质量。所以本篇先不谈各种数据挖掘算法,先做好数据预处理的基本功才是最重要的。

只做总结,不作细说

一、认识数据
首先对数据进行一些基本的描述性统计分析。
1.数据基本统计描述
关于中心趋势度量:均值,中位数,众数,中列数
给定一个属性,看他的值大部分落在何处。
1.1均值:
算术平均
调和平均
几何平均
截尾平均(为抵消少数极端值的影响,放弃高低极端后的均值)

1.2中位数

1.3众数

2.数据的散布(离散程度)
2.1极差
2.2四分位数
2.3四分位极差
四分位极差IQR:Q3-Q1(第3个四分位数-第1个四分位数),这个指标可以用于离群点的识别。识别可以的离群点的通常规则是,挑选落在第3个四分位数以上或第1个四分位数之下至少1.5*IOR处的值
2.4五数概括
2.5盒子图
注意盒子图的画法:盒子图会有两个“胡须”,这两个胡须一般是数据集的最小值和最大值,中位数用盒内的线表示;仅当最高和最低观测值超过四分位数不到1.5*IQR时,胡须扩展到它们。否则,胡须在出现在1.5*IOR之内的最极端的观测值处终止。
2.6方差
2.7极差

3.简单数据可视化:
有时候看图会比看变量的指标(如均值,极差)更快的了解数据的分布。下面介绍一些简单常见的统计图
3.1直方图
3.2饼图
3.3线图
3.4分位数图
3.5分位数-分位数图
3.6散点图

4如何度量数据的相似性和相异性
簇:组内相似,组间相异
4.1相似性度量
标称属性:不匹配率(两个属性之间不匹配数目占所有属性数目的比例)
二元属性:相异性分为对称的二元属性和非对称的二元属性,对于对称的而言,每个状态都是同等重要,故相异性的度量就是用两个的差别部分数目与总数目之比来表示,而非对称的,两个状态不是同等重要,两个取值为1的状态比两个取值为0的情况更急有意义。负匹配数被认为是不重要的,不考虑在分母内,其他一样。对非对称的二元属性,相似性就用1减去相异性即可,称为Jaccard系数。

4.2数值属性的相异性度量:明氏距离,欧氏距离,曼哈顿距离,切比雪夫距离,马氏距离
序数属性的邻近性度量(属性有顺序优劣之分)
余弦相似性、Tanimoto距离
适用于稀疏性的数据(有多个0)

二、数据预处理
数据质量:准确性,完整性,一致性,时效性,可信性,可解释性
上面介绍了一些初步了解数据的方法手段,下面总结下数据预处理。
数据预处理主要分为四个步骤:数据清洗,数据集成,数据归约,数据变换
1.数据清洗:主要为了填补缺失值,光滑噪声数据,识别或删除离群点
1.1缺失值:
忽略元组,人工填写,用全局常量填充,用属性的均值填充等
1.2噪声数据(被测量的变量的随机误差或方差):
分箱:通过考察数据的“近邻”来光滑有序数据值,有等频箱,箱均值光滑,箱边界光滑
回归:用一个函数拟合数据来光滑数据
1.3离群点:如何识别离群点以及如何处理离群点
数据清洗的第一步是偏差检测,导致偏差的因素可能有很多种
2.数据集成:数据来自多个数据源,属性在不同的数据库有不同的名字,不一致性
2.1实体识别问题:如何判断不同的数据库的不同列名是否是同一个变量,空值,0值,缺失值等。
2.2冗余和相关分析:若一个属性能优另一个或另一组属性导出,则这个属性可能是冗余的。属性或维命名的不一致也可能导致结果数据集中的冗余。有些冗余可被相关分析检测到。标称数据,使用卡方检验;数值属性,用相关系数,协方差,评估一个属性的值如何随另一个变化。
3.数据归约:维归约和数值归约。
3.1维归约
使用数据编码方案,使原始数据压缩简化,数据压缩(小波分析,PCA,数据压缩分有损和无损的),属性子集选择(去掉不相关属性),属性构造(从原来的属性集导出更有用的小属性集)。
3.2数值归约
用参数模型(回归和对数线性模型)或非参数模型(直方图,聚类,抽样,数据聚集),用较小的表示取代数据
3.2.1小波变换:略
3.2.2主成分分析:搜索k个最能代表数据的n维正交向量,k小于n,原始数据投影到一个小得多的空间上,导致维归约。PCA通过创建一个替换的,较小的变量集“组合”属性的基本要素。
3.3特征子集选择
属性子集的选择【特征子集选择】:(因为漏下相关属性或留下不相关属性都是有害的,可能导致发现质量很差的模式)删除不相关或冗余的属性(维)减少数据量。目标是找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性得到的原始分布。

3.3.1逐步向前选择:由空属性集开始,确定原属性集中最好的属性,将其加到归约集中,在之后的迭代中,将剩下的原属性集中最好的属性加到归约集中。

3.3.2逐步向后删除:由整个属性集开始。在每一步中,删除尚在属性集中最差的属性
逐步向前选择和逐步向后删除的组合:每一步选择一个最好的属性,并在剩余属性中删除一个最差的属性。
3.3.3决策树归纳:由给定的数据构造决策树,不出现在树中的所有属性假定是不相关的,出现在树中的属性形成归约后的属性子集
属性构造【特征构造】:如长乘宽得到面积
回归:

直方图:单个值->单值桶。如何确定桶和属性值的划分?
等宽:每个桶的宽度区间一致
等频(等深):使得每个桶的频率粗略的为常数(即每个桶大致包含相同个数的邻近数据样本)
对于近似稀疏和稠密数据,以及高倾斜和均匀数据,直方图非常有效。对于存放具有高频率的离群点,单值桶是有用的
聚类:簇和簇的质量的度量
抽样:无放回简单随机抽样,有放回简单随机抽样,簇抽样,分层抽样
4.数据变换:规范化,数据离散化和概念分层
光滑:去掉数据中的噪声,分箱,回归,聚类
属性构造:由给定的数据属性创建性的属性并添加到属性集中。
聚集:对数据进行汇总或聚集
规范化:把属性数据按比例缩放,使之落入一个特定的小区间。最小-最大规范化,z分位数规范化,按小数定标规范化
分箱离散化:是一种基于指定的箱个数的自顶向下的分裂技术

你可能感兴趣的:(数据挖掘,其他)