定义挖掘目标–>数据取样–>数据探索–>数据预处理–>挖掘建模–>模型评价
挖掘的数据类型:时间序列,序列,数据流,时间空间数据,多媒体数据,文本数据,图,社会网络和web数据;
挖掘:知识类型、使用的技术、目标应用的技术、挖掘任务分类。
数据对象和属性类型
基本统计数据描述的典型度量:数据可视化方法,各种数据相似性,相异性的方法。
标称属性:标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码、或状态。
二元属性:是一种标称属性;0或1
序列属性:其可能的值之间具有有意义的序或秩评定,但相继值之间的差是未知的。
数值属性:可度量的定量。区间标度,比率标度。
中心趋势度量:均值、中位数、众数、中列数(最大最小值的均值)
数据的散布:极差、四分位数等
图形化显示:分位数图、直方图、散点图—–>数据可视化
数据矩阵:对象-属性结构 用 ( n * p )形式的矩阵来表示n个对象,每个对象p个属性。
相异性矩阵:对象-对象结构 存放两两对象的邻近度 n * n
欧几里得距离、曼哈顿距离:满足非负性、同一性、对称性、三角不等式
闵可夫斯基距离:h–>∞时的上确界距离
余弦相似性:相当于向量的cos
脏数据:缺失值、异常值、不一致的值、重复数据及含有特殊符号(如#¥*)的值。
因为无法获取或遗漏等原因造成某属性值不存在,会导致在建模时丢失有用信息,空值数据也会使建模过程造成不可靠的输出。
通过使用简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、缺失数与缺失率。缺失值处理分为删除、对可能的值插补和不处理
重视异常值,分析其产生的原因,常常会成为发现问题进而改进决策的契机。
1. 简单统计量分析:最大值最小值判断,是否超出合理范围。
2. 3σ原则:异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。距离平均值3σ之外的值概率为P(|x-u|>3σ)<=0.003 时属于极个别的小概率事件。
3. 箱形图分析:此时异常值被定义为不在此范围 [Ql-1.5IQR ~ Qu+1.5IQR]的值。
1. Ql为下四分位数:表示全部观察值中有四分之一的数据取值比它小;
2. Qu为上四分位数,表示全部观察值中有四分之一的数据取值比它大;
3. IQR称为四分位数间距,是上四分位数Qu和下四分卫数Ql之差,之间包含了全部观察值的一半。
4. 四分位数具有一定的鲁棒性:25%的数据可以变得任意远而不会很大的扰动四分位数,所以异常值不能对这个标准施加影响。箱形图识别异常值的结果比较客观。识别异常值有优越性
4. 一致性分析:不一致数据的产生主要发生在数据集成过程中,这可能由于被挖掘数据是来自于从不同的数据源、对于重复存放的数据未能进行一致性更新造成的。
分布分析揭示数据分布特征和分布类型。绘制频率分布表、绘制频率分布直方图、绘制茎叶图进行直观分析;对于定性分类数据,可用饼图和条形图直观的显示分布情况。
绝对数比较,相对数比较
散点图、散点图矩阵、计算相关系数
周期性分析、贡献度分析
数据质量,数据清理,数据集成,数据归纳,数据变换和数据离散化方法。
原始数据存在大量不完整、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,因此要数据清洗。
数据清洗完成后接着进行或者同时进行数据集成、转换、规约等一系列的处理,该过程就是数据预处理。一方面提高数据的质量,另一方面是要让数据更好的适应特定的挖掘技术或工具。这个工作占60%!
删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值。
数据清理:例程通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来清理数据。
数据集成:在分析中使用多个数据源的数据,涉及集成多个数据库、数据立方体或文件。
数据规约:得到数据的简化表示。维归约 + 数值规约。
使用数据编码方案,以便得到原始数据的简化或压缩表示。数据压缩技术(小波变换,主成分分析)和属性子集选择(去掉不相关属性)和属性构造(从原来的属性集导出更有用的小属性集)
参数模型(回归和对数线性模型)和非参数模型(直方图,聚类,抽样或数据聚集),用较小的表示取代数据
试图填充缺失值、光滑噪声并识别离群点、纠正数据中的不一致。两个步骤:包括偏差检测和数据变换。
忽略元组;人工填写缺失值;使用全局常量填充缺失值;使用属性中心度量;使用与给定元组属性同一类的所有样本的属性均值或中位数;使用最可能的值填充缺失值。
拉格朗日插值法,牛顿插值法。
异常值是否剔除,需视具体情况而定
噪声是被测量的变量的随机误差或方差。
方法1:分箱—-通过考察数据的近邻来光滑有序数据值。
方法2:回归—-可以用一个函数拟合数据来光滑数据。
方法3:离群点分析—-通过如聚类检测离群点。
数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将来自多个数据源的数据整合成一致的数据存储中的过程。
小心集成有助于减少结果数据集的冗余和不一致,有助于提高其后挖掘过程的准确性和速度。
1. 实体识别问题:来自多个信息源的现实世界的等价实体匹配问题。模式集成和对象匹配需要技巧。(同名异义、异名同义、单位不统一)
2. 冗余和相关分析:用相关分析检测冗余。标称数据–卡方检测;卡方统计检验假设A和B是独立的。检验基于显著水平。如果可以拒绝该假设,则说A和B统计相关。数值属性–相关系数:计算A和B的相关系数估计这两个属性的相关度。结果为0,则独立,不存在相关性。数据集成容易导致冗余:同一属性多次出现;同一属性命名不一致导致重复。仔细整合不同源数据能减少冗余与不一致,从而提高数据挖掘的速度和质量。对于冗余,先分析检测后将其删除
3. 数值数据的协方差:对于两个趋向一起改变的属性A和B,如果A大于A的期望值,B很可能大于B的期望值,那么A和B的协方差为正。如果相反,那么二者协方差就为负。
小波变化可以用于多维数据。计算复杂性关于立方体中单元的个数是线性的。对于稀疏或倾斜数据和具有有序属性的数据。
通过树形合并创建新属性维数,或者直接通过删除不相关的属性来减少数据维数,从而提高数据挖掘的效率,降低计算成本。找出最小的属性子集,并确保新数据子集的概率分布尽可能地接近原来数据集的概率分布。
PCA搜索k个最能代表数据的n维正交向量,其中k<=n。这样,原数据投影到一个小得多的空间上,导致维归约。
与属性子集选择通过保留属性集的一个子集来减少属性集的大小不同,PCA通过创建一个替换的、较小的变量集组合属性的基本要素。原数据可以投影到该较小的集合中。
PCA基本过程:
1. 对输入数据规范化,使得每个属性都落入相同的区间
2. PCA计算k个标准正交向量,作为规范化输入数据的基。单位向量
3. 对主成分按“重要性”或强度降序排列。主成分本质上充当数据的新坐标系,提供关于方差的重要信息。使得第一个坐标轴显示数据的最大方差,第二个坐标轴显示次大方差。
4. 因为主成分根据“重要性”降序排列,因此可以通过去掉较弱的成分来归约数据。使用最强的主成分,应当能够重构原数据的很好的近似。
PCA可以用于有序和无序的属性,并且可以处理稀疏和倾斜数据。多于二维的多维数据可以通过将问题归约为二维问题来处理。主成分可以用作多元回归和聚类分析的输入。与小波变换相比,PCA能够更好的处理稀疏数据,而小波变换更适合高维数据。
通过删除不相关或冗余的属性(或维)减少数据量。属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性得到的原分布。在缩小的属性集上挖掘还有其他优点:减少了出现在发现模式上的属性数目,使得模式更易于理解。
对于属性子集选择通常使用压缩搜索空间的启发式算法。通常,这些方法是典型的贪心算法,在搜索属性空间时,总是做看上去是最佳的选择,他们的策略是做局部最优选择,期望由此导致全局最优解。
属性构造帮助提高准确性和对高维数据结构的理解,属性构造可以发现关于数据属性间联系的缺失信息,这对知识发现是有用的。
提供对预计算的汇总数据进行快速访问,因此适合联机数据分析和数据挖掘。
光滑:去掉数据中的噪声。分箱、回归和聚类。
属性构造:可以由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。
聚集:对数据进行汇总或聚集。聚集日销售数据,计算月和年销售量。这一步用来为多个抽象层的数据分析构造数据立方体。
规范化:把属性数据按比例缩放,使之落入一个特定的小区间(-1~1,0~1)
离散化:数值属性的原始值用区间标签或概念标签替换。这些标签可以递归地组织成更高层概念,导致数值属性的概念分层。
简单函数变换:
用来将不具有正态分布的数据变换成具有正态分布的数据。简单的函数变换可能更有必要,利用对数变换对其进行压缩是常用的一种变换处理方法
规范化变换数据:
最小最大规范化
最大最小规范化保持原始数据值之间的联系。如果今后输入实例落在A的原数据值域之外,则该方法将面临越界错误。
z分数规范化
该标准差可以用均值绝对偏差替换!
按小数定标规范化
一些数据挖掘算法,特别是分类算法,要求数据室分类属性形式。常常需要将连续属性变换成分类属性,即连续属性离散化。
常用的离散化方法:
1. 等宽法:将属性值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定,或者由用户指定,类似于制作频率分布表。
2. 等频法:将相同数量的记录放进每个区间。
3. 基于聚类分析的方法。
通过分箱离散化、通过直方图分析离散化、通过聚类、决策树和相关分析离散化、标称数据的概念分层产生
为了提取有用的信息,挖掘更深层次的模式,提高挖掘结果的精度,利用已有属性集构造出新的属性,加入现有属性集合中。