数据及数据类型:数据是数据库存储的基本对象,狭义的数据理解为数值,广义的数据理解为记录。数据的属性:标称(Nominal)、序数(Ordinal)、区间(Interval)和比率。标称的属性(只提供足够的信息以区分对象,例如甲乙丙)序数属性(提供足够的信息,区别对象的序,例如及格,不及格)区间属性(其属性的差值是有意义的,例如日期)比率属性(其值的差和比率均有意义,例如速率)
标称和序数属性:称为分类或者定性属性。区间和比率属性:称为数值或者定量属性
数据集:
数据集三个重要的特性:维度、稀疏性、分辨率
维度:代表了数据集中属性的个数,有低、中、高三种数据集维度,在面对高维度通常会碰到维灾难。这就引出了数据预处理中的重要技术维归约
稀疏性:有的数据集,有意义的数据非常少,对象在大部分的属性取值为0
分辨率:在不同的分辨率下,数据会得到不同的性质。例如:地址数据:国家-城市-街道-门牌号。不同的分辨率对应着不同的性质
数据集分类:记录数据(事务数据或购物篮数据:典型例子,超市零售数据。 数据矩阵:类似二维表一个行表示一个数据对象,一个列表示数据的属性)
基于图形的数据(带权图就是一种最简单的图形数据)有序数据(时间数据、序列数据、时间序列数据、空间数据、流数据)
数据的统计特征:
数据的中心趋势度量和数据的离散程度度量
中心趋势度量:最常用最高效的是算术平均值(变形加权均值和截断均值),另外还包括众数(在集合中出现频率最高的值)、中位数(常用于倾斜的数据)、中列数(为最大和最小数的均值)
数据的离散程度度量:极差(最大数减去最小数)、方差以及四分位极差等
数据的预处理:
步骤:数据清理、数据集成、数据变换、数据规约、数据离散化
数据清理:(试图填充缺失值,去除噪声、识别离群点、纠正数据中的不一致值)
缺失值处理方法:忽略元组(缺少类标号处理)、忽略属性(一个属性的缺失值太多)、人工填写(缺失值较少的情况)还有就是自动填充缺少值(以一个全局的常量填充、该属性的平均值或者该属性的众数)
噪声数据平滑:分箱的方法(通过考察其邻居的值来平滑有序数值;一般步骤将数值排序,之后将数值分成若干相等的组,组中的数据采用平均值代替)。聚类的方法(可以很容易的去除离散点)还有就是回归的方法
数据集成:将两个或者多个数据源中的数据放在一个一致的数据存储设备中
数据变换:即将数据变成适合数据挖掘的格式(平滑数据:去噪声和离散点(方法:分箱、聚类、回归分析)、聚集(对数据进行汇总)、数据泛化(用高层数据代替底层数据)、数据规范化(将属性数据按照比例缩放)、属性构造(按照已经有的属性构造新的属性)、数据离散化(将连续数据变成离散数据))
其中:
数据规范化方法:最小最大规范化(x=(x-min)/(max-min)*(b-a)+a)将值转化到a-b区间。z-score规范化:z=(x-E)/S 其中E为平均值,S为标准差。小数定标规范化:x=x/(10^j).
数据离散化:分为有监督和无监督离散化两个大类。无监督离散化(等宽、等频和基于聚类分析的离散化方法)有监督离散化(基于熵的离散化方法:概括起来就是对于连续的属性,选择具有最小熵的结点作为分裂点,递归上述步骤,直到符合某种标准)
数据规约:(大意使用编码或者变换,达到数据压缩的效果)
维度规约和特征变换:(小波分析和主成分分析)
抽样:(有放回简单抽样、无放回简单抽样、层次抽样)概率的知识抽样可以近似表示整个数据集,达到以小见大的效果
特征选取:(从一组已知的特征中选取,一部分具有代表性的特征)主要方法:过滤的方法(在调用数据挖掘算法之前进行特征选取)封装的方法(把特征选取作为评价的一部分)嵌入的方法(特征选取作为数据挖掘算法的一部分存在)
下面介绍一种特征选取搜索策略:
逐步向前选择(从空属性集作为规约集的开始,确定原属性中最好的属性,并将它们添加到规约集中,在其后的每一次迭代中,都将剩下的原属性集中最好的添加到该集合)
逐步向后删除:由整个属性集开始,逐步向后删除最差的属性
决策树归纳方法:和构造决策树的过程类似
特征选取FCBF算法:
输入:训练数据集S(F1,F2,F3,.....,Fm,C),阀值O
输出特征子集F
For i=1 to m do
计算每个特征Fi与目标特征C之间的相关性Sim(Fi,C) 若Sim(Fi,C)>=O,将Fi添加到F
end for
将F中的特征按照降序排列
for j=1 to m do
for i=j+1 to m do
计算两两特征的相似度,若计算出的特性相似度大于与目标特征的相似度,就将其从F中除去,直到F
中所有的冗余特征都被除去
end for
其中变量x,y之间的互信息MI(x,y)可以按照下面公式计算:MI(x,y)=H(x)-H(x|y)=H(y)-H(y|x) H(x)为信息熵的计算公式
Sim(x,y)=2MI(x,y)/(H(x)+H(y))
相似性度量:
标称属性:相似度(相等为1,不相等为0)相异度(相等为0,不相等为1)
区间属性:相异度(d=|x-y|)相似度(s=1/(1+d) )
序数属性:相异度(属性f有M个有序状态,将属性值x替换成相应的等级r,将相应的等级r做变换映射到区间【0,1】,之后可以采用任何一种距离公式计算差异程度)
比例属性:计算比例属性的方法:1:将比例属性当做区间属性来进行距离计算,2:将比例属性看做连续的序数属性进行处理3:利用变换将属性的值转化为间隔数值进行处理
对象之间的相似性度量:
数值属性相似性度量:1:距离度量(铭科夫斯基距离,马氏距离等)2:相似系数(余弦相似度、相关系数、雅阁比系数)