数据挖掘导论 (二)

第二章  数据 

数据类型

  • 分类的(定性的):标称和序数
  1. 标称: 只能区分是否相同 ,当做符号一样 不参与数值运算。(=或者!=)例:邮政编码
  2. 序数:能确定对象的序,即大小关系。(<,<=,>,>=)例:矿石程度(好,较好,最好)

  • 数值的(定量的):区间和比率
  1. 区间:可以进行差值比较。(+,-) 例:日历日期
  2. 比例:除了能进行差值比较还能进行比率比较 。  (*,/)例:长度

数据质量

引起数据质量降低的因素:

测量误差:记录的值与实际值不同  误差=测量值-实际值
数据收集错误:遗漏数据或者不当地包含了其他数据

噪声:测量误差的随机部分,使值被扭曲或者加入了谬误对象 通常用于包含时间或者空间的分量
伪像:确定性失真 如一组照片在同一地方出现条纹

衡量因素:

精度:重复测量值之间的接近程度。通常用标准差度量
偏倚:测量值与被测量之间的系统的变差。通常用均值-测出的已知值度量

数据预处理

选择分析属性(属性本身并未改变

  1. 聚集:将两个或多个对象合并成单个对象 通常通过求和或者求平均值 
  2. 抽样:选择数据对象子集:简单随机抽样,分层抽样,渐进抽样
  3. 维归约:选择旧属性的子集得到新属性:成为特征子集选择或特征选择
  4. 特征子集选择:嵌入方法,过滤方法,包装方法
线性代数技术:主成分分析(PCA)用于连续属性,奇异值分解(SVD)

创建/改变属性(增加或者改变属性

  1. 维归约:通过创建新属性,将一些旧属性合并在一起降低数据集的维度。
  2. 特征创建:特征提取,映射数据到新空间(傅里叶变换或者小波变换),特征构造:由一个或者多个原始特征构造新特征例:密度=质量/体积 更好对材料分类
  3. 离散化和二元化:
离散化:连续属性转变为离散属性。本质:选择多少个分割点和确定分割点位置
  • 非监督:等宽,等频率,等深,K均值
  • 监督:根据熵值 ,极大化区间纯度
二元化:将m个分类值按照[0,m-1]赋值,用n=log2m取天棚个二进位来表示。分为有关联的和非对称的(关联分析)

变量变换:


简单函数:平方根,对数,倒数 常用来变换成高斯分布 

规范化和标准化:x=(x-平均数)/标准差


因为受离群值影响很大,用中位数代替均值。用绝对标准差取代标准差

相似性和相异性的度量

邻近度:表示相似性或者相异性。

变换:

将相似度转换成相异度或相反,或者把邻近度变换到一个特定空间,如[0,1]
一般来说,相似度转换到[0,1]由下公式给出:s'=(s-mins)/(maxs-mins) 
将相似度变换成相异度或相反 。
  • 不局限于[0,1]d=1-s 或者d=-s  
  • 局限于[0,1]s=1/(1+d),s=e.^-d,s=1-(d-mind)/(maxd-mind)

相异度(距离)

欧几里得距离

闵可夫斯基距离来推广


度量:满足非负性,对称性,三角不等式。
非度量的相异度:集合差,时间

相似度

只能用于二元属性:
  • 相似系数:简单匹配系数(SMC)

  • Jaccard系数J:忽略同时为0的数据 处理包含非对称属性的 稀疏矩阵

可用于所有属性:
  • 余弦相似度:

  • 广义Jaccard系数EJ

  • 相关性:若最后结果为正负一,则有完全线性关系即x=ay+b

  • Bregman散度 用作相异性函数

邻近度计算问题

距离度量的标准化和相关性 使用Mahalanobis距离
  
组合异种属性的相似度:如果两个对象非对称属性上的值都为0,则计算相似度时忽略他们,可以很好地处理遗漏值
使用权值

总结

对于稠密的,连续的数据,通常使用距离 如欧几里得距离
对于稀疏的,常常包含非对称属性,通常忽略0-0匹配,使用余弦,Jaccard系数和广义Jaccard系数是合适的

你可能感兴趣的:(数据挖掘)