《数据挖掘导论》CH2数据-读书笔记

2.1数据类型

2.1.1属性和度量

2.1.2数据集的类型

-数据集的一般特性:维度,稀疏性,分辨率

-数据集类型:记录数据、基于图形的数据、有序数据(时序数据,序列数据,时间序列数据,空间数据)

2.2数据质量

通常必须解决的数据质量问题包括:噪声和离群点,数据遗漏,不一致或重复,数据有偏差

2.2.1测量和数据收集问题

噪声和伪像/精度、偏倚和准确率(鲁棒算法)/离群点/遗漏值/不一致值

2.2.2关于应用的问题

2.3数据预处理

数据预处理是:选择分析所需要的数据对象和属性、以及创建改变属性,目的是为了改善数据质量。

2.3.1聚集:

聚集是删除属性的过程,聚集可以获得较小的数据集,属性群的行为更稳定

2.3.2抽样

数据挖掘抽样是因为处理所有的数据成本太高,当抽样样本很难确认时,用渐进抽样。

2.3.3维归约

维归约:通过创建新属性,将一些旧属性合并在一起来降低数据集的维度。维归约可以删除不相关的特征并降低噪声,并且由于特征较少更容易理解。常用的方法是使用线性代数技术,将数据由高维度投影到低纬度空间(主成分分析,奇异值分解)

2.3.4特征子集选择

降维的另一种方法,选择特征子集的方法:嵌入(特征选择作为数据挖掘算法的一部分,比如构造决策树分类器)、过滤(独立于数据挖掘任务的方法)和包装,特征加权。

2.3.5特征创建

创建新特征的目的是更有效地捕获数据集中的重要信息。创建新属性的方法:特征提取(由原始数据创建新的属性集),映射数据到新空间(对时间序列实施傅里叶变换)、特征构造(密度)

2.3.6离散化和二元化

分类算法中要求数据是分类属性形式。

离散化包括非监督离散化和监督离散化。非监督离散化常用等宽、等频率、K均值方法,监督离散化:熵最小

2.3.7变量变换

简单函数变换和规范化:使用变量变换时需要小心,因为它们改变了数据的特性。

规范化和标准化:目的是使整个值的集合具有特定的性质。

2.4相似性和相异性的度量

基础:相似性:两个对象相似程度的数值度量

变换:通常把相似度转化成相异度(或相反)

2.4.2简单属性之间的相似度和相异度

(标称属性,序数属性,区间或比率属性)

2.4.3数据对象之间的相异度

2.4.4数据对象之间的相似度

2.4.5邻近性度量的例子

-二元数据的相似性度量(SMC,Jaccard)

-余弦相似度(考虑映射和长度,常用于文档相似度)

-广义Jaccard系数

-相关性(pearson相关,bergman散度)

2.4.6领近度计算问题(属性不同尺度或者具有相关性,不同类型的属性,不同权重的属性)

你可能感兴趣的:(《数据挖掘导论》CH2数据-读书笔记)