《数据挖掘导论》CH2数据-读书笔记

2.1数据类型

2.1.1属性和度量

2.1.2数据集的类型

-数据集的一般特性：维度，稀疏性，分辨率

-数据集类型：记录数据、基于图形的数据、有序数据（时序数据，序列数据，时间序列数据，空间数据）

2.2数据质量

通常必须解决的数据质量问题包括：噪声和离群点，数据遗漏，不一致或重复，数据有偏差

2.2.1测量和数据收集问题

噪声和伪像/精度、偏倚和准确率（鲁棒算法）/离群点/遗漏值/不一致值

2.2.2关于应用的问题

2.3数据预处理

数据预处理是：选择分析所需要的数据对象和属性、以及创建改变属性，目的是为了改善数据质量。

2.3.1聚集：

聚集是删除属性的过程，聚集可以获得较小的数据集，属性群的行为更稳定

2.3.2抽样

数据挖掘抽样是因为处理所有的数据成本太高，当抽样样本很难确认时，用渐进抽样。

2.3.3维归约

维归约：通过创建新属性，将一些旧属性合并在一起来降低数据集的维度。维归约可以删除不相关的特征并降低噪声，并且由于特征较少更容易理解。常用的方法是使用线性代数技术，将数据由高维度投影到低纬度空间（主成分分析，奇异值分解）

2.3.4特征子集选择

降维的另一种方法，选择特征子集的方法：嵌入（特征选择作为数据挖掘算法的一部分，比如构造决策树分类器）、过滤（独立于数据挖掘任务的方法）和包装，特征加权。

2.3.5特征创建

创建新特征的目的是更有效地捕获数据集中的重要信息。创建新属性的方法：特征提取（由原始数据创建新的属性集），映射数据到新空间（对时间序列实施傅里叶变换）、特征构造（密度）

2.3.6离散化和二元化

分类算法中要求数据是分类属性形式。

离散化包括非监督离散化和监督离散化。非监督离散化常用等宽、等频率、K均值方法，监督离散化：熵最小

2.3.7变量变换

简单函数变换和规范化：使用变量变换时需要小心，因为它们改变了数据的特性。

规范化和标准化：目的是使整个值的集合具有特定的性质。

2.4相似性和相异性的度量

基础：相似性：两个对象相似程度的数值度量

变换：通常把相似度转化成相异度（或相反）

2.4.2简单属性之间的相似度和相异度

（标称属性，序数属性，区间或比率属性）

2.4.3数据对象之间的相异度

2.4.4数据对象之间的相似度

2.4.5邻近性度量的例子

-二元数据的相似性度量（SMC,Jaccard）

-余弦相似度（考虑映射和长度，常用于文档相似度）

-广义Jaccard系数

-相关性（pearson相关，bergman散度）

2.4.6领近度计算问题（属性不同尺度或者具有相关性，不同类型的属性，不同权重的属性）