《数据挖掘导论》学习笔记

写在前面:粗体字为书中定义,红色字体为笔者认为的重点词。


【第一章:绪论】

1.数据挖掘:在大型数据存储库中,自动地发现有用信息的过程。

2.数据预处理步骤:融合来自多个数据源的数据 ,清洗数据以及消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。

3.数据挖掘要解决的问题:可伸缩,高维性,异种数据和复杂数据,数据的所有权和分布,非传统的分析。

4.数据挖掘任务:预测任务,描述任务。

四种主要数据挖掘任务:

(1)预测建模,有两类:分类,用于预测离散目标;回归,用于预测连续目标

(2)关联分析

(3)聚类分析

(4)异常检测


【第二章:数据】

(一)属性与度量

1.属性:是对象的性质或特性,它因对象而异,或随时间而变化。

2.测量标度:是将数值或符号值与对象的属性相关联的规则(函数)。

3.属性的不同类型:

(1)标称,描述:标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息区分对象。

(2)序数:序数属性的值提供足够的信息确定对象的序。

(3)区间:对于区间属性,值之间的差是有意义的,即存在测量单位。

(4)比率:对于比率变量,差和比率都是有意义的。

属性类型的定义是累积的。(1)(2)统称分类的或定性的属性,(3)(4)统称定量的或数值的属性。注意:定量属性可以是整数值或连续值。

4.非对称的属性:只有非零值才重要的二元属性是非对称的二元属性。这类属性对于关联分析特别重要。

(二)数据集的类型

1.数据集的一般特性:纬度,稀疏性,分辨率

2.基于图形的数据:带有对象之间联系的数据,具有图形对象的数据

3.有序数据:时序数据,序列数据,时间序列数据,空间数据



你可能感兴趣的:(数据挖掘)