数据挖掘——基本概念

1、定义:对于数据挖掘我们可以从两个角度来定义它:

a. 技术定义:数据挖掘是通过对大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程。

b.商业定义: 数据挖掘是一种新的商业信息处理技术, 其主要特点是对商业数据库中的大量业务数据进行抽取、 转换、 分析和其他模型化处理, 从中提取辅助商业决策的关建化数据。

2、数据挖掘的主要模型有:分类与预测,聚类和关联分析等;

分类:即是通过训练集训练得到一个分类模型,然后用此分类来对测试集中的样本进行分类;

聚类:是一种无监督的机器学习方法,主要是指依据样本间的相似性度量标准将数据集划分为多个簇集,每个簇集中对象间的相似度最大化,而不同簇集的样本间的相似度   最小化。(簇的表示形式和簇间相似度的定义是最基础的问题。常见的相似度定义可以使用余弦相似度、欧几里得距离公式等;)

关联分析:是为了发现数据中的关联规则,这些规则展现属性-值频繁地在给定数据集中一起出现的条件。关联分析广泛应用与购物篮或事务数据分析。

PS:分类是示例式学习,要求分类前明确各个类别,并断言每个元素映射到一个类别,而聚类是观察式学习,在聚类前可以不知道类别甚至不给定类别数量,是无监督学习的一种。

3、数据集的一般特点:维度、稀疏性和分辨率;

维度:指数据集中数据对象的属性数目,低纬度数据往往和高维度数据有质的不同。

稀疏性:指一个对象的大部分属性上的值为0,实际上稀疏性是一个优点,因为只有非0值才需要存储和处理,这导致节省了大量的计算时间和存储时间。

分辨率:即测量的尺度,在不同的分辨率下得到的数据的性质不同。

4、数据预处理:高质量的数据是进行有效数据挖掘的前提,数据预处理的过程主要有数据清理,数据集成,数据变换等。

数据清理:主要是为了试图填充缺失值、去除噪声、并识别离群点;

数据集成:指将多个数据源中的数据存放在一个一致的数据存储设备中。数据集成中的数据一致性(不同表中可能使用不同的名称来指示同一个属性)和冗余(如果对象的一个属性能够由另一个表导出)是两个重要的问题。

数据变换:指将数据转换成适合挖掘的形式。如可通过规范化将属性数据按照比例缩放,使之落入一个小的特定区间,如0-1之间。也可利用已知属性,通过构造新的特征来更好的刻画数据的特性,帮助挖掘过程。


你可能感兴趣的:(Data,Mining)