数据挖掘导论-概述

1、数据挖掘概念

数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。数据挖掘是数据库中知识发现(knowledge discovery database KDD)不可缺少的 部分,而KDD是将未加工过的数据转换为有用信息的过程,包括数据预处理、数据挖掘和后处理等过程。

数据预处理:目的是将未加工的输入数据转化成适合分析的形式,包括融合多个数据源的数据,清洗数据以消除噪声或者重复的观测值,选择与当前数据挖掘人物相关的记录和特征。

2.数据挖掘任务分类

(1)预测建模(predictive modeling)包括分类(classification,用于预测离散的目标变量)和回归(regression),用于预测连续的目标变量。

(2)关联分析(association analysis),用来发现描述数据中强关联特征的模式,所发现的模式通常用蕴含规则或者特征子集的形式表示。

(3)聚类分析(cluster analysis) ,目标是发现紧密相关的观测值组群,使与属于不同簇的观测值相比,属于同一簇的观测值相互之间近可能类似。

(4)异常检测(anomaly detection),识别特征显著不同域其它数据的观测值。这样的观测值称为异常点或者离群点。

你可能感兴趣的:(数据挖掘)