数据挖掘基础知识

一、什么是数据挖掘(data mining

数据挖掘是 数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式 识别等诸多方法来实现上述目标。数据库中知识发现过程如图1所示。

数据挖掘基础知识

图1 数据库中知识发现(KDD)过程

数据预处理的目的是将未加工的输入数据转换成适合分析的形式。数据预处理涉及的步骤怕生唯一的数据,清廷数据以消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的方式多种多样,数据预处理可能是整个知识发现过程中最费力、最耗时的步骤。

二、数据挖掘任务

数据挖掘任务分为下面两大类:

  • 预测任务:这些任务的目标是根据其他属性珠值,预测特定属性的值。被预测的属性一般称目标变量(target variable)或因变量(dependent variable),而用来做预测的属性称说明变量(explanatory variable)或自变量(independent variable)。
  • 描述任务:其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查,并且常常需要后处理技术验证和解释结果。

四种主要的数据挖掘任务:

  • 预测建模(predictive modeling):以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类(classification),用于预测离散的目标变量;回规(regression),用于预测连续的目标变量。两项训练一个模型,使目标变量预测值与实际值之间的误差达到最小。以用来确定顾客对产品促销活动的反应,预测地球生态系统的振动,或根据检查结果判断病人是否患有某种疾病。
  • 关联分析(association analysis):用来发现描述数据中强关联特征的模式。如在大量的购物数据中发现买尿布的顾客多半会购买牛奶。
  • 聚类分析(cluster analysis):旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组,找出显著影响地球气候的海洋区域以及压缩数据等。
  • 异常检测(anomaly detection):用于识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)。一个好的必须具有高检测率和低误报率。应用包括检测欺诈、网络攻击等

你可能感兴趣的:(数据挖掘)