本文所使用的书籍为《数据挖掘导论》
数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。
数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。
下面是数据库中知识发现(KDD)过程:
数据预处理的目的是将未加工的输入数据转换成适合分析的形式。
数据预处理设计的步骤包括融合来自多个数据源的数据,清洗数据以消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的方式多种多样,数据预处理可能是整个知识发现过程中最费力、最耗时的步骤。
可伸缩——数据集越来越大导致算法要具有可伸缩性
高维性——数据的属性越来越多
异种数据和复杂数据——数据对象越来越复杂
数据的所有权与分布——数据资源存储地点多
数据挖掘利用了来自如下一些领域的思想:
下图展示数据挖掘与其他领域之间的联系:
通常,数据挖掘任务分为下面两大类:
预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一般称目标变量或因变量,而用来做预测的属性称说明变量或自变量。
描述任务。其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘人物通常是探查行的,并且常常需要后处理技术验证和解释结果。
四种主要数据挖掘任务:
预测建模涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类,用于预测离散的目标变量;回归,用于预测连续的目标变量。预测建模可以用来确定顾客对产品促销活动的反应,预测地球生态系统的扰动,或根据检查结果判断病人是否患有某种疾病。
关联分析用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有趣的模式。关联分析的应用包括找出具有相关功能的基因组、识别用户一起访问的 Web 页面、理解地球气候系统不同元素之间的联系等。
聚类分析旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关的顾客分组、找出显著影响地球气候的海洋区域以及压缩数据等。
异常检测的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或立群点。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。换言之,一个好的异常检测器必须具有高检测率和低误报率。一场检测的应用包括检测欺诈、网络供给、疾病的不寻常模式、生态系统扰动等。