《数据挖掘导论》:第一章笔记

1.1 什么是数据挖掘
数据网挖掘是在大型数据存储库中,自动地发现有用信息的过程。
并非所有信息发现任务都被视为数据挖掘。

数据框中知识发现(KDD)
数据挖掘是KDD中不可缺少的一部分。
《数据挖掘导论》:第一章笔记_第1张图片
1.2 数据挖掘要解决的问题

  • 可伸缩性
  • 高维性
  • 异种数据和复杂数据
  • 数据的所有权与分布
  • 非传统的分析

1.3 数据挖掘与其他领域的联系
《数据挖掘导论》:第一章笔记_第2张图片
其中,数据库技术、并行计算、分布式计算起到了重要的支撑性作用。
1.4 数据挖掘任务
预测任务:根据其他属性的值,预测特定属性的值。被预测的属性通常称为目标变量或者因变量;用来预测的变量通常称为说明变量或者自变量。
描述任务:其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。
四种主要的数据挖掘任务
预测建模:分类:预测离散的目标变量;回归:预测连续的目标变量。
关联分析:用来发现描述数据中强关联特征的模式。
聚类分析:旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。
异常检测:识别其特征显著不同于其他数据的观测值。

你可能感兴趣的:(数据挖掘)