数据挖掘导论阅读笔记第一章:绪论

数据挖掘导论(完整版)阅读笔记--第一章

  • 了解数据挖掘
    • 一、什么是数据挖掘
    • 二、了解KDD
    • 三、数据挖掘要解决的问题(了解即可)
    • 四、数据挖掘任务

了解数据挖掘

一、什么是数据挖掘

数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。

这部分的重点在于区别数据挖掘技术其他信息检索任务

例如:根据可赢利性划分公司客户

答案:这不是数据挖掘任务,这是一个会计计算。但是,预测新客户的赢利能力是数据挖掘。

二、了解KDD

数据库中知识发现(knowledge discovery in database,KDD)是将未加工的数据转换成有用信息的过程。

数据挖掘导论阅读笔记第一章:绪论_第1张图片

三、数据挖掘要解决的问题(了解即可)

1.可伸缩: 由于数据产生和收集技术的进步,数据挖掘算法常常需要处理海量数据集,则算法必须是可伸缩的(scalabie)。为实现可伸缩还有可能实现新的数据结构。
2.高维性: 现在常常会遇到具有成百上千属性的数据集。
3.异种数据和复杂数据: 如今的数据集不仅仅只有相同的数据属性,还会有很多复杂的,且多种属性的数据
4.数据的所有权与分布: 由于分析的数据分布在属于多个机构的资源中,因此需要开发分布式数据挖掘技术。
分布式数据挖掘算法的主要挑战包括:
1.如何降低执行分布式计算所需的通信量
2.如何有效地统一从多个资源得到数据挖掘的结果
3.如何处理数据安全性问题
5.非传统分析: 传统的统计方法基于一种假设-检验模式。当前数据分析常常伴随数千种假设。因此需要自动的产生和评估假设

总结: 可伸缩表示可以处理大量数据、高维性表示科研解决高维数据集问题、异种数据和复杂数据处理表示能够处理同一个数据集具有不同是数据属性、数据的所有权与分布表示要开发分布式数据挖掘技术并且解决该技术所带来的问题、非传统分析表示要具有大量自动产生和评估假设能力。

四、数据挖掘任务

数据挖掘任务通常分为两大类:预测任务以及描述任务

预测任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性称为因变量,用来做预测的属性为自变量。
描述任务的目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹、异常)。常常需要后处理技术验证和解释结果。

数据挖掘导论阅读笔记第一章:绪论_第2张图片

预测建模以自变量函数,为因变量建立模型。有以下两类任务:
分类:用于预测离散的目标变量
回归:用于预测连续的目标变量

关联分析用来描述数据中的强关联特征的模式。所发现的模式通常用于蕴涵规则特征子集的形式表示。

聚类分析旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观察值相互之间尽可能类似

异常检测识别其特征显著不同于其他数据的观察值。这类观察值称为异常点或离群点。一个好的异常检测必须具有高检测率和低误报率。

你可能感兴趣的:(数据挖掘)