数据挖掘导论(一):数据挖掘的定义,方法,用途

什么是数据挖掘

数据挖掘是在大型数据存储库中,自动地发现有用的信息的过程。

(一)发现先前未知的有用模式

(二)预测未来的观测结果

知识发现:数据挖掘是数据库中知识发现不可缺少的一部分,而知识发现是将未加工的数据转换为有用信息的整个过程

数据挖掘导论(一):数据挖掘的定义,方法,用途_第1张图片      知识发现(KDD)过程

 

 

数据挖掘要解决的问题

  1. 可伸缩:需要有能力处理海量数据问题
  2. 高维性需要很好的处理维灾难问题
  3. 异种数据和复杂数据:需要考虑数据对象的复杂性和多样性
  4. 非传统的分析非单一假设-检验模式
  5. 数据的所有权与分布需要考虑数据安全性、加快计算速度、汇总计算结果

 

数据挖掘的起源

数据挖掘的方法来自机器学习或AI,模式识别,统计学与数据库系统

数据挖掘导论(一):数据挖掘的定义,方法,用途_第2张图片

数据挖掘任务(两大类)

1.预测任务

根据其他属性的值,预测特定属性的值

被预测变量通常被称为目标变量(因变量)

做预测变量通常被称为明变量(自变量)

 

2.描述任务

导出概括数据中潜在联系的模式

包括相关、趋势、聚类、轨迹、异常。

 

四种主要数据挖掘任务

预测建模(两种)

 

分类

回归

目标变量

离散

连续

举例

是否买书

股票价格

共同点

训练模型, 减小误差

举例:确定顾客对产品促销活动的反应,根据检查结果判断病人是否患有疾病,预测鸢尾花(IRIS)的类型等。

数据挖掘导论(一):数据挖掘的定义,方法,用途_第3张图片

 

 关联分析:用来发现描述数据中强关联特征的模式。

  • 所发现的模式通常用蕴含规则或特征子集的形式表示
  • 搜索空间通常是指数规模的,因此关联分析的目标是以有效的方式提取有趣的结果

举例:找出具有相关功能的基因组,识别用户一起访问的Web页面等。

数据挖掘导论(一):数据挖掘的定义,方法,用途_第4张图片

聚类分析:旨在发现紧密相关的观测值组群

使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能相似。

举例:对相关顾客进行分组,主题分组。

数据挖掘导论(一):数据挖掘的定义,方法,用途_第5张图片

异常检测:识别其特征显著不同于其他数据的观测值,这样的观测值点称为异常点或离群点。

  • 异常检测算法的目标是发现真正的异常点,而避免错误的将正常的对象标注为异常点。一个好的异常检测器应具有高检测率低误报率

举例:检测欺诈,网络攻击。

你可能感兴趣的:(自学笔记)