数据挖掘导论 笔记

引论

1.1为什么进行数据挖掘?

信息时代的来临不贴切,我们的时代其实是数据时代,还没有真正步入信息时代,现在数据爆炸增长,需要将数据转化为知识。

1.2什么是数据挖掘?

即KDD,数据中的数据发现

知识发现的迭代步骤为:1)数据清理2)数据集成3)数据选择4)数据变换5)数据挖掘6)模式评估7)知识表示

广义的数据挖掘可表述为:从大量数据中挖掘有趣模式和知识的过程。

1.3可以挖掘什么类型的数据?

1)数据库数据

一些概念如:

数据库系统(有一组内部相关的数据和一组管理和存取数据的软件程序组成)

关系数据库(表的汇集,实体-联系数据模型,将数据库表示成一组实体和他们之间的联系)

数据库查询(连接、选择、投影、优化,提取数据的一个指定的问题)

2)数据仓库

一个从多个数据源收集的信息存储库,存放在一直的模式下,并且通常驻留在单个结点上,通常是汇总的

一些概念:

数据立方体(多维数据结构建模,每个维对于一个或一组属性,每个单元存放某种度量)

OLAP操作(联机分析处理,包括下钻,上卷,数据立方体的每一个单元都可下钻为另一个数据立方体,上卷也可)

3)事务数据

每个记录代表一个事务,可能有一些与之相关联的附加表。

4)其他

1.4可以挖掘什么类型的模式

一般可分为描述性、预测性

1)类/概念描述:特征化与区分

面向属性的归纳技术,用来进行泛化和特征化

数据特征化的输出形式:饼图、条图、曲线、多维数据立方体、多维表

数据区分:用户指定目标类和对比类

2)挖掘频繁模式、关联和相关性

频繁模式分为频繁项集、频繁子序列、频繁子结构等

关联分析:置信度、支持度

单维关联规则、多维关联规则

3)用于预测分析的分类与回归

分类:找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号。导出模型为对数据集的分析。

如何提供到处的模型:决策树、神经网络

回归:建立连续值函数模型,预测缺失的或难以获得的数值数据值。相关分析:需要在分类和回归之前进行,试图识别与分类和回归过程中显著相关的属性。

4)聚类分析

最大化类内相似性、最小化类间相似性

5)离群点分析

大部分被视为噪声或异常而丢弃

某些情况,罕见的事件可能比正常出现的事件更令人感兴趣。(离群点分析、异常挖掘)

6)所有模式都是有趣的吗?

什么模式是有趣的:易于被人理解、对新的或检验数据是有效的、潜在有用的、新颖的

有趣的度量:支持度、置信度、(准确率、覆盖率)

主观兴趣度度量:基于用户对数据的信念

DM能产生所有有趣的模式吗:涉及数据挖掘算法的完全性

DM仅产生有趣的模式吗:优化问题

1.5使用什么技术

统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和其它


对于分类和聚类任务,机器学习通常关注模型的准确率,数据挖掘非常强调挖掘方法在大型数据集上的有效性和可伸缩性,以及处理复杂数据类型的方法。


1.6面向什么类型的应用

1)商务智能

2)web搜索引擎

1.7数据挖掘的主要问题

挖掘方法、用户交互、有效性与可伸缩性、数据类型的多样性、数据挖掘与社会

你可能感兴趣的:(数据挖掘概念与技术,数据挖掘导论)