数据挖掘 (二)

一,体系结构

典型数据挖掘系统
数据的来源
  • 数据库服务器,
  • 数据库
数据挖掘的引擎
数据挖掘的模式
数据可视化技术的展示

二,数据类型

关系数据库
  • 使用最广泛
数据仓库
  • 各个分立的数据库统一
事务数据库
高级数据库系统和信息库
  • 空间数据库

  • 时间数据库和时间序列数据库
    时间数据库和时间序列数据库都存放与时间有关的数据。
    时间数据库通常存放包含时间相关属性的时间
    时间序列数据库存放随时间变化的值序列
    对时间数据库和时间序列数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。

  • 流数据

  • 多媒体数据库

  • 面向对象数据库和对象 - 关系数据库
    面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现传统数据库的功能,包括持久性,并发控制,可恢复性,一致性,和查询数据库的能力等。
    对象 - 关系数据库基于对象 - 关系 模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。
    面向对象数据库和对象 - 关系 数据库中的数据挖掘会设计一些新的技术,比如处理复杂对象结构,复杂数据类型,类和子类层次结构,构造集成以及方法和过程等等。

  • 异种数据库和遗产(legacy)数据库

  • 文本数据库和网络数据库

数据挖掘的主要方法

1,概念/类描述:特性化和区分
  • 归纳 ,总结和对比数据的特性。
  • 例如用户属性分析,电商用户,月消费额超过5000元的用户特征描述:30 - 40 岁之间,固定职业,信用程度良好。
2, 关联分析
  • 发现数据之间的关联规则,这些规则展示属性 - 值 频繁的在给定的数据中所一起出现的条件。
  • 广泛的应用于购物篮或事务分析
3,分类和预测
  • 通过构造函数(或模型)用来描述和区别类或概念,用来预测类型标志未知的对象类。
  • 例如,按照耗油量将汽车分类
  • 导出模型的表示: 判定树、分类规则、神经网络
  • 可以用来预报某些未知的或丢失的数字值。
4,聚类分析
  • 将类似的数据归类到一起,形成一个新的类别进行分析。
  • 组内最大化的相似性,组间最小化的相似性
5,孤立点分析
  • 孤立点 : 一些与数据的一般行为或模型不一致的孤立数据
  • 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。
6,趋势和演变分析
  • 描述行为随时间变化的对象的发展规律或趋势
  • 趋势和偏差: 回归分析
  • 序列模式匹配 : 周期性分析
  • 基于类似性的分析
7, 其他定向模式或统计分析

模式兴趣度的度量

比较困难度量

1,模式兴趣度的度量
  • 易于被人理解
  • 在某种程度上,对于新的或测试数据是有效的
  • 具有潜在效用
  • 新颖的
  • 符合用户确信的某种假设
2, 模式兴趣度的客观和主观度量、
  • 客观度量 :基于所发现模式的结构和关于他们的统计,比如:支持度(数据多少程度上对结论的支持),置信度等等
  • 主观度量: 基于用户对数据的判断。比如:出乎意料的,新颖的、可行动的等等。

数据挖掘算法的优化

  • 数据挖掘系统可以仅仅发现有趣的模式
  • 方法
    (1),首先生成所有模式然后过滤那些无趣的
    (2),仅仅生成有趣的模式 - 挖掘查询优化

数据挖掘学科综合性

数据挖掘的学科综合.jpg

数据挖掘的分类

数据挖掘的分类.jpg
1,根据所挖掘的数据库分类
  • 关系数据库,事务数据库 ,流式数据库,面向对象数据库,对象关系数据库,数据仓库,空间数据库,时态数据库,文本数据库,多媒体数据库,异构数据库,历史数据库,
2,根据挖掘的知识类型
  • 特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析等等
  • 多种方法的集成和多层机挖掘
3,根据挖掘所用技术
  • 面向数据库的挖掘,数据仓库,OLAP,机器学习,统计学,可视化等等
4,根据挖掘所用的应用
  • 金融,电信,银行,欺诈分析,DNA分析,股票市场,WEB挖掘。

你可能感兴趣的:(数据挖掘 (二))