《数据挖掘概念与技术》书记 1

《数据挖掘概念与技术》书记

有感知识点:

  • 数据挖掘的进化过程:
    数据库和信息技术->数据库系统->高级数据库系统;高级数据分析的数据仓库、数据挖掘;基于web的数据库->数据仓库
  • 数据仓库:一种多个异构数据在单个站点以统一的模式组织的存储,以支持管理决策。
  • 数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。OLAP是一种分析技术,具有汇总、合并和聚集以及不同的角度观察信息的能力。尽管其支持多维分析和决策,但对于深层次的分析,仍然需要其他数据挖掘工具。

数据挖掘

数据挖掘又称数据中的知识发现(KDD),知识发现过程主要由以下步骤的迭代序列组成:

  1. 数据清理(消除噪声和删除不一致数据等)
  2. 数据集成(多种数据源可以组合在一起)
  3. 数据选择(从数据库中提取与分析任务相关的数据)
  4. 数据变化(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)
  5. 数据挖掘(基本步骤,使用智能方法提取数据模式)
  6. 模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)
  7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

故数据挖掘是其中一个步骤,有些人也代称为整个知识发现过程。

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据Log。

挖掘什么类型的数据

  • 数据库数据
  • 数据仓库
  • 事务数据
  • 其他类型数据

挖掘什么类型的模式

数据挖掘功能 类型
特征化与区分 描述性
频繁模式、关联和相关性分析 描述性
分类与回归 预测性
聚类分析 描述性
离群点分析 描述性

描述性挖掘任务刻画目标数据中数据的一般性质。

预测性挖掘任务在当前数据上进行归纳,以便做出预测。

使用什么类型的技术

  • 统计学
  • 机器学习
  • 数据库系统与数据仓库
  • 信息检索

面向什么类型的应用

  1. 商务智能

    对于客户关系管理,进行聚类根据顾客的相似性进行分组,对其进行定制服务。

  2. Web搜索引擎

    • 必须大量并且不断增加的数据
    • 处理在线数据,也许可以在海量数据集上离线构建模型
    • 在快速增长的数据流上维护和增量更新模型
    • 处理出现次数不多的查询,如何解决数据倾斜

面临什么问题

  • 挖掘方法
  • 用户界面
    • 交互挖掘,允许用户在挖掘过程中动态地改变搜索的聚焦点,根据返回的结果提炼挖掘请求,并在数据和知识空间交互地进行下钻、切块和旋转。
    • 结合背景知识
    • 特定的数据挖掘和数据挖掘查询语言
    • 结果表示和可视化
  • 有效性和可伸缩性
  • 数据库类型的多样性
  • 数据挖掘与社会
    • 数据隐私

你可能感兴趣的:(Data,Mining)