数据挖掘学习笔记二

数据挖掘学习笔记二

数据仓库中的ETL

ETL作用:是数据仓库获得高质量的数据的环节。

  1. 解决数据分散问题。
  2. 解决数据不清洁问题。
  3. 方便企业各部门构筑数据集市。

ETL:六个子过程

  • 数据提取(data extract)
  • 数据验证 ( data verification)
  • 数据清理 (data cleaning)
  • 数据集成 (data integration)
  • 数据聚集 (data aggregation)
  • 数据装载(data load)**

数据提取

数据源接口,从业务系统中捕获数据,为数据仓库输入数据

数据验证

解决数据质量检测问题,包括一系列检查。如:属性的有效性,关系的主外键检查,重复记录检查等。

数据清理

主要解决以下问题:

  • 1)源数据系统同数据仓库在模型上的差异.
  • 2)源数据系统不一致.
  • 3)源数据结构的不一致.
  • 4)源数据定义不规范导致错误数据.
  • 5)对数据的约束不严格,导致无意义数据.
  • 6)重复记录.

数据清理包括的主要任务:

  • 数据合并
  • 域转换和同步
  • 数据类型和格式的转换
  • 数据拆分
  • 删除重复记录
  • 修复错误数据等等

数据集成

  • 将多个数据源联合成一个统一数据接口。
  • 应用数据集成业务规则,数据转换逻辑和算法

数据聚集

收集并以汇总形式表达信息的过程,如以业务报表的形式表达。

数据装载

两种基本方法:

  • 1)利用DBMS提供的SQL ,如I U D操作
  • 2)批量数据装载实用程序.

装载周期:按日,月,周.

数据追加策略

1)直接追加:每次装载时直接将数据追加到目标表中。

2)全部覆盖:如果抽取数据本身已经包括了数据的当前和历史状况,可以对目标表采用全部覆盖的方式。

3)更新追加:对于需要连续记录业务的状态变化,并用当前最新状态同历史状态数据进行对比的情况,可以采用更新追加的方式。

元数据

概念

  • 是关于数据的数据,在DW中是关于DW的数据.
  • 是指在数据仓库建设过程中产生的有关数据源定义、目标定义、转换规则等关键数据,是定义数据仓库对象的数据。

如传统数据库中的数据字典就是一种元数据。

元数据的作用

  • (1)元数据时进行数据集成所必需的
  • (2)元数据定义的语义层可以帮助最终用户理解数据仓库中的数据.
  • (3)元数据时保证数据质量的关键.
  • (4)元数据可以支持需求变化

分类

(1)按用途分为:管理元数据和用户元数据

管理元数据: 是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据.包括:

  • 1) 数据仓库结构的描述
  • 2)业务系统,数据仓库和数据集市的体系结构和模式;
  • 3)汇总的算法;
  • 4)由操作环境到数据仓库环境的映射.

用户元数据:从业务角度描述数据仓库中的数据,涉及:

  • 1)如何连接数据仓库
  • 2)可以访问数据仓库的哪些部分
  • 3所需要的数据来自哪一个源系统

(2)按来源分:

  • 数据源的元数据
  • 数据模型的元数据
  • 数据源与数据仓库映射的元数据
  • 数据仓库应用的元数据.

(3)按生成使用的时间分:

  • 设计时收集/使用的元数据
  • 构建时生成/使用的元数据
  • 运行时生成的元数据

(4)按DW功能区域的划分

  • 数据获取元数据
  • 数据存取元数据
  • 信息传递元数据

(5)按元数据在DW中所承担的任务分:

  • 静态元数据

  • 动态元数据

数据挖掘学习笔记二_第1张图片

你可能感兴趣的:(数据挖掘)