ETL高级教程学习笔记

在导异构数据的过程中,最好加入一个派生列标识这行数据是从哪个数据系统里来的,这样在导的时候发生错误可以确定是哪个业务系统发生了问题.

 

ODS的定义似乎业内没有一个统一的标准,教程里理解的是一个业务系统数据库的快照.教程推荐业务系统的数据先导到这个ODS层数据库中,虽然是快照,不过也可以适当的加些转换或者标识,比如加派生列标识数据是从哪里来的,然后清洗和转换的工作在在ODS和数据仓库之间做.

通常不存储历史的记录信息

 

缓慢变化维度:有三种类型:

Fixed,不变化,如果变化了系统将报错

Changing,变化的,直接更新变化的值

Historical,属性变化时会保存已有记录,并加入一条新记录

缓慢变化维度在SSIS中有专门的这个组件

 

格式简单的,直接抽取

格式复杂的,编程实现

 

Maping,ods 数据仓库起到中间匹配的作用,比如过滤ODS中的重复数据.

 

转换的时候允许中间建立多个临时的表.

对于复杂的逻辑可以使用存储过程.

 

数据的加载策略

时间戳

日志

全表对比

全表删除插入

维度表:通常用全表对比

事实表:通常用时间戳

 

推荐的书:

数据挖掘

 

包配置:

包配置文件的作用:

方便将包从开发环境部署到运行环境

提高设计包过程的灵活性

包配置文件有五种类型

XML文件,(操作系统中的)环境变量,注册表信息,父级包里的变量,SQLServer

 

包检查点:

设置检查点的作用:

避免重复加载大量数据

避免重复高负荷的计算

避免重复上载和下载文件

检查点的设置:CheckPointUsage

Never:永远都从包的起始点

Always:始终使用检查点文件

IfExists,如果有,则从中断点执行,否则重头执行

 

包的部署和管理:

手动部署:直接调用执行或注册到SQLServer(引用注册,导入到msdb)

通过部署工具

你可能感兴趣的:(学习笔记)