【ETL】开发过程描述

A. 数据源分析文档(前期的分析)

a) 源的表

b) 每个表字段属性

c) 记录数

d) 数据质量分析

B. 目标的文档

a) 源的表

b) 每个表字段属性

c) 建议采用建模工具Sybase PowerDesigner CA Erwin

d) DBA 参与目标表的设计:

e) 目标表的设计:

Ø         维表和事实表的开始时间和结束时间。

Ø         事实表的约束

Ø         索引影响性能

n         Disable

n         Delete

n         Enable

n         Create

n         Loader

f) 维表是否要保留所有的历史记录?

n         要历史数据:主键,开始和结束时间。

n         不要的:保持最近的

n         缓慢变化维

C. ETL 设计的详细文档

a) Velocity

b) 源对目标的映射

c) 业务规则转换(字段级)

d) 清洗规则定义

D. 测试文档

a) 单元测试文档

b) 集成测试文档

E. 开发人员要维护的文档

a) Mapping 的设计文档:

(1) Mapping 的名字,功能描述

(2) 每个组件的名字,用途描述,实现功能,技巧。 特殊复杂转换描述。

b) Workflow 流程设计文档

c) 设计变更文档

d) 对数据量的估算文档(源、中间过程及目标)

l         每天的增量

l         条数,每条的长度

l         作业的复杂程度评估

l         Session 运行的经验值(如果跟开发环境不一致,没有太大的参考价值)

l         Lookup 等组件占用内存的估算。

l         设计到性能的每个组件的描述:lookup 个数,关联的字段数。

 

你可能感兴趣的:(workflow,单元测试,测试,Sybase,文档,作业)