数据仓库开发各部分需要的需求定义


(一)数据设计阶段

在数据设计阶段,必须为准备区和数据仓库存储库本身准备数据模型。准备区是在这里清洗、转换和整合从源系统得到的数据,并准备装入数据仓库。
需求定义阶段用那些部分驱动数据设计呢?需要数据源系统的数据模型和信息包表两个基本部分
信息报表中的商业维度和关键衡量指标组成了维度数据模型的主干。

 

(二)规划体系结构阶段

      基本上 ,每一个数据仓库都有基本相同的组成部分,所以在进行体系结构规划的时候,不需要为数据仓库发明新的组成部分。真正要做的你的数据仓库环境设计每一个组成部分的规模大小,规划所有的部分如何组合在一起从而能够作为一个整合的系统工作。

 数据仓库基本的体系结构如下:

源数据
生产数据,
内部数据,
外部数据;
存档数据。
 
数据准备
数据抽取,
数据转换,
数据装载,
 
数据存储

信息传递(前端展现)

元数据

管理和控制(调度程序)

 

在规划数据仓库整体体系结构的时候,要确定每一个组成部分的范围和内容,那么,需要什么样的需求定义才能确定呢?下面列出在规划数据仓库体系结构时需求定义中包含的信息类型。

(1)必须包含地信息

1、源数据

       操作型元数据系统;计算机平台、操作系统、数据库、文件;部门数据,例如文件、文档和电子表格;外部数据源。

2、数据准备

      数据源和数据准备区数据结构之间的数据映射;数据转换;数据清洗;数据整合。

3、数据存储

      抽取数据和整合数据的大小;数据库管理系统的特征;发展潜力;集中或分散;

4、信息传递

      用户的类型和数量;查询和报表的类型;分析的类型;决策支持系统的前端应用。

5、元数据

     技术型元数据包括操作型(源数据)元数据和ETL(数据抽取/转换/载入)元数据;业务元数据也就是最终用户元数据;元数据存储。

6、管理和控制

       数据载入;外部数据源;告警系统;最终用户信息传递。 

(2)上面描述的只是数据仓库体系结构需求定义的一些基本信息,其中有些特殊因素要特别注意。

1、数据抽取、转换和载入

数据抽取。需要清楚地确定所有内部数据源;详细说明所有计算机平台和数据抽取地所有源文件。如果还有外部数据源,要决定内部数据结构和外部数据结构地兼容性,而且要指出数据抽取地方法。

数据转换。在数据映像和载入存储库之前,需要有很多类型地转换功能,这些功能包括输入选择、输入结构分离、标准化和源结构地反向标准化、聚合、转换、缺失值地补充、名称和地址转化。在实际中,这些将会形成一个很长而复杂地功能列表。检查每一个计划存入数据仓库地数据元素,确定映象和转换地过程。

数据装载。定义初始地装载。决定每一个主要数据集合在数据仓库中地更新频度。每天更新需要多少?需要每天超过一次以上地更新吗?如何在源系统中捕获这些变化?定义每天、每星期和每月地更新如何进行。

 

2、数据质量

 

3、元数据

 

(3)工具和产品选择

需求一般不户直接影响工具和产品地选择,但是它通过影响数据仓库体系结构,从而间接影响工具和产品选择

 

 (三)数据存储规范

采用不同方法实现的数据仓库需要定义的存储规范有一些差别,不同方法开发需要定义的储存规范如下:

自上而下:数据准备区;整体企业数据仓库;每一个独立的数据集市,从第一个开始;任何OLAP需要的多维数据库。

自下而上:数据准备区;每一个独立的数据集市,从第一个开始;任何OLAP需要的多维数据库。

两者不同之处在于在下而上的方法不需要定义“整体企业数据仓库”存储规范。

整体企业数据仓库一般基于一个关系数据库管理系统支持的关系模型;数据集市的结构一般基于一个由关系数据库管理系统实现的维度模型。

无论选择什么样的数据库管理系统,这个系统都必须知道前、后端的其他工具互相影响。后端工具主要时数据转换、清洗和装载过程使用的产品,前端工具是和信息传递相关的工具。

商业需求决定了数据库系统健壮性和开发程度。所以在定义需求的时候,要记住需求对数据库存储规范的影响,并收集所有关于前、后端体系结构组成部分的信息。

下面给出对数据仓库存储各规范有影响的需求定义:

(1)数据库管理系统的选择

用户的经验程度

查询的类型

开放性

数据载入

元数据管理

数据存储库位置

数据仓库的发展

(2)存储规模估计

在需求定义阶段,需要估计下列部分的存储大小:

数据准备区,分整体数据仓库和数据集市数据准备区。

整体企业数据仓库,根据每一个商业主题的数据结构,估计存储器大小。

相互依赖的或统一化了的数据集市,在定义需求时,信息表组成了一个数据集市,每一个信息图表包含了用于分析的商业维度和商业指标。使用信息表中的商业维度和指标的细节,估计数据集市的存储大小。

多维数据库,根据用户需要找出OLAP的细节,然后利用这些细节来估计多维数据库的大小。

 

(四)信息传递策略

商业需求直接影响到的信息传递部分大体包括:

查询/报表。

分析类型。

信息分发。

决策支持应用程序。

发展和扩大

 

你可能感兴趣的:(数据仓库开发各部分需要的需求定义)