在数据集市设计中可以使用3种基本的系统方法:数据驱动的方法、需求驱动的方法和混合方法。它们的区别在于源数据库分析和终端用户需求分析阶段所占的比重。方法的选择将极大地影响概念设计的方式。
数据驱动方法包括:基于实体-关系模式的设计、基于关系模式的设计、基于XML模式的设计。概念型实体-关系模式比关系型逻辑模式更具表达力。因此通常认为前者是更好的设计源。但实际情况是公司经常无法提供精确完整的实体-关系模式(丢失、文档不完整或者其他原因)。那么就只能根据数据库的逻辑模式来做。另一方面,Web数据大部分是XML格式的,基于XML模式的设计可以从XML源的模式派生一个数据集市概念模式。
根据规范化ER图,转换为一组维度模型的第一步是,将ER图分成一些分散的业务处理过程,然后分别单独建模。第二步是选出ER图中那些含有数字型与可加性非关键字事实的多对多关系,并将它们标记为事实表。最后一步是,将剩下的所有表复合成具有直接连接到事实表的单连关键字的平面表,这些表就成为维度表。
数据集市可看作分散后的某个业务处理过程,在数据集市的符合维度事实模型(DFM)的概念设计中使用的基于实体-关系模式的技术包含以下步骤:
(1)定义事实。
(2)对于每个事实:
a. 建立一个属性树。
b. 修剪和移植属性树。
c. 定义维度。
d. 定义度量。
e. 创建事实模式。
首先从数据源模式中选择相关事实。然后以半自动模式创建属性树。这是一个过渡结构,可用于确定事实模式的边界以清除不相关属性及修改链接到这些不相关属性的依赖关系(对应步骤(2).b)。属性树链接了数据集市和数据源模式。这个链接是数据准备过程的关键。之后将属性树转换为事实模式(步骤(2).e)就相对简单了。其中,步骤a基于一种算法;步骤cde基于属性的目标特性;步骤1和b需要深入理解公司的商业模型。
事实通常对应于公司中动态发生的事件。在实体-关系模式中,事实可能对应着一个实体或者E1,E2,...,En实体间的n元关系R。对于后者,为简便起见,可将R转换为一个实体(实体化过程)。为此,添加一个新实体F,并使用F和Ei间的二元关系(Ri)替换R的每个分支。若使用min(E, A)和max(E, A)分别表示最小基数等级和最大基数等级(基数等级是指实体E在相应等级上参与关系A,通常min(E, A)∈{0, 1},max(E, A)∈{1, n};简单来说,基数实际上就是数据库设计中的一对一关系、一对多关系、多对一关系等),则:min(F, Ri) = max(F, Ri) = 1, min(Ei, Ri) = min(Ei, R), max(Ei, Ri) = max(Ei, R)。
注意:有时不同的实体可能是表达个体事实的候选。建议选作事实的实体应该是构建包含尽可能多的属性的属性树的实体。
属性树
给定实体-关系数据源模式的一个相关部分,以及它的一个被分类为事实的实体F,属性树是满足以下要求的树:
参考资料:
《数据仓库设计:现代原理与方法》Matteo Golfarelli,Stefano Rizzi著