8- 数据仓库-数据集市 (data mart)

1、数据集市概念
 在数据仓库领域有一个概念叫Oper Mart,中文一般翻译为“操作集市”
 操作集市是为了企业战术性的分析提供支持,它的数据来源是数据仓库。它是数据仓库在分析功能上的扩展,使用户可以对操作型数据进行多维分析
 数据集市可以理解为是一种"小型数据仓库",它只包含单个主题,且关注范围也非全局

2、操作集市和数据集市
 操作集市和数据集市很相似,但是它不能用来取代用于战略性分析的数据集市。由于操作集市的数据来源于ODS,
所以它的数据比数据集市的数据要新。但是出于容量的考虑,操作集市中不保存历史数据,是一个临时的结构

3、数据集市分类
 数据集市可以分为两种:
  一种是独立数据集市(independent data mart),这类数据集市有自己的源数据库和ETL架构
  一种是非独立数据集市(dependent data mart),这种数据集市没有自己的源系统,它的数据来自数据仓库。当用户或者应用程序不需要/不必要/不允许用到整个数据仓库的数据时,非独立数据集市 就可以简单为用户提供一个数据仓库的"子集"

 1> 独立型数据集市
  有自己的源数据库和ETL架构
  如果针对所有业务处理分别进行维度建模、建立独立数据集市,数据集市之间没有共享公共维度,那么就会
出现问题,数据集市就会变成独立的集市,不能组合成数据仓库,而一致性维度的提出正是为了解决这个问题

 2> 从属型数据集市
  没有自己的源系统,数据来自数据仓库
  当用户或者应用程序不需要/不必要/不允许用到整个数据仓库的数据时,非独立数据集市可以简单为用户提供一个数据仓库的"子集"

  共享公共的维度对于设计可以进行集成的数据集市来说,具有绝对的决定性作用。这样做使得来自不同处理的性能度量值可以被组合到单个报表中去。具体的实现 过程是,使用多通路的SQL单独查询各个集市,然后基于共同的维度属性对查询结果施加外连接。这个通常称作==交叉探查(Drill Across)==的连接,在维度属性具有一致性的情况下是很直接的

一般不推荐独立型的数据集市,这样可能会导致数据不一致,同时也会增加多个额外的进程。数据集市的数据一般从数据仓库中转换、汇总计算的,直接支撑应用需求

你可能感兴趣的:(数据仓库,数据仓库,数据集市)