[置顶] 数据仓库架构发展

一、什么是数据仓库

      传统数据仓库的概念是数据仓库是决策支持系统dss)和联机分析应用数据源的结构化数据环境。是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。


            简单来说之前的数据仓库只能支持战略决策到支持战略决策和战术决策( tactica decision )转变,如实时营销、个性化服务等。这种既服务于战略决策又服务于战术决策的数据仓库称之为实时主动数据仓库(real-time active data warehouse,RTADW)。

实时主动数据仓库主要集成的数据包括实时数据和历史数据两部分。RTADW是一个关系型环境的数据仓库,支持数据的实时更新、快速的响应时间、基于钻取的聚集数据查询能力和动态的交互能力,用于支持不断变化的商业需求。RTADW的主动服务机制,主要是对于数据的情况变化

包括粗粒度和细粒度的情况和数据身边的内容的事件产生和响应,主动服务机制主要包括三个元素事件、条件、动作(event-condition condition-action,ECA),基于这三个元素在数据仓库的基础之上构建主动决策的服务引擎的开发。开发主动决策服务引擎,个人认为天下武功为快不破,所以

实时事件进行主动分析和处理的能力是考虑的重点。

二、数据仓库架构

            数据仓库的架构主要是从数据建模角度进行区分的。ok,说到这里我就简单带大家聊聊常用的建模方式。大家上学的时候,应该都学习过数据库范式。咱们这里只需要明白第二范式和第三范式:

       1、第二范式(2NF):首先是 1NF,另外包含两部分内容,一是表必须有一个主键;二是没有包含在主键中的列必须完全依赖于主键,而不能只依赖于主键的一部分。

       2、第三范式(3NF):首先是 2NF,另外非主键列必须直接依赖于主键,不能存在传递依赖。即不能存在:非主键列 A 依赖于非主键列 B,非主键列 B 依赖于主键的情况。

    范式一般在我们应用性数据库设计用到比较多得。范式是一种数据建模标准,带来的好处主要有以下三点:

         1.减少数据冗余(这是最主要的好处,其他好处都是由此而附带的)

         2.消除异常(插入异常,更新异常,删除异常)

         3.让数据组织的更加和谐…

但是同样特也是具有缺点的,优点就会产生其缺点:      

1 查询时要连接多个表,增加了查询的复杂度

2 查询时需要连接多个表,降低了数据库查询性能

而现在的情况,磁盘空间成本基本可以忽略不计,所以数据冗余所造成的问题也并不是应用数据库范式的理由。

        因此,并不是应用的范式越高越好,要看实际情况而定。第三范式已经很大程度上减少了数据冗余,并且减少了造成插入异常,更新异常,和删除异常了。我个人观点认为,大多数情况应用到第三范式已经足够,在一定情况下第二范式也是可以的。

 在数据仓库中数据冗余和查询效率这两个在实际的应用场景建模就是比较博弈的话题。实际数据仓库也就是在第二范式和第三范式进行选择。

      再有多个字段为主键的情况下,就出现了一个间于第一范式和第二范式的直接的选择,也就是大家熟悉的维度建模,维度建模主要分为星型模式和雪花型模式

1、星型模式

    --查询性能优势 

                --星型模式是按照业务模型进行建模,具备业务模型使用优势
2、雪花型模式 

  --属性众多情况下会将星型模式层次化为雪花模型 ,即星型模式进一步层次化,减少数据冗余。


       说了这么多,简单来说就是来回答两个问题:重复性问题&交互性问题。

       这两个问题分别对应着两个实体,数据仓库&数据集市。那咱们比较这两个实体的区别把。

  

[置顶] 数据仓库架构发展_第1张图片

  

         

    [置顶] 数据仓库架构发展_第2张图片

大家看见者两个图结合上面的基础知识应该就明白了,我就不多说了。



 数据仓库主要分为两大派系,即Inmon 和 Kimball的大辩论。

          一、Bill Inmon 将数据仓库定义为“一个面向主题的、集成的、随时间变化的、非易变的用于支持管理的决策过程的数据集合”       

            

对应的架构即是数据仓库中得总线架构,如下图所示:

[置顶] 数据仓库架构发展_第3张图片


        二、Ralph Kimball 说“数据仓库仅仅是构成它的数据集市的联合”,他认为“可以通过一系列维数相同的数据集市递增地构建数据仓库”

                    

 [置顶] 数据仓库架构发展_第4张图片

其对应的数据仓库架构即集成架构,如下图所示:

      

[置顶] 数据仓库架构发展_第5张图片

上面两种架构的结合就是混合架构,如下图所示:

 


[置顶] 数据仓库架构发展_第6张图片


    简单来说架构的选择即使第三范式建模和维度建模直接的选择。

   目前互联网中,现实数据仓库的是业务在前面跑、平台的建设如果采用瀑布法,必须要有更快的速度,赶超业务变化搭建。所以应当采用集中所有优势兵力,集中攻破的方法。而迭代的方法,需要保持人员在相对稳定的情况,理念统一、坚持,通过不断的改进来是做实施,实施周期较长,影响较小,可以及时做适当的调整。所以在目前的互联网公司建议使用总线架构即维度建模方式,构建数据实施主动数据仓库。


 




分享PPT:http://www.slideshare.net/limap52/ss-42553791

你可能感兴趣的:(数据库,架构,数据仓库)