大数据开发:数据仓库分层设计

关于大数据存储,这是实现大数据计算的前提,只有稳固的大数据存储,才能为后续的数据处理环节,提供稳定的系统支持。而大数据存储,涉及到数据仓库技术。今天的大数据开发学习分享,我们主要来分享一下大数据仓库分层技术的相关知识点。

大数据仓库的搭建,其中非常重要的一点就是做好数据分层,使得数据体系更加有序,为后续的数据计算处理环节,提供更好的支持。
 

大数据开发:数据仓库分层设计_第1张图片


什么是数据分层?

数据分层是一套行之有效的数据组织和管理方法,使得数据体系更有序。

数据分层的好处

(1)清晰数据结构

每一个数据分层都有它的作用域和职责,在使用表的时候能更方便的定位和理解。

(2)减少重复开发

规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。

(3)统一数据口径

通过数据分层,提供统一的数据出口,统一对外输出的数据口径。

(4)复杂问题简单化

将一个复杂的任务分解成多个步骤完成,每一层解决特定的问题。

数据仓库分层实现

在确定建模思路和模型类型之后,下一步的工作是数据分层。数据分层可以使得数据构建体系更加清晰,便于数据使用者快速对数据进行定位;同时数据分层也可以简化数据加工处理流程,降低计算复杂度。

我们常用的数据仓库的数据分层通常分为集市层、中间层、基础数据层上下三层结构。由传统的多层结构减少到上下三层结构的目的是为了压缩整体数据处理流程的长度,同时扁平化的数据处理流程有助于数据质量控制和数据运维。

在上下三层的结构的右侧,我们增加了流式数据,将其添加成数据体系的一部分。这是因为当前的数据应用方向会越来越关注数据的时效性,越实时的数据价值度越高。

但是,由于流式数据集的采集、加工和管理的成本较高,一般都会按照需求驱动的方式建设;此外,考虑到成本因素,流式数据体系的结构更加扁平化,通常不会设计中间层。

关于大数据开发学习,数据仓库分层技术,以上就是今天的分享内容了。大数据存储技术,在大数据系统开发以及运维工作当中,都有相应的应用,掌握好了对长远的发展很有好处。

你可能感兴趣的:(大数据,数据仓库,大数据)