数据架构简析

简单了解大数据

Hadoop最初指代的是分布式文件系统HDFS和Mapreduce计算框架,但是它一路高歌猛进,在此基础之上像搭积木一般快速发展成为一个庞大的生态(包括Yarn,Hive,HBase,Spark等十种之多)
为解决海量数据下分析查询性能问题,数据仓库的基础上衍生出的概念
1、对数据仓库进行分层,通过层层递进形成数据集市,减少最终查询的数据体量

2、提出数据立方体的概念,通过对数据预先处理,以时间换空间,提升查询性能。

BI系统在Hadoop技术的加持下,在海量数据下要实现多维分析的实时应答,仍然困难重重

OLAP名为联机分析,又可以称为多维分析,指的是通过多种不同的维度审视数据,进行深层次分析。

多维分析基本操作

主要包括以下几种
数据架构简析_第1张图片

为了实现多维分析操作,常见的OLAP架构有三大类

数据架构简析_第2张图片
重点解释:
维度预处理可能会导致数据膨胀:
如果数据立方体包含5个维度(字段),按照维度是否参与分析,可知最终的组合一共有25(2n,n为维度的个数),当数据维度基数较高的时候,立方体预聚合后的数据量可能会达到10~20倍的膨胀,一张千万级别的数据表,就可能膨胀到亿级别的体量。

数据预聚合只保留了聚合后的结果,导致无法查询明细。

OLAP实现技术的演进

数据架构简析_第3张图片
单纯从模型角度考虑,ROLAP架构更胜一筹,因为关系模型拥有更好的群众基础,也更容易理解,直接面向明细数据查询,无需预处理,也就没有预处理带来的负面影响(组合维度爆炸,数据实时性,更新问题,查询明细问题)

你可能感兴趣的:(数据架构,big,data,hadoop,hive,数据架构)