大数据之数据仓库分层

大数据之数据仓库分层

  • 1. 什么是数据分层?
  • 2. 数据分层的好处
  • 一种通用的数据分层设计
  • 3. 举例
  • 4. 各层会用到的计算引擎和存储系统
  • 5. 大数据相关基础概念

1. 什么是数据分层?

数据分层是一套行之有效的数据组织和管理方法,使得数据体系更有序。

2. 数据分层的好处

(1)清晰数据结构
每一个数据分层都有它的作用域和职责,在使用表的时候能更方便的定位和理解。
(2)减少重复开发
规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。
(3)统一数据口径
通过数据分层,提供统一的数据出口,统一对外输出的数据口径。
(4)复杂问题简单化
将一个复杂的任务分解成多个步骤完成,每一层解决特定的问题。

一种通用的数据分层设计

大数据之数据仓库分层_第1张图片
ODS:存放原始数据
DW:存放数仓中间层数据
APP:面向业务定制的应用数据
大数据之数据仓库分层_第2张图片

3. 举例

以下是一个电商网站的数据体系设计,只关注用户访问日志这部分数据。
大数据之数据仓库分层_第3张图片

4. 各层会用到的计算引擎和存储系统

大数据之数据仓库分层_第4张图片

5. 大数据相关基础概念

数据源:业务系统、埋点、爬虫
PG:PostgreSQL,一种关系型数据库
Sqoop:是一个在结构化数据(mysql/oracle)和Hadoop(Hive)之间进行批量数据迁移的工具
Flume:是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;提供对数据进行简单处理,并写到各种数据接受方(HDFS\Hbase)的能力。
Kafka:是一个分布式、支持分区的、多副本的,基于zookeeper协调的分布式消息系统。
Flink:一个流式的数据流执行引擎。针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。
Kylin:是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力一直吃超大规模数据。能在亚秒内查询巨大的Hive表。
ES:elasticsSearch,是一个高扩展、开源的全文检索和分析引擎,可准实时地快速存储、搜索、分析海量的数据。
Hadoop:是一个分布式系统基础架构,可使用户在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。两大核心:HDFS\MapReduce
HDFS:是可扩展、容错、高性能的分布式文件系统,异步复制,一次写入多次读取,主要负责存储。
MapReduce:分布式计算框架。
Spark:是一个专为大规模数据处理而设计的快速通用的计算引擎。

参考博文

你可能感兴趣的:(学习笔记,大数据,数据仓库)