大数据开发-数据仓库介绍

目录标题

    • 1、数据仓库
      • 1.1 数仓为何而来?
      • 1.2 数据仓库的主要特性
      • 1.3 数据仓库与数据库的区别
      • 1.4 数据仓库三层架构
      • 1.5 实战-美团酒旅数仓建设
      • 1.6 ETL、ELT
        • 1.6.1 ETL
        • 1.6.2 ELT

1、数据仓库

数据仓库Data Warehouse 简称DH,数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持

数据仓库不产生数据 – 数据来自数据库、日志、爬虫等
数据仓库不消费数据 – 分析结果给外部的报表平台等展示

常见的数据源:

  • RDBS关系型数据库-业务数据
  • log file --日志文件
  • 爬虫
  • 其他数据

1.1 数仓为何而来?

答:为了分析数据而来

每天有大量的用户信息产生,如何存储?
要求:处理速度要快,且安全
存放在关系型数据库中—因为事务支持

事务的四大特性:原子性、一致性、隔离性、持久性

but随着业务越来越多,运营如何决策?—需要数据分析
基于业务数据开展数据分析,基于分析结果给决策提供支持
在哪里数据分析?
虽然可以直接在数据库分析,但没必要,因为:

  1. 数据分析也是对数据进行读取操作,会让读取压力倍增
  2. 数据库OLTP仅存储近期的数据
  3. 数据可能分析在不同数据库中,字段类型属性不统一

需要把数据拿过来搭建专门分析的地方—数据仓库出现了
即能进行分析,也可以保证数据不受影响

大数据开发-数据仓库介绍_第1张图片
OLTP面向事务的

你可能感兴趣的:(#,大数据-数据仓库,数据仓库,大数据,数据库)