【Hive】什么是数据仓库?数据仓库和数据库有什么关系?

Hive系列学习笔记

  • 一、数据仓库与Hive
  • 二、Hive的基本概念和安装
  • 三、常用Hive操作(对数据库、表的操作)
  • 四、常用Hive操作(HQL查询语句)
  • 五、Hive的shell参数
  • 六、Hive的内置函数和自定义函数

文章目录

  • 1.1 基本概念
  • 1.2 主要特征
  • 1.3 数据库与数据仓库的区别
      • OLTP
      • OLAP
  • 1.4 数据仓库的分层架构
      • 源数据层(ODS)
      • 数据仓库层(DW)
      • 数据应用层
  • 1.5 数仓的元数据管理

1.1 基本概念

1、英文称为Data Warehouse,可简称为DW或DWH。

2、目的:构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)

3、数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于他产出的分析挖掘的数据,或者数据应用需要的数据

可以理解为:面向分析的存储系统

1.2 主要特征

  • 面向主题
    数据仓库是面向主题的,数据仓库通过一个个主题域将多个业务系统的数据加载到一起,为了各个主题进行分析而建。

  • 集成的
    数据仓库会将不同源数据库中的数据汇总到一起,数据仓库中的综合数据不能从原有的数据仓库系统直接得到。因此在数据进入数据仓库前要经过统一与整合。

  • 非易失的
    操作型数据库主要服务于日常的业务操作,使得数据库需要不断的对数据进行更新。在数据仓库中不需要实时更新,而是根据商业每隔一段时间将新的数据导入。数据仓库中的数据一般仅执行查询操作,很少有删除和更新。但是需要定期加载和刷新数据。

  • 时变的
    数据仓库包含各种粒度的历史数据,数据仓库中的数据可能与某个特定日期、星期、月份、季度或者年份有关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况,挖掘其中隐藏的模式。分析的结果只能反映过去的情况,当业务变化后,挖掘出的模式会失去时效性。因此数据仓库的数据需要定时更新。

1.3 数据库与数据仓库的区别

其实就是OLTPOLAP的区别

OLTP

操作型处理,叫联机事务处理OLTP,也可以称为面向交易的处理系统,针对具体的业务在数据库联机的日常操作。传统的数据库系统作为数据管理的主要手段,主要用于操作型处理

OLAP

分析型处理,叫联机分析处理OLAP,一般针对某些主题的历史数据进行分析

数据仓库并不是要取代数据库

  • 数据库是面向事务的设计,数据仓库是面向主题设计的
  • 数据库一般存储业务数据,数据仓库存储的一般是历史数据
  • 数据库设计是尽量避免冗余,数据仓库是在设计时有意引入冗余,依照分析需求进行设计
  • 数据库是为捕获数据而设计,数据仓库是为分析数据而设计

数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了决策需要而产生的。

1.4 数据仓库的分层架构

分为源数据、数据仓库、数据应用三层
【Hive】什么是数据仓库?数据仓库和数据库有什么关系?_第1张图片

源数据层(ODS)

此层数据无任何更改,不对外开放,为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备

数据仓库层(DW)

称为细节层,DW层的数据是一致的、准确的、干净的数据,即对源系统数据进行了清洗后的数据

数据应用层

前端应用直接读取的数据源,根据报表、专题分析需求而计算生成数据

数据仓库从各个数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液。

1.5 数仓的元数据管理

元数据(Meta Data),主要记录数据仓库中模型的定义、各层级间的映射关系。

元数据分为技术元数据业务元数据
【Hive】什么是数据仓库?数据仓库和数据库有什么关系?_第2张图片

你可能感兴趣的:(大数据相关技术汇总,数据仓库,大数据)