数据仓库、数仓分层 01

1. 数据仓库的基本概念

数据仓库

  • 英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。
  • 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。

2. 数据仓库的主要特征

数据仓库是面向主题的(Subject-Oriented )集成的(Integrated)非易失的(Non-Volatile)时变的(Time-Variant )数据集合,用以支持管理决策

2.1 面向主题

每个数据仓库面向分析的主题都是一样的

2.2 集成性

数据仓库需要分析某一个主题的数据结果,需要集成各个其他方面的数据

2.3 非易失性

不可更新性。所有的分析的数据,都是面向历史已经发生过的事情。

2.4 时变性

随着时间的发展,数据仓库的分析的手段也在不断的变化。

3. 数据仓库与数据的区别

3.1 数据仓库的主要作用

主要作用是面向分析的,分析我们的历史数据,叫做OLAP 叫联机分析处理 OLAP(On-Line Analytical Processing)。不需要提供事务的保证。主要作用就是写各种select语句

3.2 数据库的主要作用

主要使用与事务的保证,叫做OLTP 叫联机事务处理 OLTP(On-Line Transaction Processing,)可以通过数据库的事务的保证,保证我们业务系统正常的运行

3.3 如何理解两者的概念

很早很早就有数仓的概念:mysql或者oracle加kettle
如何理解数据库与数据仓库的概念:数据仓库是将所有用到的数据库里面的数据都抽取过来,集中到一起组成我们的数据仓库
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。

4. 数据仓库的分层架构

4.1 主要分为三层数据仓库、数仓分层 01_第1张图片

  • 第一层:源数据层。我们的数据的来源,也叫ODS
  • 第二层:数据仓库层。DW层 。主要用于各种分析sql语句 。
  • 第三层:数据应用层app层。数据展示层。主要就是使用各种报表,展示我们最终分析的结果
    ETL:extract抽取 transform转换 load 加载

4.2 为什么要对数据仓库分层

  • 空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。
  • 通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。

5. 数据仓库的元数据管理

元数据:描述数据的数据
主要用于描述数据库的建库语法,记录建表语法,记录我们数据流转过程。元数据记录了我们数据仓库各个步骤如何执行。等到数据仓库需要正常的运转,每一步如何执行,都直接去查询元数据信息即可

你可能感兴趣的:(Hive,数据仓库,数仓主要特征,数仓分层)