Hive数据仓库

1.1认识数据仓库

数据仓库的目的是构建面向分析的集成化数据环境,为组织或企业提供决策支持。

数据仓库是一个面向主题的、数据集成的、时变的、非易失的数据集合。

数据库应用是以业务流程来划分应用程序和数据库。

数据仓库是根据数据分析需求来存储数据,主要目的是为决策分析提供数据,所涉及的操作主要是查询和分析,为了保证数据分析的准确性和稳定性,数据仓库中的数据一般是很少更新的。

数据处理大致可以分为两类,分别是联机事务处理(OLTP)和联机分析处理(OLAP):

        联机事务处理(OLTP)也称为面向交易的处理过程,是传统数据库的主要应用。

        联机分析处理(OLAP)也称为决策支持系统,是数据仓库系统的主要应用。

数据仓库分层并不能解决所有问题,但是,它可以带来如下的好处:

  • 清晰数据结构
  • 复杂问题简单化
  • 便于维护
  • 减少重复开发
  • 高性能

数据仓库通常分为三层,即源数据层(ODS)、数据仓库层(DW)和数据应用层(DA)。

  • 源数据层:源数据层用于存放需求分析的原始数据,直接沿用外部系统的数据结构和数据。
  • 数据仓库层:数据仓库层存放了对源数据层的数据进行清洗和转换处理后的数据,该层存储的数据是一致的、准确的、干净的数据。数据仓库层可以细分为明细层、中间层和业务层。
  • 数据应用层:数据应用层的数据是为了满足具体的分析需求而构建数据。从数据的粒度来说࿰

你可能感兴趣的:(hive,数据仓库)