走近大数据之Hive入门(一、概述)

一、数据仓库

数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理。

走近大数据之Hive入门(一、概述)_第1张图片

 

OLTP应用:联机事务处理,关注的是事物的处理,典型的OLTP应用是银行转账,一般操作频率会比较高;

OLAP应用:联机分析处理,主要面向的是查询,典型的OLAP应用是商品推荐系统,一般不会做删除和更新,数据一般都是历史数据。

走近大数据之Hive入门(一、概述)_第2张图片

 

数据仓库中的数据模型:星型模型和雪花模型。星型模型是数据仓库最基本的数据模型,雪花模型是在星型模型的基础上发展起来的。

走近大数据之Hive入门(一、概述)_第3张图片

 

二、什么是Hive

Hive 中的数据存储在 Hadoop HDFS 中,Hive 中的表和数据其实就是 HDFS 中的目录和文件:

在 Hive 中创建一张表就会自动在 HDFS 中创建一个文件夹。Hive表==>HDFS目录

在该表中保存数据也就相当于在这个文件夹下面存储文件。Hive数据==>HDFS文件

可以在 hive-site.xml 中指定数据仓库的目录:hive.metastore.warehouse.dir

走近大数据之Hive入门(一、概述)_第4张图片

 

走近大数据之Hive入门(一、概述)_第5张图片

 

注意

问题一:怎么理解数据仓库不可以更新?

数据仓库一定要更新的,因为不断的将OLTP产生的数据通过ETL导入数据仓库中。

但是,已经导入数据仓库中的数据,是不会更新的,换句话说,一条数据进入了数据仓库,就不会再做任何改变。

如果想要对已有的数据进行更改,只会产生新的数据,再次倒入数据仓库。

这是因为,数据仓库是用来做决策分析的。过去的所有数据,都是代表了当时的状态,所以不可以有任何改变。就像历史一样,已经成为事实的东西,是不能改变的。

你可能感兴趣的:(大数据,人工智能,互联网,大数据,hive,大数据开发,大数据分析,大数据入门)