数据仓库Hive

数据仓库概念

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
根本目的 是为了支持企业内部的商业分析和决策,基于数据仓库的分析结果,做出相关的经营决策.

数据仓库的体系结构

数据仓库Hive_第1张图片

数据仓库与数据库的区别

数据仓库中的数据比较稳定,保留了大量历史数据;
而数据库只保存某一时刻的数据.

Hive

对于传统数据仓库来说,既是数据存储产品也是分析产品,但Hive并不提供这些功能,它提供了类似关系数据库SQL语言的查询语言HiveQL,可以通过HiveQL语句快速实现简单的MapReduce统计,Hive自身将HiveQL语句转换为MapReduce任务进行运行.
两个方面特性
(1)采用批处理方式处理海量数据
(2)Hive提供了一系列对数据进行提取,转换,加载ETL的工具

Hive与其他组件的关系

数据仓库Hive_第2张图片

Hive在企业中的应用

数据仓库Hive_第3张图片
Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。
BI(Business Intelligence) 即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。

Hive系统架构

  • 用户接口模块
    包括CLI、HWI (HiveWebInterface)、JDBC、ODBC、Thrift Server
  • 驱动模块
  • 包括编译器、优化器、执行器,负责把HiveQL转化为一系列MapReduce作业
  • 元数据存储模块
    数据仓库Hive_第4张图片

SQL转换成MapReduce基本原理
(1)join的实现原理
数据仓库Hive_第5张图片
(2) group by的实现原理
数据仓库Hive_第6张图片

Hive安装

http://dblab.xmu.edu.cn/blog/1080-2/

Hive数据类型
数据仓库Hive_第7张图片

你可能感兴趣的:(BigData)