[大数据技术原理与应用笔记]第八讲.数据仓库Hive

8.2 Hive简介

Hive 利用了HDFS的分布式文件系统存储数据,利用MapReduce分布式并行计算模型处理数据.
提供HiveQL运行具体的MapReduce任务
两个特性:
(1). 采用批处理的方式处理海量数据。数据仓库存储的是静态数据,适合采用批处理的方式,不需要快速响应;HiveQL转换为MapReduce任务;

[大数据技术原理与应用笔记]第八讲.数据仓库Hive_第1张图片

Pig和Hive:

Pig 轻量级分析工具,实时的交互性的分析,而不是大规模数据的批处理。
Pig 主要用于数据仓库的ETL环节,从数据源抽取(Extract)、转换(Transform)、加载(Load)到数据仓库中去.
Hive就对数据仓库中的数据进行批处理。

HBase和Hive

HBase和Hive互补

HBase 支持实时交互性查询,弥补了HDFS的缺陷(允许追加不允许修改,不支持随机读写)
而Hive的延迟高,如果需要实时查询分析,可用通过HBase实现.

Hive 和传统数据库

[大数据技术原理与应用笔记]第八讲.数据仓库Hive_第2张图片

HiveHA(High availabel) Hive 高可用性解决方案
[大数据技术原理与应用笔记]第八讲.数据仓库Hive_第3张图片

8.3 SQL转为MapReduce作业的工作原理

[大数据技术原理与应用笔记]第八讲.数据仓库Hive_第4张图片

  • 当启动MapReduce任务时,Hive本身是不会生成MapReduce程序的
  • 需要通过一个"Job执行计划"的xml文件驱动执行内置的、原生的Mapper和Reducer模块
  • Hive通过通信来初始化Map和Reduce任务,不必直接部署在JobTracker所在的管理节点上执行

8.4 Impala

你可能感兴趣的:(大数据)