Hive知识点总结

Hive知识点总结
一、HIVE是什么?
Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。
Hive知识点总结_第1张图片

二、理解HIVE架构
Hive知识点总结_第2张图片
Hive知识点总结_第3张图片
驱动器:Driver
1)解析器(parser):将查询字符串转化为解析树表达式。
2)语义分析器(semantic analyzer):将解析树表达式转换为基于块(block-based)的内部查询表达式。
3)逻辑策略生成器(logical plan generator):将内部查询表达式转换为逻辑策略,这些策略由逻辑操作树组成。
4)优化器(optimizer):通过逻辑策略构造多途径并以不同方式重写。
三、HIVE执行流程

Hive知识点总结_第4张图片
流程大致步骤为:
客户端连接Hive的Driver提交请求,Driver访问MetaStoreServer元数据查看文件是否存在,如果不存在就发给客户端文件不存在,如果存在就由Hive的Driver编译解释成MapReduce作业提交给hadoop执行,然后由Driver将结果返回给客户端。
(本质上,所有的SQL语句都会触发MapReduce作业,只不过Hive的底层做了相关优化,叫抓取策略。配置了抓取策略的话,在select *或者是查询本表字段或加了where条件时就不会触发MapReduce作业。&#x

你可能感兴趣的:(hive,HIve,hive分桶,hive分区,hive知识点总结)