Hive架构原理

Hive架构原理_第1张图片

底层是基础仓Hadoop 。HDFSMapReduce 他是依赖于这两个来工作的。

Meta store 是他的元数据信息 其实是自己的表和HDFS里的文件的对应关系, 必须有这个关系才能找到具体的文件。

Driver驱动是Hive自己内核里有的 解析器、编译器、执行器、优化器。他们都是Hive来把HQL转化为MR所需要的一些组件

当然他不是将所有的HQL都转化为MR  insert这种插入方式的时候会走MR任务,但像select * 这种他不会走,因为select * 就是把数据全部读过来,没必要做MR任何的分析需求,他就是读数据过来。

Client客户端 CLI是在Linux系统下开bin/hive JDBC其实可以在代码里面去连接,类似于Mysql那种方式,但是一般公司很少这样用,因为效率太低。他一般是跟另外的框架再结合的时候, 因为用第三方框架总不能开个bin/hive ,不现实,所以就用到了JDBC的连接。

你可能感兴趣的:(Hive)