大数据开发之Hive篇----初始hive及hadoop简单回顾

我们先简单回顾一下hadoop:

a,Hadoop是什么:海量数据分布式的存储和计算框架。其中数据的存储是hdfs(Hadoop Distributed File System),而计算是yarn/mapreduce。

b,Hadoop的访问方式:shell,Java API,Web UI(50070端口),HUE

c,我们得出的结论:使用MapReduce来处理HDFS文件系统上的数据-----真心麻烦。一个框架如果最终不能落地到使用SQL处理,那么这个框架是不会受欢迎的。

好了,说了那么多话就是为了引出我们的hive来。

1,产生背景:MapReduce编程是及其不方便的,无论是开发测试的需求变更。同时,大量DBA对传统关系型数据库的操作的需求(他们总希望可以想写SQL一样处理大数据),所以就有了hive的出现了。而hive是处理存放在hdfs(s3,oss等也可以)上的数据,而且你是使用一种类SQL语言去处理它,过程当中需要将数据结构化,将文件映射成表格为其添加schema:元数据信息(metastore)。

2,hive是什么(hive的官网 hive.apache.org):一种数据仓库,但是数据实际上是存储在HDFS,s3,oss上的。其最早是Facebook开源的,用于解决海量结构化日志数据。其构建的Hadoop之上,数据直接存储在HDFS上,将输入的sQL语言翻译成MapReduce在YARN上跑。同时hive定义了一种HQL,这是一个类SQL语言,但两者没有半毛钱的关系了(这里记住了,千万不要说hive是玩SQL的,面试大忌啊)。hive一般是离线处理的,你想想数批处理数据仓库(实时仓库另算)哪有什么实时的对吧。

刚开始的hive是hive on mapreduce,后来又变成了hive on spark,再后来又hive on Tez了。

3,hive过往比较重要的版本升级:

2007年,Facebook开源hive。2013年,0.11版本,出了格HiveServer2。同年,0.12版本,对其进行了升级。2014年,0.13版本,Tez和Vectorized query engine(向量式查询引擎)。同年,0.14版本,新增了格CBO优化器(Cost-based optimizer)。

4,为什么要使用hive:首先其使用语言类似于SQL,方便了大量的DBA人员的使用。其二,hive是架构在hadoop上面的,数据可以很好的横向扩展。第三,其元数据可以和Pig,Impala,Presto,SparkSQL等共享。

5,部署架构:Hive确切点来说是一个客户端(他其实没有什么集群不集群的概念的)。当client使用Hive写好了HQL后,Hive将HQL翻译成mapreduce并提交到RM上面去,而所操作的数据就来自DN上的。Hive为HDFS上的文本格式数据添加的元数据后,这些元数据就存储在一些传统的关系型数据库之上的,而我们一般习惯使用MySQL(一主一备来部署)。

6,Hive和RDBMS的关系:语言上都是类似于SQL的,Hive的实时性很差,Hive上面是没有事物机制的(没必要),Hive是操作在分布式框架上的。

你可能感兴趣的:(大数据开发之Hive篇----初始hive及hadoop简单回顾)