2019独角兽企业重金招聘Python工程师标准>>>

一、简介

Hive是一个SQL解析引擎，他可以将sql转化为 TEZ、mapreduce、spark 等计算框架并且提交到yarn等资源调度平台上进行计算。它借助于MySQL数据库对hdfs上的文件进行表的映射，从而知道表的文件格式、分区字段、字段类型等等信息。

切换引擎的方式
set hive.execution.engine=tez
set hive.execution.engine=mr

二、主要用途

用来做离线数据分析，比直接用mapreduce开发效率更高，因为只需要写SQL语句，自定翻译成MapReduce。

三、原理

1、Hive中有一个引擎，用于解析SQL语句并且翻译成MapReduce程序。而sql语句可以来源于：web、cli、jdbc/odbc等。hive的元数据存储在一个数据库中（mysql、oracle等）其实就是一些映射关系，比如需要分析的数据在hdfs的哪里，按什么分段，有哪些字段等等。真正的分析数据在HDFS上。
2、使用的必要条件：用户必须指定：读取文件的方式（Hive 中默认有三个文件格式 TextFile，SequenceFile 以及 RCFile）、行分隔符、列分隔符。

四、安装

HIVE是一个hdfs的数据仓库工具，不是分布式的，直接解压就能够使用。

1、解压hive
2、解决一下版本不兼容问题：替换 /root/apps/hadoop/share/hadoop/yarn/lib中的老版本jline 为hive的lib中的jline-2.12.jar

3、在安装目录下的conf中vi hive-site.xml ====>为了指向mysql数据库来存储元数据。

  
  
      javax.jdo.option.ConnectionURL
      jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true
      JDBC connect string for a JDBC metastore
  

  
      javax.jdo.option.ConnectionDriverName
      com.mysql.jdbc.Driver
      Driver class name for a JDBC metastore
  

  
      javax.jdo.option.ConnectionUserName
      root
      username to use against metastore database
  

  
      javax.jdo.option.ConnectionPassword
      root
      password to use against metastore database

4、启动交互式shell模式

  hive/bin/hive    就可以连接上了。

5、如果想作为一个服务器，给其他的客户端连接，则需要启动：

  bin/hiveserver2  

  然后再其他的机器用
  hive/bin/beeline  回车	   
  beeline> !connect jdbc:hive2//hadoop1:10000

1、Hive的简介、原理及安装

一、简介

二、主要用途

三、原理

四、安装

你可能感兴趣的:(1、Hive的简介、原理及安装)