8.hive安装 和 Hive环境准备 (hive on Spark 、Yarn队列配置)

1 Hive安装部署

  • 1)把apache-hive-3.1.2-bin.tar.gz上传到linux目录下
  • 2)解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面
[root@node09 06_hive]# tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /opt/module/
  • 3)修改apache-hive-3.1.2-bin.tar.gz的名称为hive
[root@node09 06_hive]# mv /opt/module/apache-hive-3.1.2-bin/ /opt/module/hive
  • 4)修改/etc/profile.d/my_env.sh,添加环境变量
[root@node09 06_hive]# vim /etc/profile.d/my_env.sh
  • 5)添加内容
#HIVE_HOME
export HIVE_HOME=/opt/module/hive
export PATH=$PATH:$HIVE_HOME/bin

使环境变量生效或者

[root@node09 06_hive]# source /etc/profile.d/my_env.sh
  • 6)解决日志Jar包冲突,进入/opt/module/hive/lib目录
[root@node09 lib]# mv log4j-slf4j-impl-2.10.0.jar log4j-slf4j-impl-2.10.0.jar.bak

2 Hive元数据配置到MySql

2.1 拷贝驱动

将MySQL的JDBC驱动拷贝到Hive的lib目录下

[root@node09 07_mysql]# cp  mysql-connector-java-5.1.48.jar /opt/module/hive/lib/

2.2 配置Metastore到MySql

在$HIVE_HOME/conf目录下新建hive-site.xml文件

[root@node09 conf]# vim hive-site.xml

添加如下内容




    
        javax.jdo.option.ConnectionURL
        jdbc:mysql://node09:3306/metastore?useSSL=false
    

    
        javax.jdo.option.ConnectionDriverName
        com.mysql.jdbc.Driver
    

    
        javax.jdo.option.ConnectionUserName
        root
    

    
        javax.jdo.option.ConnectionPassword
        000000
    

    
        hive.metastore.warehouse.dir
        /user/hive/warehouse
    

    
        hive.metastore.schema.verification
        false
    

    
        hive.metastore.uris
        thrift://node09:9083
    

    
    hive.server2.thrift.port
    10000
    

    
        hive.server2.thrift.bind.host
        node09
    

    
        hive.metastore.event.db.notification.api.auth
        false
    

    
        hive.cli.print.header
        true
    

    
        hive.cli.print.current.db
        true
    

3 启动Hive

3.1 初始化元数据库

  • 1)登陆MySQL
[root@node09 conf]# mysql -uroot -p000000
  • 2)新建Hive元数据库
mysql> create database metastore;
mysql> quit;
  • 3)初始化Hive元数据库
[root@node09 conf]# schematool -initSchema -dbType mysql -verbose

3.2 启动metastore和hiveserver2

  • 1)Hive 2.x以上版本,要先启动这两个服务,否则会报错:
    FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
  • 2)在/opt/module/hive/bin目录编写hive服务启动脚本
[root@node09 bin]# vim hiveservices.sh

内容如下:

#!/bin/bash
HIVE_LOG_DIR=$HIVE_HOME/logs

mkdir -p $HIVE_LOG_DIR

#检查进程是否运行正常,参数1为进程名,参数2为进程端口
function check_process()
{
    pid=$(ps -ef 2>/dev/null | grep -v grep | grep -i $1 | awk '{print $2}')
    ppid=$(netstat -nltp 2>/dev/null | grep $2 | awk '{print $7}' | cut -d '/' -f 1)
    echo $pid
    [[ "$pid" =~ "$ppid" ]] && [ "$ppid" ] && return 0 || return 1
}

function hive_start()
{
    metapid=$(check_process HiveMetastore 9083)
    cmd="nohup hive --service metastore >$HIVE_LOG_DIR/metastore.log 2>&1 &"
    cmd=$cmd" sleep 4; hdfs dfsadmin -safemode wait >/dev/null 2>&1"
    [ -z "$metapid" ] && eval $cmd || echo "Metastroe服务已启动"
    server2pid=$(check_process HiveServer2 10000)
    cmd="nohup hive --service hiveserver2 >$HIVE_LOG_DIR/hiveServer2.log 2>&1 &"
    [ -z "$server2pid" ] && eval $cmd || echo "HiveServer2服务已启动"
}

function hive_stop()
{
    metapid=$(check_process HiveMetastore 9083)
    [ "$metapid" ] && kill $metapid || echo "Metastore服务未启动"
    server2pid=$(check_process HiveServer2 10000)
    [ "$server2pid" ] && kill $server2pid || echo "HiveServer2服务未启动"
}

case $1 in
"start")
    hive_start
    ;;
"stop")
    hive_stop
    ;;
"restart")
    hive_stop
    sleep 2
    hive_start
    ;;
"status")
    check_process HiveMetastore 9083 >/dev/null && echo "Metastore服务运行正常" || echo "Metastore服务运行异常"
    check_process HiveServer2 10000 >/dev/null && echo "HiveServer2服务运行正常" || echo "HiveServer2服务运行异常"
    ;;
*)
    echo Invalid Args!
    echo 'Usage: '$(basename $0)' start|stop|restart|status'
    ;;
esac
  • 3)添加执行权限
[root@node09 bin]# chmod +x hiveservices.sh
  • 4)启动Hive后台服务
[root@node09 bin]# hiveservices.sh start
  • 5)查看Hive后台服务运行情况
[root@node09 bin]# hiveservices.sh status
Metastore服务运行正常
HiveServer2服务运行异常
  • 6)启动Hive客户端
[root@node09 bin]# hive

2. Hive on Spark

2.1 编译

官方文档 https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started#:~:text=Version%20Compatibility%20%20%20%20Hive%20Version%20,%20%201.6.0%20%204%20more%20rows%20

  • 1)从官网下载Spark源码并解压
    下载地址: https://www.apache.org/dyn/closer.lua/spark/spark-2.4.5/spark-2.4.5.tgz
  • 2)上传并解压spark
  • 3)进入spark解压后的目录
  • 4)执行编译命令
    [root@node09 spark-2.4.5]# ./dev/make-distribution.sh --name without-hive --tgz -Pyarn -Phadoop-3.1 -Dhadoop.version=3.1.3 -Pparquet-provided -Porc-provided -Phadoop-provided
  • 5)等待编译完成,spark-2.4.5-bin-without-hive.tgz为最终文件

2.2 Hive on Spark配置

  • 1)解压spark-2.4.5-bin-without-hive.tgz
[root@node09 1.Spark]# tar -zxf /opt/software/spark-2.4.5-bin-without-hive.tgz -C /opt/module^C
[root@node09 1.Spark]#  mv /opt/module/spark-2.4.5-bin-without-hive /opt/module/spark
  • 2)配置SPARK_HOME环境变量
[root@node09 spark]# vim /etc/profile.d/my_env.sh

添加如下内容

export SPARK_HOME=/opt/module/spark
export PATH=$PATH:$SPARK_HOME/bin

source 使其生效

[root@node09 spark]# source /etc/profile.d/my_env.sh
  • 3)配置spark运行环境
[root@node09 spark]# mv /opt/module/spark/conf/spark-env.sh.template /opt/module/spark/conf/spark-env.sh
[root@node09 spark]# vim /opt/module/spark/conf/spark-env.sh

添加如下内容

export SPARK_DIST_CLASSPATH=$(hadoop classpath)
  • 4)连接spark jar包到hive,如何hive中已存在则跳过
[root@node09 spark]# ln -s /opt/module/spark/jars/scala-library-2.11.12.jar /opt/module/hive/lib/scala-library-2.11.12.jar
[root@node09 spark]#  ln -s /opt/module/spark/jars/spark-core_2.11-2.4.5.jar /opt/module/hive/lib/spark-core_2.11-2.4.5.jar
[root@node09 spark]# ln -s /opt/module/spark/jars/spark-network-common_2.11-2.4.5.jar /opt/module/hive/lib/spark-network-common_2.11-2.4.5.jar
  • 5)新建spark配置文件
[root@node09 spark]# vim /opt/module/hive/conf/spark-defaults.conf

添加如下内容

spark.master                                    yarn
spark.master                                    yarn
spark.eventLog.enabled                          true
spark.eventLog.dir                              hdfs://hadoop102:8020/spark-history
spark.driver.memory                             2g
spark.executor.memory                           2g
  • 6)在HDFS创建如下路径
[root@node09 spark]# hadoop fs -mkdir /spark-history
  • 7)上传Spark依赖到HDFS
[root@node09 spark]#  hadoop fs -mkdir /spark-jars

[root@node09 spark]# hadoop fs -put /opt/module/spark/jars/* /spark-jars
  • 8)修改hive-site.xml
  
  
    spark.yarn.jars
    hdfs://hadoop102:8020/spark-jars/*
  
  
  
  
    hive.execution.engine
    spark
  
  • 9)Hive on Spark 测试
    a. 启动hive客户端
    b. 创建一张测试表
    hive (default)> create external table student(id int, name string) location '/student';
    c. 通过insert测试效果
    hive (default)> insert into table student values(1,'abc');

3 Yarn容量调度器队列配置

  • 1)增加hive队列
    默认Yarn的配置下,容量调度器只有一条Default队列。在capacity-scheduler.xml中可以配置多条队列,修改以下属性,增加hive队列。

    yarn.scheduler.capacity.root.queues
    default,hive
    
      The queues at the this level (root is the root queue).
    


    yarn.scheduler.capacity.root.default.capacity
50
    
      default队列的容量为50%
    

同时为新加队列添加必要属性:


    yarn.scheduler.capacity.root.hive.capacity
50
    
      hive队列的容量为50%
    



    yarn.scheduler.capacity.root.hive.user-limit-factor
1
    
      一个用户最多能够获取该队列资源容量的比例
    



    yarn.scheduler.capacity.root.hive.maximum-capacity
80
    
      hive队列的最大容量
    



    yarn.scheduler.capacity.root.hive.state
    RUNNING



    yarn.scheduler.capacity.root.hive.acl_submit_applications
*
    
      访问控制,控制谁可以将任务提交到该队列
    



    yarn.scheduler.capacity.root.hive.acl_administer_queue
*
    
      访问控制,控制谁可以管理(包括提交和取消)该队列的任务
    



    yarn.scheduler.capacity.root.hive.acl_application_max_priority
*

      访问控制,控制用户可以提交到该队列的任务的最大优先级
    



    yarn.scheduler.capacity.root.hive.maximum-application-lifetime
-1
    
      hive队列中任务的最大生命时长



    yarn.scheduler.capacity.root.hive.default-application-lifetime
-1
    
      default队列中任务的最大生命时长


  • 2)配置hive客户端任务提交到hive队列
    为方便后续hive客户端的测试和shell脚本中的任务能同时执行,我们将hive客户端的测试任务提交到hive队列,让shell脚本中的任务使用默认值,提交到default队列。
    每次进入hive客户端时,执行以下命令
hive (default)> set mapreduce.job.queuename=hive;

你可能感兴趣的:(8.hive安装 和 Hive环境准备 (hive on Spark 、Yarn队列配置))