CDH环境下安装Tez(Hive on Tez )

CDH环境下安装Tez

一、安装环境

1、Linux版本: CentOS 6.5

2、Hadoop版本:CDH5.8.0

3、Hive版本:Hive-1.1.0-cdh5.8.0

4、JDK版本:JDK1.8

5、Maven版本:apache-maven-3.5.4 (必须安装Maven)

二、安装前准备

1、Tez版本选择:

对于Tez版本0.8.3及更高版本需要Apache Hadoop2.6.0或更高版本。对于Tez版本为0.9.0及更高版本则需要Apache Hadoop2.7或更高版本。在CDH集群中使用的Hadoop版本为2.6.0,所以这里选择Tez的版本为0.8.5。

2、下载Tez源码包:(二选一)

http://apache.claz.org/tez/0.8.5/apache-tez-0.8.5-src.tar.gz

https://github.com/apache/tez/archive/rel/release-0.8.5.tar.gz

3、Tez编译环境依赖的Protobuf:

Protobuf2.5.0 (注意:必须为这个版本)

https://github.com/protocolbuffers/protobuf/releases/download/v2.5.0/protobuf-2.5.0.tar.gz

三、安装步骤

1、安装编译环境依赖的OS包:

yum -y install gcc gcc-c++ libstdc++-devel make build

2、安装Protobuf2.5.0

(1)解压安装

tar -zxvf protobuf-2.5.0.tar.gz cd protobuf-2.5.0/

./configure make & make install

(2)验证是否安装成功

protoc --version

3、编译Tez0.8.5

(1)解压

tar -zxvf release-0.8.5.tar.gz

(2)修改解压后tez-rel-release-0.8.5文件夹下pom.xml文件,

CDH环境下安装Tez(Hive on Tez )_第1张图片

修改为自己Hadoop版本。

因Hadoop环境版本为CDH版本,故需要添加Cloudera的Maven仓库地址:


 
    cloudera
    https://repository.cloudera.com/artifactory/cloudera-repos/
    Cloudera Repositories
   
      false
   

 


 
    cloudera
    Cloudera Repositories
    https://repository.cloudera.com/artifactory/cloudera-repos/
 

 

屏蔽pom.xml文件中tez-ext-service-tests、tez-ui、tez-ui2三个模块,若不屏蔽,则编译时会编译不通过。

CDH环境下安装Tez(Hive on Tez )_第2张图片

(3)修改Tez源码

vi tez-mapreduce/src/main/java/org/apache/tez/mapreduce/hadoop/mapreduce/JobContextImpl.java

在JobContexImpl.java类最后增加如下方法:

/**
 * Get the boolean value for the property that specifies which classpath
 * takes precedence when tasks are launched. True - user's classes takes
 * precedence. False - system's classes takes precedence.
 * @return true if user's classes should take precedence
 */
 @Override
public boolean userClassesTakesPrecedence() {
  return getJobConf().getBoolean(MRJobConfig.MAPREDUCE_JOB_USER_CLASSPATH_FIRST, false);
}

(4)编译(解压目录下)

mvn clean package -DskipTests=true -Dmaven.javadoc.skip=true

若编译过程中出现错误,检查错误再执行编译即可。

CDH环境下安装Tez(Hive on Tez )_第3张图片

4、安装

(1)将tez-dist/target/tez-0.8.5-minimal 目录上传到HDFS文件中

  cd tez-dist/target
  hadoop fs -mkdir -p /tez-dir
  hadoop fs -put  tez-dist/target/tez-0.8.5-minimal   /tez-dir
  hadoop fs -chmod -R 777 /tez-dir

(2)在{HIVE_HOME}/conf目录下创建tez-site.xml文件,内容如下:


    
        tez.lib.uris
        ${fs.defaultFS}/tez-dir/tez-0.8.5-minimal,${fs.defaultFS}/tez-dir/tez-0.8.5-minimal/lib
    

    
         tez.use.cluster.hadoop-libs
         true
    

      修改Hive-site.xml配置:

   
         hive.tez.container.size
         1024
     

        在hive-site.xml配置中增加该参数,参数设置为Yarn容器yarn.scheduler.minimum-allocation-mb相同或1到2倍,但不能大于yarn.scheduler.maximum-allocation-mb。

(3)上传jar包解决Tez使用时出现的问题

将/opt/hadoop/hadoop-2.6.0-cdh5.8.0/share/hadoop/mapreduce1和/opt/hadoop/hadoop-2.6.0-cdh5.8.0/share/hadoop/mapreduce目录下的hadoop-core-2.6.0-mr1-cdh5.8.0.jar、hadoop-mapreduce-client-core-2.6.0-cdh5.8.0.jar、hadoop-mapreduce-client-common-2.6.0-cdh5.8.0.jar 等三个jar包上传到HDFS文件目录  tez-dist/target/tez-0.8.5-minimal下。

 

四、Tez使用

 

在Hive中使用:

set hive.execution.engine=tez;

若使用Mapreduce,则设置:

set hive.execution.engine=mr;

 

你可能感兴趣的:(大数据,计算引擎Tez)