CDH环境下安装Tez
一、安装环境
1、Linux版本: CentOS 6.5
2、Hadoop版本:CDH5.8.0
3、Hive版本:Hive-1.1.0-cdh5.8.0
4、JDK版本:JDK1.8
5、Maven版本:apache-maven-3.5.4 (必须安装Maven)
二、安装前准备
1、Tez版本选择:
对于Tez版本0.8.3及更高版本需要Apache Hadoop2.6.0或更高版本。对于Tez版本为0.9.0及更高版本则需要Apache Hadoop2.7或更高版本。在CDH集群中使用的Hadoop版本为2.6.0,所以这里选择Tez的版本为0.8.5。
2、下载Tez源码包:(二选一)
http://apache.claz.org/tez/0.8.5/apache-tez-0.8.5-src.tar.gz
https://github.com/apache/tez/archive/rel/release-0.8.5.tar.gz
3、Tez编译环境依赖的Protobuf:
Protobuf2.5.0 (注意:必须为这个版本)
https://github.com/protocolbuffers/protobuf/releases/download/v2.5.0/protobuf-2.5.0.tar.gz
三、安装步骤
1、安装编译环境依赖的OS包:
yum -y install gcc gcc-c++ libstdc++-devel make build
2、安装Protobuf2.5.0
(1)解压安装
tar -zxvf protobuf-2.5.0.tar.gz cd protobuf-2.5.0/
./configure make & make install
(2)验证是否安装成功
protoc --version
3、编译Tez0.8.5
(1)解压
tar -zxvf release-0.8.5.tar.gz
(2)修改解压后tez-rel-release-0.8.5文件夹下pom.xml文件,
因Hadoop环境版本为CDH版本,故需要添加Cloudera的Maven仓库地址:
cloudera
https://repository.cloudera.com/artifactory/cloudera-repos/
Cloudera Repositories
false
cloudera
Cloudera Repositories
https://repository.cloudera.com/artifactory/cloudera-repos/
屏蔽pom.xml文件中tez-ext-service-tests、tez-ui、tez-ui2三个模块,若不屏蔽,则编译时会编译不通过。
(3)修改Tez源码
vi tez-mapreduce/src/main/java/org/apache/tez/mapreduce/hadoop/mapreduce/JobContextImpl.java
在JobContexImpl.java类最后增加如下方法:
/**
* Get the boolean value for the property that specifies which classpath
* takes precedence when tasks are launched. True - user's classes takes
* precedence. False - system's classes takes precedence.
* @return true if user's classes should take precedence
*/
@Override
public boolean userClassesTakesPrecedence() {
return getJobConf().getBoolean(MRJobConfig.MAPREDUCE_JOB_USER_CLASSPATH_FIRST, false);
}
(4)编译(解压目录下)
mvn clean package -DskipTests=true -Dmaven.javadoc.skip=true
若编译过程中出现错误,检查错误再执行编译即可。
4、安装
(1)将tez-dist/target/tez-0.8.5-minimal 目录上传到HDFS文件中
cd tez-dist/target
hadoop fs -mkdir -p /tez-dir
hadoop fs -put tez-dist/target/tez-0.8.5-minimal /tez-dir
hadoop fs -chmod -R 777 /tez-dir
(2)在{HIVE_HOME}/conf目录下创建tez-site.xml文件,内容如下:
tez.lib.uris
${fs.defaultFS}/tez-dir/tez-0.8.5-minimal,${fs.defaultFS}/tez-dir/tez-0.8.5-minimal/lib
tez.use.cluster.hadoop-libs
true
修改Hive-site.xml配置:
hive.tez.container.size
1024
在hive-site.xml配置中增加该参数,参数设置为Yarn容器yarn.scheduler.minimum-allocation-mb相同或1到2倍,但不能大于yarn.scheduler.maximum-allocation-mb。
(3)上传jar包解决Tez使用时出现的问题
将/opt/hadoop/hadoop-2.6.0-cdh5.8.0/share/hadoop/mapreduce1和/opt/hadoop/hadoop-2.6.0-cdh5.8.0/share/hadoop/mapreduce目录下的hadoop-core-2.6.0-mr1-cdh5.8.0.jar、hadoop-mapreduce-client-core-2.6.0-cdh5.8.0.jar、hadoop-mapreduce-client-common-2.6.0-cdh5.8.0.jar 等三个jar包上传到HDFS文件目录 tez-dist/target/tez-0.8.5-minimal下。
四、Tez使用
在Hive中使用:
set hive.execution.engine=tez;
若使用Mapreduce,则设置:
set hive.execution.engine=mr;