MapReduce在Map和Reduce过程添加依赖包办法

MapReduce在map和reduce阶段添加依赖包办法

通常在MapReduce编程过程,大部分都是使用Hadoop jar的方式运行MapReduce程序,但是在开发map或reduce阶段中会需要引入外部的包,Hadoop集群环境并没有这些依赖包。

前言

比如Reduce数据写入Oracle需要添加Oracle的Driver依赖,还有写入Orc文件等需要orc-mapreduce、orc-core等包的依赖,可以在集群中把这些包拷贝到集群环境下,但是这样Yarn的NodeManager全部节点都是添加,这样是比较费劲的,此文章介绍更好的办法解决此类问题。

实现原理

在Job提交前,把相关的包添加到JOB的缓存中,并把依赖包上传到HDFS目录下,这样就可以有效长久的解决此类问题.

实现步骤

例:MapReduce读写ORC文件,Hadoop集群环境并没有MapReduceORC相关的包。

1. 把依赖包拷贝到Linux本节点/opt/bigdata/lib目录下,如下图

MapReduce在Map和Reduce过程添加依赖包办法_第1张图片

 

2. 把相关依赖包上传到集群的HDFS目录下,如/apps/hive/libs目录下,命令如下

hadoop fs -copyFromLocal /opt/bigdata/lib/* /apps/hive/libs/

3. 在MapReduce的Driver中添加这些依赖到Job缓存中

Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
...
...
...
String depJarPath = "/app/hive/libs/";
String depJarNames = "orc-mapreduce-1.2.1.jar:orc-core-1.2.1.jar:hive-storage-api-2.1.1-pre-orc.jar:aircompressor-0.3.jar";
for(String depJarName : depJarNames.split(":")){
   job.addFileToClassPath(new Path(depJarPath + depJarName))
}
...

这样在MapReduce运行Map和Reduce阶段都会加载这几个依赖包。

 

 

你可能感兴趣的:(Hadoop,MapREDUCE)