Hadoop MapReduce程序中解决第三方jar包问题--终极解决方案

   在项目中碰到了MapReduce任务中需要引入第三方jar包的问题;

   一、现象

            报一堆类似异常【Error: java.lang.ClassNotFoundException:***】。

   二、解决方案

            随手一搜网上倒是不少解决方案,我选择两个典型方案,其它方案自行查找:

 

           (1) 将依赖的第三方jar放在集群中每个节点$HADOOP_HOME/lib目录下或者JDK的ext目录下,其中$HAOOP_HOME为Hadoop的根目录。

           (2) 将所有的jar包解压缩,然后把他和源程序的类文件打包到一个jar包中。

             第一种基本满足我的要求,可以一试,第二种方法不易于维护舍弃。

  三、测试

          1、 把依赖的jar包放入集群中每个节点$HADOOP_HOME/lib目录下;

           2、重新执行job,依然报错,崩溃。。。,难道要重启hadoop集群?以后要是任务多了更改一些公用jar还要重启接受不了;

           3、查看hadoop,发现确实是加载了lib中的jar包,如下所示:

                       # add libs to CLASSPATH
                       for f in $HADOOP_HOME/lib/*.jar; do
                             CLASSPATH=${CLASSPATH}:$f;
                       done

           4、可能是自己愚笨或者环境问题,反正继续查找原因未果,放弃;

  四、重新查找解决方案

           1、发现一个不错的解决方案:http://algoarch.iteye.com/blog/1142681

           2、英文地址:http://www.blowide.com/2010/04/including-external-jars-in-a-hadoop-job/

           3、可问题来了,里面描述的lib目录建在哪里?执行时到底怎么调用的呀?

           4、记得《Hadoop权威指南》中好像也有关于jar打包的处理措施,查找之

                  【任何非独立的JAR文件都必须打包到JAR文件的lib目录中。(这与Java的web application archive或WAR文件类似,不同的是,后者的JAR文件放在WEB-INF/lib子目录下的WAR文件中)】,天哪,看书不仔细就会遗留重要问题,网上的都是浮云呀。打包的时候把第三方包放到lib目录下和class文件一块打包即可。

           5、按要求重新打包,执行,OK了。

        

     

你可能感兴趣的:(hadoop)