Tip:Hadoop+Idea(本地测试+远程调试)

MapReduce调试常见情况


Idea是一款很赞的IDE,结合Hadoop可以做本地测试+远程调试。
首先,我们知道针对MapReduce有以下2种情况。

  1. 使用本地Hadoop执行任务,前提是数据量要小,否则,速度会很慢。
  2. 使用服务器上的Hadoop集群执行任务,但因为调试阶段,不知道代码逻辑是否ok,故不确定长时间跑出来的结果是否符合要求。

我的调试方法


根据以上两种情况,我的方法是

  1. 首先,在编写MapReduce阶段,使用少量的数据样本做输入,用本地Hadoop快速跑任务,以此检验MapReduce的逻辑是否正确。
  2. 其次,检验成功后,生成jar包,提交到Hadoop集群,使用中小数据再次进行验证,最后使用于生产环境。

步骤1很好操作,本地安装好Idea和Hadoop,指定输入即可。
步骤2如果按照从上传到执行,一路手动操作,会有一系列重复的工作,很是麻烦。这里推荐借助maven的verify方法,使该过程自动化执行。参考做法

首先编写两个shell文件。
deplay.sh

#!/bin/sh
echo "deploy jar"
scp ../target/test-1.0-SNAPSHOT.jar [email protected]:~/test/
echo "deploy run.sh"
scp run.sh [email protected]:~/test/
echo "start run.sh"
ssh [email protected] "~/test/run.sh"

run.sh

echo "run hadoop task"
/usr/local/hadoop/hadoop-2.7.3/bin/hadoop jar /home/hadoop/test/test-1.0-SNAPSHOT.jar WordCount   /input/*  /output/

然后修改pom.xml



    4.0.0

    com
    test
    1.0-SNAPSHOT

    

        
            org.apache.hadoop
            hadoop-common
            2.7.3
        

        
            org.apache.hadoop
            hadoop-hdfs
            2.7.3
        


        
            org.apache.hadoop
            hadoop-mapreduce-client-core
            2.7.3
        
        
            org.apache.hadoop
            hadoop-mapreduce-client-jobclient
            2.7.3
        
        
            org.apache.hadoop
            hadoop-mapreduce-client-common
            2.7.3
        
        
    


    
        
            
                org.apache.maven.plugins
                maven-antrun-plugin
                1.7
                
                    
                        hadoop remote run
                        verify
                        
                            run
                        
                        
                            
                                
                                    
                                
                            
                        
                    
                
            
        
    


目前假设MapReduce已写好,但还没生成jar包。从命令界面(win用户推荐cmder)进入项目目录,使用mvn verify命令,此时,在target目录下会生成jar包,并按照shell文件中命令进行操作,在命令界面可以看到执行结果,这样我们就完成了调试自动化过程。

小结

本人虽不是数据工程师,但本着一切从简的原则,参考前辈的经验,使重复性的工作能够自动化,提高自身的工作效率。

你可能感兴趣的:(Tip:Hadoop+Idea(本地测试+远程调试))