如何配置IntelliJ IDEA环境向远端HADOOP测试集群递交Job作业。

前言
刚开始学大数据,由于是分布式环境本地开发好的程序,需要放到测试集群里的跑,来回切换上传非常麻烦,今天终于成功配置出了,在本地IDE环境中也能向测试集群递交Job,甚至获得测试集群历史作业的信息记录。故写下此文以备日后自己查询。

提示:需关闭测试集群的防火墙,或针对IntelliJ IDEA机器IP设定防火墙白名单。

本测试配置环境如下:
Hadoop 2.7.4 (伪分布) on Red Hat Enterprise Linux 7
IntelliJ IDEA on Mac OSX

第一步:

在项目的src目录下创建hadoop配置文件中3个核心xml文件(当然也可以直接从远端的hadoop集群中拷贝过来,但其实只需配置部分信息)。core-site.xml, mapred-site.xml和yarn-site.xml。

如何配置IntelliJ IDEA环境向远端HADOOP测试集群递交Job作业。_第1张图片

第二步,分别配置(修改)这3个xml文件

1、core-site.xml



		fs.defaultFS
		hdfs://bigdata1:9000/ 

2、yarn-site.xml



	yarn.resourcemanager.hostname
	bigdata1 




	yarn.nodemanager.aux-services
	mapreduce_shuffle

3、mapred-site.xml

    
        mapreduce.framework.name
        yarn
    
    
        mapred.remote.os
        Linux
    

    
    
        mapreduce.app-submission.cross-platform
        true
    

    
    
        mapreduce.jobhistory.address
        bigdata1:10020 
    
    
        mapreduce.jobhistory.webapp.address
        bigdata1:19888 
    
    
        mapreduce.jobhistory.intermediate-done-dir
        /mr-history/tmp 
    
    
        mapreduce.jobhistory.done-dir
        /mr-history/done 
    

第三步,也是最重要一步。将mapreduce的任务程序设定导出Jar包,并记录下该Jar包在你项目中的路径位置,通常IDEA下的默认导出Jar包在项目的out/artifacts目录下,在你的程序中配置进如下一句语句(非常重要)

conf.set("mapreduce.job.jar", "Jar包路径/Jar包文件名");

如何配置IntelliJ IDEA环境向远端HADOOP测试集群递交Job作业。_第2张图片

至此,就可以直接在IDEA中调试程序,而使用的集群却是远端的Hadoop环境了(当然对大部分开发者而言其实就是个远端虚拟机)。并且这些本地递交的Job任务在远端的Yarn管理器中也能顺利的查阅到。这样就为开发调试简化了很多反复的打包上传工作。

如何配置IntelliJ IDEA环境向远端HADOOP测试集群递交Job作业。_第3张图片

 

 

你可能感兴趣的:(如何配置IntelliJ IDEA环境向远端HADOOP测试集群递交Job作业。)