本地调试提交hadoop集群任务

作者:贺圣军,叩丁狼高级讲师。原创文章,转载请注明出处。

在hadoop的开发过程中,通常情况我们习惯使用window的eclipse或者idea完成MapReduce的相关开发,并且使用hdfs的文件系统以及提交任务到hadoop集群中进行计算,对于这个过程我们需要使用相关的配置代码完成操作

1 环境说明

开发工具 idea或者eclipse
hadoop集群的hdfs hdfs://lab301:9000
hadoop集群的yarn主机地址 lab301

2 核心配置参数

在运行job的运行类WordCountDriver中的main方法的配置的Configuration中添加如下几个参数

        conf.set("fs.defaultFS", "hdfs://lab301:9000");# 设置使用hdfs的文件系统,默认使用的是本地文件系统
        conf.set("mapreduce.framework.name","yarn");# 设置使用yarn的方式运行
        conf.set("yarn.resourcemanager.hostname","lab301");# 设置资源管理节点(rm)所在的主机名
        conf.set("mapreduce.app-submission.cross-platform","true");# 设置是否跨平台运行
        conf.set("mapreduce.job.jar", "D:\\bigdata\\hadoop\\mapreducer\\target\\mapreducer-1.0.0.jar");# 重要设置 需要提交的job的jar包

3 重要说明

对于使用hadoop集群运行,我们需要先把程序打包,然后在通过mapreduce.job.jar参数指定jar的位置才可以正常的运行job任务

对于上面的所有参数,我们都可以在几个配置文件中找到:core-default.xml,mapred-default.xml,yarn-default.xml中找到

4 运行代码

源码下载地址: https://gitee.com/heshengjun/hadoop_local.git

本地调试提交hadoop集群任务_第1张图片
WechatIMG7.jpeg

你可能感兴趣的:(本地调试提交hadoop集群任务)