hadoop大数据——mapreduce程序提交运行模式及debug方法

  • 本地运行模式

(1)mapreduce程序是被提交给LocalJobRunner在本地运行
(2)而处理的数据及输出结果可以在本地文件系统,也可以在hdfs上
怎样实现本地运行?:写一个程序,不要带集群的配置文件(本质是你的mr程序的conf中是否有mapreduce.framework.name=local以及yarn.resourcemanager.hostname参数)

  • 集群运行模式

(1)mapreduce程序会提交给yarn集群的resourcemanager,分发到很多的节点上并发执行
(2)处理的数据和输出结果应该位于hdfs文件系统
(3)怎样实现集群运行:
A、将程序打成JAR包,然后在集群的任意一个节点上用hadoop命令启动
$ hadoop jar wordcount.jar cn.zhangxueliang.bigdata.mrsimple.WordCountDriver inputpath outputpath
B、直接在linux的eclipse中运行main方法
(项目中要带参数:mapreduce.framework.name=yarn以及yarn的两个基本配置)
C、如果要在windows的eclipse中提交job给集群,则要修改YarnRunner类

你可能感兴趣的:(大数据)