hadoop执行wordcount程序、本地编写、放到hadoop集群上运行

在执行hadoop jar命令之前,必须先启动hadoop集群

1、首页简历maven工程,导入hadoop依赖


	4.0.0
	com.luximg
	hadoop2
	0.0.1-SNAPSHOT
	jar

	
		2.6.5
	
	

		
		
			junit
			junit
			4.10
			test
		

		
			org.apache.hadoop
			hadoop-common
			${hadoopVersion}
		
		
			org.apache.hadoop
			hadoop-hdfs
			${hadoopVersion}
		
		
			org.apache.hadoop
			hadoop-mapreduce-client-core
			${hadoopVersion}
		
		
			org.apache.hadoop
			hadoop-client
			${hadoopVersion}
		

		
		
			mysql
			mysql-connector-java
			5.1.28
		

		
			org.vaadin.addons
			dcharts-widget
			0.10.0
		

		
			org.apache.storm
			storm-core
			0.9.5
			
		
		
			org.apache.storm
			storm-kafka
			0.9.5
			
				
					org.slf4j
					slf4j-log4j12
				
				
					org.slf4j
					slf4j-api
				
			
		
		
			org.clojure
			clojure
			1.5.1
		
		
			org.apache.kafka
			kafka_2.8.2
			0.8.1
			
				
					jmxtools
					com.sun.jdmk
				
				
					jmxri
					com.sun.jmx
				
				
					jms
					javax.jms
				
				
					org.apache.zookeeper
					zookeeper
				
				
					org.slf4j
					slf4j-log4j12
				
				
					org.slf4j
					slf4j-api
				
			
		
		
			com.google.code.gson
			gson
			2.4
		
		
			redis.clients
			jedis
			2.7.3
		
		
		
		

	

2、编写wordcount代码程序

public class WordcountDriver {
	
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		
		//是否运行为本地模式,就是看这个参数值是否为local,默认就是local
		/*conf.set("mapreduce.framework.name", "local");*/
		
		//本地模式运行mr程序时,输入输出的数据可以在本地,也可以在hdfs上
		//到底在哪里,就看以下两行配置你用哪行,默认就是file:///
		conf.set("fs.defaultFS", "hdfs://192.168.124.140:9000/");
		/*conf.set("fs.defaultFS", "file:///");*/
		
		
		
		//运行集群模式,就是把程序提交到yarn中去运行
		//要想运行为集群模式,以下3个参数要指定为集群上的值
		/*conf.set("mapreduce.framework.name", "yarn");
		conf.set("yarn.resourcemanager.hostname", "mini1");
		conf.set("fs.defaultFS", "hdfs://mini1:9000/");*/
		Job job = Job.getInstance(conf);
		
		/*job.setJar("c:/wc.jar");*/
		//指定本程序的jar包所在的本地路径
		job.setJarByClass(WordcountDriver.class);
		
		//指定本业务job要使用的mapper/Reducer业务类
		job.setMapperClass(WordcountMapper.class);
		job.setReducerClass(WordcountReducer.class);
		
		//指定mapper输出数据的kv类型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		
		//指定最终输出的数据的kv类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		//指定需要使用combiner,以及用哪个类作为combiner的逻辑
		/*job.setCombinerClass(WordcountCombiner.class);*/
		job.setCombinerClass(WordcountReducer.class);
		
		//如果不设置InputFormat,它默认用的是TextInputformat.class
		job.setInputFormatClass(CombineTextInputFormat.class);
		CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);
		CombineTextInputFormat.setMinInputSplitSize(job, 2097152);
		
		//指定job的输入原始文件所在目录
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		//指定job的输出结果所在目录
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		//将job中配置的相关参数,以及job所用的java类所在的jar包,提交给yarn去运行
		/*job.submit();*/
		boolean res = job.waitForCompletion(true);
		System.exit(res?0:1);
		
	}

}

3、打成jar文件传到hadoop集群上 wc.jar 是你上传的jar文件 cn.luxing.mr.wcdemo.WordcountDriver 这个是类的全路径

/test/input这个是输入路径 /test/output 这个是输出路径(如果存在需要先删除) 

4、执行hadoop jar wc.jar cn.luxing.mr.wcdemo.WordcountDriver /test/input /test/output

5、查看是否执行成功

[root@hadoop1 sbin]# hadoop fs -ls /test
drwxr-xr-x   - root supergroup          0 2019-03-11 00:24 /test/input
drwxr-xr-x   - root supergroup          0 2019-03-11 00:28 /test/output
[root@hadoop1 sbin]# hadoop fs -ls /test/output
-rw-r--r--   1 root supergroup          0 2019-03-11 00:28 /test/output/_SUCCESS
-rw-r--r--   1 root supergroup      33184 2019-03-11 00:28 /test/output/part-r-00000
[root@hadoop1 sbin]# 

hadoop执行wordcount程序、本地编写、放到hadoop集群上运行_第1张图片

你可能感兴趣的:(hadoop,MapReduce)