前言:
公司要搞一个大数据项目,做之前先让我搭建三个节点hadoop+hive做技术预研.搭建好之后,想试试mapreduce程序能不能跑得起来,一直以来开发工具用的都是eclipse,但现在的同事都习惯用idea,我试着用了之后立刻就喜欢上了.就决定配置idea的hadoop开发环境.
注意:
idea的hadoop项目采用的maven管理,mapreduce程序运行在windows环境也即本地运行,不用在本地安装hadoop以及配置HADOOP_HOME
跨平台提交任务需要在yarn-site.xml中添加如下参数:
mapreduce.app-submission.cross-platform
true
项目创建过程:
1.新建maven项目,直接点击下一步
2填写项目名后下一步
3.finish
pom文件内容:
MapReduceTest
com.qi
1.0-SNAPSHOT
../../../pom.xml
4.0.0
wordcount
UTF-8
org.apache.hadoop
hadoop-common
2.7.6
org.apache.hadoop
hadoop-hdfs
2.7.6
org.apache.hadoop
hadoop-mapreduce-client-core
2.7.6
org.apache.hadoop
hadoop-mapreduce-client-jobclient
2.7.6
junit
junit
4.12
test
java代码:
package com.qi.demo;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
public class WordCount {
public static class TokenizerMapper extends
Mapper
在项目根目录新建input目录并创建words.txt文本文件,加入一些测试数据
将集群上etc/hadoop中的log4j文件放入resources目录
第一次运行报了一个bug
刚开始觉得是自己input目录路径写的不对,原来用的相对路径,然后改成了绝对路径
但还是不行.经过打断点debug确定了此异常的原因是本地提交的任务是使用的当前windows用户提交的,此时每次运行都会自动在input路径前添加user/用户名(我的用户名是中文,显示乱码)
加上 System.setProperty(“HADOOP_USER_NAME”,“root”);使用windows的root用户提交,运行成功
运行结果:
hdfs上input目录
这种写法仍然会在inputq前加上user/用户名