伪分布式运行Mapreduce程序

伪分布式执行wordcount.java:

第一步:先把wordcount.java文件复制到ubuntu里面

伪分布式运行Mapreduce程序_第1张图片

第二步:我们将 Hadoop classhpath 信息添加到 CLASSPATH 变量中,在 ~/.bashrc 中增加如下几行:

伪分布式运行Mapreduce程序_第2张图片

然后执行source ~/.bashrc 使变量生效

 

第三步:使用javac命令编译.java文件

就会生成相应的.class文件

伪分布式运行Mapreduce程序_第3张图片

第四步:接着把 .class 文件打包成 jar,才能在 Hadoop 中运行

伪分布式运行Mapreduce程序_第4张图片

就会生成jar包

伪分布式运行Mapreduce程序_第5张图片

第五步:创建几个输入文件

伪分布式运行Mapreduce程序_第6张图片

第六步:启动所有进程

伪分布式运行Mapreduce程序_第7张图片

第七步:把本地文件上传到伪分布式HDFS上

/usr/local/hadoop/bin/hadoop fs -put ./input002 input002

第八步:HDFS上查看文件input002

伪分布式运行Mapreduce程序_第8张图片

第九步:

运行hadoop jar WordCount.jar org/apache/hadoop/examples/WordCount input002 output002

看到输出信息

 

伪分布式运行Mapreduce程序_第9张图片

等待完成就行

成功的标志

伪分布式运行Mapreduce程序_第10张图片

第十步:再次查看HDFS里面的文件,多了output002

伪分布式运行Mapreduce程序_第11张图片

第十一步:查看output002的内容

伪分布式运行Mapreduce程序_第12张图片

第十二步:输出part-r-00000的内容

伪分布式运行Mapreduce程序_第13张图片

 

运行过程的一些总结

在刚开始弄伪分布式的时候只要到将文件上传到HDFS那一步就会报错了一直上传不上去,后来发现是自己没有安装yarn后来再次安装yarn,执行计算单词的时候都是要启动所有进程的,很多时候就是忘记启动而导致出错。

一直以为wordcount.jar的位置有规定,其实不是的,只要我操作的那些直接在那个jar包所在的文件夹下操作就行了。刚开始实验的时候是使用以前老师给的32位的debain系统操作一直不能成功,后来只能安装回64位的ubuntu,在这个过程中安装jdk也遇到了错误,后来都是通过百度解决了安装的问题。换了一个系统就能正常操作了。

你可能感兴趣的:(大数据)