[hadoop]命令行编译并运行hadoop例子WordCount

首先保证JDK、Hadoop安装设置成功

可以参考[linux]ubuntu下安装hadoop [linux]ubutnu12.04 下安装jdk1.7

使用hadoop版本为1.2.1，jdk为1.7

在hadoop-1.2.1\src\examples\org\apache\hadoop\examples找到WordCount.java

源码如下：

 1 /**

 2  *  Licensed under the Apache License, Version 2.0 (the "License");

 3  *  you may not use this file except in compliance with the License.

 4  *  You may obtain a copy of the License at

 5  *

 6  *      http://www.apache.org/licenses/LICENSE-2.0

 7  *

 8  *  Unless required by applicable law or agreed to in writing, software

 9  *  distributed under the License is distributed on an "AS IS" BASIS,

10  *  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

11  *  See the License for the specific language governing permissions and

12  *  limitations under the License.

13  */

14 

15 

16 package org.apache.hadoop.examples;

17 

18 import java.io.IOException;

19 import java.util.StringTokenizer;

20 

21 import org.apache.hadoop.conf.Configuration;

22 import org.apache.hadoop.fs.Path;

23 import org.apache.hadoop.io.IntWritable;

24 import org.apache.hadoop.io.Text;

25 import org.apache.hadoop.mapreduce.Job;

26 import org.apache.hadoop.mapreduce.Mapper;

27 import org.apache.hadoop.mapreduce.Reducer;

28 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

29 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

30 import org.apache.hadoop.util.GenericOptionsParser;

31 

32 public class WordCount {

33 

34   public static class TokenizerMapper 

35        extends Mapper<Object, Text, Text, IntWritable>{

36     

37     private final static IntWritable one = new IntWritable(1);

38     private Text word = new Text();

39       

40     public void map(Object key, Text value, Context context

41                     ) throws IOException, InterruptedException {

42       StringTokenizer itr = new StringTokenizer(value.toString());

43       while (itr.hasMoreTokens()) {

44         word.set(itr.nextToken());

45         context.write(word, one);

46       }

47     }

48   }

49   

50   public static class IntSumReducer 

51        extends Reducer<Text,IntWritable,Text,IntWritable> {

52     private IntWritable result = new IntWritable();

53 

54     public void reduce(Text key, Iterable<IntWritable> values, 

55                        Context context

56                        ) throws IOException, InterruptedException {

57       int sum = 0;

58       for (IntWritable val : values) {

59         sum += val.get();

60       }

61       result.set(sum);

62       context.write(key, result);

63     }

64   }

65 

66   public static void main(String[] args) throws Exception {

67     Configuration conf = new Configuration();

68     String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

69     if (otherArgs.length != 2) {

70       System.err.println("Usage: wordcount <in> <out>");

71       System.exit(2);

72     }

73     Job job = new Job(conf, "word count");

74     job.setJarByClass(WordCount.class);

75     job.setMapperClass(TokenizerMapper.class);

76     job.setCombinerClass(IntSumReducer.class);

77     job.setReducerClass(IntSumReducer.class);

78     job.setOutputKeyClass(Text.class);

79     job.setOutputValueClass(IntWritable.class);

80     FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

81     FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

82     System.exit(job.waitForCompletion(true) ? 0 : 1);

83   }

84 }

View Code

在hadoop主目录下新建classes用于存放编译后的.class文件

mkdir hadoop1.2.1/classes

把WordCount.java放入classes文件夹中

我们直接在classes编译一下WordCount.java

javac WordCount.java -d .

出现如下错误

  1 WordCount.java:21: error: package org.apache.hadoop.conf does not exist

  2 import org.apache.hadoop.conf.Configuration;

  3                              ^

  4 WordCount.java:22: error: package org.apache.hadoop.fs does not exist

  5 import org.apache.hadoop.fs.Path;

  6                            ^

  7 WordCount.java:23: error: package org.apache.hadoop.io does not exist

  8 import org.apache.hadoop.io.IntWritable;

  9                            ^

 10 WordCount.java:24: error: package org.apache.hadoop.io does not exist

 11 import org.apache.hadoop.io.Text;

 12                            ^

 13 WordCount.java:25: error: package org.apache.hadoop.mapreduce does not exist

 14 import org.apache.hadoop.mapreduce.Job;

 15                                   ^

 16 WordCount.java:26: error: package org.apache.hadoop.mapreduce does not exist

 17 import org.apache.hadoop.mapreduce.Mapper;

 18                                   ^

 19 WordCount.java:27: error: package org.apache.hadoop.mapreduce does not exist

 20 import org.apache.hadoop.mapreduce.Reducer;

 21                                   ^

 22 WordCount.java:28: error: package org.apache.hadoop.mapreduce.lib.input does not exist

 23 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 24                                             ^

 25 WordCount.java:29: error: package org.apache.hadoop.mapreduce.lib.output does not exist

 26 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 27                                              ^

 28 WordCount.java:30: error: package org.apache.hadoop.util does not exist

 29 import org.apache.hadoop.util.GenericOptionsParser;

 30                              ^

 31 WordCount.java:35: error: cannot find symbol

 32        extends Mapper<Object, Text, Text, IntWritable>{

 33                ^

 34   symbol:   class Mapper

 35   location: class WordCount

 36 WordCount.java:35: error: cannot find symbol

 37        extends Mapper<Object, Text, Text, IntWritable>{

 38                               ^

 39   symbol:   class Text

 40   location: class WordCount

 41 WordCount.java:35: error: cannot find symbol

 42        extends Mapper<Object, Text, Text, IntWritable>{

 43                                     ^

 44   symbol:   class Text

 45   location: class WordCount

 46 WordCount.java:35: error: cannot find symbol

 47        extends Mapper<Object, Text, Text, IntWritable>{

 48                                           ^

 49   symbol:   class IntWritable

 50   location: class WordCount

 51 WordCount.java:37: error: cannot find symbol

 52     private final static IntWritable one = new IntWritable(1);

 53                          ^

 54   symbol:   class IntWritable

 55   location: class TokenizerMapper

 56 WordCount.java:38: error: cannot find symbol

 57     private Text word = new Text();

 58             ^

 59   symbol:   class Text

 60   location: class TokenizerMapper

 61 WordCount.java:40: error: cannot find symbol

 62     public void map(Object key, Text value, Context context

 63                                 ^

 64   symbol:   class Text

 65   location: class TokenizerMapper

 66 WordCount.java:40: error: cannot find symbol

 67     public void map(Object key, Text value, Context context

 68                                             ^

 69   symbol:   class Context

 70   location: class TokenizerMapper

 71 WordCount.java:51: error: cannot find symbol

 72        extends Reducer<Text,IntWritable,Text,IntWritable> {

 73                ^

 74   symbol:   class Reducer

 75   location: class WordCount

 76 WordCount.java:51: error: cannot find symbol

 77        extends Reducer<Text,IntWritable,Text,IntWritable> {

 78                        ^

 79   symbol:   class Text

 80   location: class WordCount

 81 WordCount.java:51: error: cannot find symbol

 82        extends Reducer<Text,IntWritable,Text,IntWritable> {

 83                             ^

 84   symbol:   class IntWritable

 85   location: class WordCount

 86 WordCount.java:51: error: cannot find symbol

 87        extends Reducer<Text,IntWritable,Text,IntWritable> {

 88                                         ^

 89   symbol:   class Text

 90   location: class WordCount

 91 WordCount.java:51: error: cannot find symbol

 92        extends Reducer<Text,IntWritable,Text,IntWritable> {

 93                                              ^

 94   symbol:   class IntWritable

 95   location: class WordCount

 96 WordCount.java:52: error: cannot find symbol

 97     private IntWritable result = new IntWritable();

 98             ^

 99   symbol:   class IntWritable

100   location: class IntSumReducer

101 WordCount.java:54: error: cannot find symbol

102     public void reduce(Text key, Iterable<IntWritable> values, 

103                        ^

104   symbol:   class Text

105   location: class IntSumReducer

106 WordCount.java:54: error: cannot find symbol

107     public void reduce(Text key, Iterable<IntWritable> values, 

108                                           ^

109   symbol:   class IntWritable

110   location: class IntSumReducer

111 WordCount.java:55: error: cannot find symbol

112                        Context context

113                        ^

114   symbol:   class Context

115   location: class IntSumReducer

116 WordCount.java:37: error: cannot find symbol

117     private final static IntWritable one = new IntWritable(1);

118                                                ^

119   symbol:   class IntWritable

120   location: class TokenizerMapper

121 WordCount.java:38: error: cannot find symbol

122     private Text word = new Text();

123                             ^

124   symbol:   class Text

125   location: class TokenizerMapper

126 WordCount.java:52: error: cannot find symbol

127     private IntWritable result = new IntWritable();

128                                      ^

129   symbol:   class IntWritable

130   location: class IntSumReducer

131 WordCount.java:58: error: cannot find symbol

132       for (IntWritable val : values) {

133            ^

134   symbol:   class IntWritable

135   location: class IntSumReducer

136 WordCount.java:67: error: cannot find symbol

137     Configuration conf = new Configuration();

138     ^

139   symbol:   class Configuration

140   location: class WordCount

141 WordCount.java:67: error: cannot find symbol

142     Configuration conf = new Configuration();

143                              ^

144   symbol:   class Configuration

145   location: class WordCount

146 WordCount.java:68: error: cannot find symbol

147     String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

148                              ^

149   symbol:   class GenericOptionsParser

150   location: class WordCount

151 WordCount.java:73: error: cannot find symbol

152     Job job = new Job(conf, "word count");

153     ^

154   symbol:   class Job

155   location: class WordCount

156 WordCount.java:73: error: cannot find symbol

157     Job job = new Job(conf, "word count");

158                   ^

159   symbol:   class Job

160   location: class WordCount

161 WordCount.java:78: error: cannot find symbol

162     job.setOutputKeyClass(Text.class);

163                           ^

164   symbol:   class Text

165   location: class WordCount

166 WordCount.java:79: error: cannot find symbol

167     job.setOutputValueClass(IntWritable.class);

168                             ^

169   symbol:   class IntWritable

170   location: class WordCount

171 WordCount.java:80: error: cannot find symbol

172     FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

173                                           ^

174   symbol:   class Path

175   location: class WordCount

176 WordCount.java:80: error: cannot find symbol

177     FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

178     ^

179   symbol:   variable FileInputFormat

180   location: class WordCount

181 WordCount.java:81: error: cannot find symbol

182     FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

183                                             ^

184   symbol:   class Path

185   location: class WordCount

186 WordCount.java:81: error: cannot find symbol

187     FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

188     ^

189   symbol:   variable FileOutputFormat

190   location: class WordCount

191 42 errors

View Code

原因是缺少依赖包

因为源码import了好几个hadoop自定义类，非JDK环境自带的类，所以需要把这些依赖包导入eclipse中，不然编译器如何能找到这些类呢，得明确让编译器知道这些类所在位置。

而hadoop的依赖包就是hadoop1.2.1下的几个jar文件，以及hadoop/lib下的jar文件。

有时候不知道源代码使用了哪一个依赖包，所以把全部依赖包告诉编译器，我使用的方法是在~/.bashrc设置一个hadoop_CLASSPATH变量（最好不用使用HADOOP_CLASSPATH变量名，因为在hadoop1.2.1/conf/hadoop-env.sh中有这个变量名，所以最好不要使用）

hadoop_CLASSPATH如下产生。

hadoop_HOME=/home/hadoop/hadoop1.2.1

#HADOOP_HOME不能占用，因为hadoop-env.sh中有使用

for f in $hadoop_HOME/hadoop-*.jar; do

        hadoop_CLASSPATH=${hadoop_CLASSPATH}:$f

done



for f in $hadoop_HOME/lib/*.jar; do

        hadoop_CLASSPATH=${hadoop_CLASSPATH}:$f

done

看一下javac命令的用法

 1 Usage: javac <options> <source files>

 2 where possible options include:

 3   -g                         Generate all debugging info

 4   -g:none                    Generate no debugging info

 5   -g:{lines,vars,source}     Generate only some debugging info

 6   -nowarn                    Generate no warnings

 7   -verbose                   Output messages about what the compiler is doing

 8   -deprecation               Output source locations where deprecated APIs are used

 9   -classpath <path>          Specify where to find user class files and annotation processors

10   -cp <path>                 Specify where to find user class files and annotation processors

11   -sourcepath <path>         Specify where to find input source files

12   -bootclasspath <path>      Override location of bootstrap class files

13   -extdirs <dirs>            Override location of installed extensions

14   -endorseddirs <dirs>       Override location of endorsed standards path

15   -proc:{none,only}          Control whether annotation processing and/or compilation is done.

16   -processor <class1>[,<class2>,<class3>...] Names of the annotation processors to run; bypasses default discovery process

17   -processorpath <path>      Specify where to find annotation processors

18   -d <directory>             Specify where to place generated class files

19   -s <directory>             Specify where to place generated source files

20   -implicit:{none,class}     Specify whether or not to generate class files for implicitly referenced files

21   -encoding <encoding>       Specify character encoding used by source files

22   -source <release>          Provide source compatibility with specified release

23   -target <release>          Generate class files for specific VM version

24   -version                   Version information

25   -help                      Print a synopsis of standard options

26   -Akey[=value]              Options to pass to annotation processors

27   -X                         Print a synopsis of nonstandard options

28   -J<flag>                   Pass <flag> directly to the runtime system

29   -Werror                    Terminate compilation if warnings occur

30   @<filename>                Read options and filenames from file

View Code

参数classpath与cp均是设置依赖包的途径

1 -classpath <path>          Specify where to find user class files and annotation processors

2 -cp <path>                 Specify where to find user class files and annotation processors

可以如下编译

javac -cp $hadoop_CLASSPATH WordCount.java -d .

编译成功，classes文件夹出现了一个org的文件夹，点击进去可以发现文件夹的层次是org/apache/hadoop/examples 然后在examples文件夹中看到三个.class

hadoop@Mint ~/hadoop-1.2.1/classes/org/apache/hadoop/examples $ pwd

/home/hadoop/hadoop-1.2.1/classes/org/apache/hadoop/examples

hadoop@Mint ~/hadoop-1.2.1/classes/org/apache/hadoop/examples $ ls

WordCount.class  WordCount$IntSumReducer.class  WordCount$TokenizerMapper.class

层次结构出现的原因是源代码开始是有一个package org.apache.hadoop.examples;

如果没有，三个c.lass直接出现在classes中。

然后返回classes目录，打包为jar文件

jar -cvf WordCount.jar org

然后当前文件夹就会出现WordCount.jar文件，可以使用jar -tvf WordCount.jar看一下这个包的层次结构

jar -tvf WordCount.jar 

0 Fri Aug 15 19:58:32 CST 2014 META-INF/

68 Fri Aug 15 19:58:32 CST 2014 META-INF/MANIFEST.MF

0 Fri Aug 15 19:53:28 CST 2014 org/

0 Fri Aug 15 19:53:28 CST 2014 org/apache/

0 Fri Aug 15 19:53:28 CST 2014 org/apache/hadoop/

0 Fri Aug 15 19:53:28 CST 2014 org/apache/hadoop/examples/

1911 Fri Aug 15 19:53:28 CST 2014 org/apache/hadoop/examples/WordCount.class

1790 Fri Aug 15 19:53:28 CST 2014 org/apache/hadoop/examples/WordCount$TokenizerMapper.class

1793 Fri Aug 15 19:53:28 CST 2014 org/apache/hadoop/examples/WordCount$IntSumReducer.class

WordCount.jar打包成功，运行WordCount详解可以参考Hadoop集群（第6期）_WordCount运行详解

hadoop jar WordCount.jar org.apache.hadoop.examples.WordCount input output

org.apache.hadoop.examples.WordCount是程序的主类WordCount.class名字，这里就不需要加.class后缀。如果没有层次结构的话，就直接是

hadoop jar WordCount.jar WordCount input output

WordCount.jar不一定是与主类相同，可以是CountWord.jar或者其他名字，但是上述命令hadoop jar 包名程序主类名字输入文件夹输出文件夹

程序主类名字就一定不能换成其他，得是主类名字，不然不能运行。

参考命令行运行hadoop实例wordcount程序

参考Hadoop集群（第6期）_WordCount运行详解

本文基于知识共享署名-非商业性使用 3.0 许可协议进行许可。欢迎转载、演绎，但是必须保留本文的署名林羽飞扬,若需咨询，请给我发信

Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
Spark分布式计算原理 NightFall丶 #Spark apache spark spark
目录一、RDD依赖与DAG原理1.1RDD的转换一、RDD依赖与DAG原理Spark根据计算逻辑中的RDD的转换与动作生成RDD的依赖关系，同时这个计算链也形成了逻辑上的DAG。1.1RDD的转换e.g.(以wordcount为例）packagesparkimportorg.apache.spark.{SparkConf,SparkContext}objectWordCount{defmain(a
【Hadoop】- MapReduce & YARN 初体验[9] 星星法术嗲人 hadoop hadoop mapreduce
目录提交MapReduce程序至YARN运行1、提交wordcount示例程序1.1、先准备words.txt文件上传到hdfs，文件内容如下：1.2、在hdfs中创建两个文件夹，分别为/input、/output1.3、将创建好的words.txt文件上传到hdfs中/input1.4、提交MapReduce程序至YARN1.5、可通过node1:8088查看1.6、返回我们的服务器，检查输出文
flink经典实战案例不爱吃肉肉 flink big data java scala
一、java版flink-wordcount-离线计算版1.1maven构建flink，加入依赖org.apache.flinkflink-java${flink.version}provided-->org.apache.flinkflink-clients_${scala.version}${flink.version}1.2java实现flinkwordCount的代码编写1.2.1代码编写
Spark Streaming（二）：DStream数据源雪飘千里
1、输入DStream和Receiver输入（Receiver）DStream代表了来自数据源的输入数据流，在之前的wordcount例子中，lines就是一个输入DStream（JavaReceiverInputDStream），代表了从netcat（nc）服务接收到的数据流。除了文件数据流之外，所有的输入DStream都会绑定一个Receiver对象，该对象是一个关键的组件，用来从数据源接收数
ros自定义srv记录西木九 robotic ROS srv
文章目录自定义srv1.定义srv文件2.修改package.xml3.修改CMakeLists.txt4.sevice_server.py5.运行`catkinbuild`测试使用(rosservice命令)自定义srvros版本：kinetic自定义test包的文件结构如下|--test||--CMakeLists.txt||--srv||`--WordCount.srv||--package
Hive使用双重GroupBy解决数据倾斜问题黄土高坡上的独孤前辈 Hive/Kylin数据仓库 hive hadoop 数据仓库
文章目录1.数据准备2.双重groupby实现解决数据倾斜2.1第一层加盐groupby2.2第二层去盐groupby1.数据准备createtablewordcount(astring)rowformatdelimitedfieldsterminatedby‘,’;loaddatalocalinpath‘opt/2.txt’intotablewordcount;hive(default)>sel
Scala基础教程--19--Actor 落空空。 java spark scala java 开发语言
Scala基础教程–19–Actor章节目标了解Actor的相关概述掌握Actor发送和接收消息掌握WordCount案例1.Actor介绍Scala中的Actor并发编程模型可以用来开发比Java线程效率更高的并发程序。我们学习ScalaActor的目的主要是为后续学习Akka做准备。1.1Java并发编程的问题在Java并发编程中，每个对象都有一个逻辑监视器（monitor），可以用来控制对象
【Flink入门修炼】1-3 Flink WordCount 入门实现 flinkhadoop
本篇文章将带大家运行Flink最简单的程序WordCount。先实践后理论，对其基本输入输出、编程代码有初步了解，后续篇章再对Flink的各种概念和架构进行介绍。下面将从创建项目开始，介绍如何创建出一个Flink项目；然后从DataStream流处理和FlinkSQL执行两种方式来带大家学习WordCount程序的开发。Flink各版本之间变化较多，之前版本的函数在后续版本可能不再支持。跟随学习时
七天爆肝flink笔记我才是真的封不觉 flink 笔记大数据
一.flink整体介绍及wordcount案例代码1.1整体介绍从上到下包含有界无界流支持状态特点与spark对比应用场景架构分层1.2示例代码了解了后就整个demo吧数据源准备这里直接用的文本文件gradle中的主要配置group='com.example'version='0.0.1-SNAPSHOT'java{sourceCompatibility='11'}repositories{mav
Hadoop手把手逐级搭建第二阶段: Hadoop完全分布式(full) 郑大能
前置步骤:1).第一阶段：Hadoop单机伪分布(single)0.步骤概述1).克隆4台虚拟机2).为完全分布式配置ssh免密3).将hadoop配置修改为完全分布式4).启动完全分布式集群5).在完全分布式集群上测试wordcount程序1.克隆4台虚拟机1.1使用hadoop0克隆4台虚拟机hadoop1,hadoop2,hadoop3,hadoop41.1.0克隆虚拟机hadoop11.1
FLink发布任务卡门001
例子任务名：SocketWindowWordCount.jar开启客户端模拟发数据nc-lk9527命令行启动../../bin/flinkrun-corg.apache.flink.streaming.examples.socket.SocketWindowWordCountSocketWindowWordCount.jar--hostnamelocalhost--port9527参数--hos
【Flink入门修炼】1-3 Flink WordCount 入门实现大数据王小皮 Flink 入门修炼 flink 大数据
本篇文章将带大家运行Flink最简单的程序WordCount。先实践后理论，对其基本输入输出、编程代码有初步了解，后续篇章再对Flink的各种概念和架构进行介绍。下面将从创建项目开始，介绍如何创建出一个Flink项目；然后从DataStream流处理和FlinkSQL执行两种方式来带大家学习WordCount程序的开发。Flink各版本之间变化较多，之前版本的函数在后续版本可能不再支持。跟随学习时
win10 spark scala 本地运行wordcount 疯琴大数据 java/scala flink/spark
注意每次修改环境变量都要重启cmd本机运行需要hadoopcommon，可以从github下载zip，解包以后设置HADOOP_HOME环境变量指向它，然后在PATH里加上HADOOP_HOME\bin，特别注意，hadoopcommon的版本要和spark的hadoop版本匹配spark的scala和本机的scala大版本要匹配报错ExceptionwhiledeletingSparktempd
在多台阿里云服务器上部署Hadoop分布式系统及WordCount实验 Clearlove灬Star 大数据阿里云 Hadoop 分布式 Wordcount
一、实现master与slave之间无密码连接分别在master及slave上生成rsa密钥：mkdir~/.sshcd~/.sshssh-keygen-t-rsa一路回车（选择默认设置），此时，ssh文件夹中生成了id_rsa.pub和id_rsa两个，然后使用scp命令将公钥（id_rsa.pub）分别拷到对方机器中scpid_rsa.pubh1@对方机器IP：~/.ssh/authorize
合肥工业大学2022大数据技术实验二一头骇人鲸大数据技术大数据 hadoop java
实验序号及名称：实验二在Hadoop平台上部署WordCount程序实验时间∶2022年5月14日预习内容一、实验目的和要求∶在Hadoop平台上部署WordCount程序。二、实验任务∶该项任务请同学作为作业自行完成，并提交实验报告。脱离ide环境运行wordcount三、实验准备方案，包括以下内容：（硬件类实验：实验原理、实验线路、设计方案等）（软件类实验：所采用的系统、组件、工具、核心方法、
hadoopwordcount代码分析姹紫_嫣红大数据hadoop Java
packagecom.felix;importjava.io.IOException;//java输入输出文件异常类importjava.util.Iterator;Iterator是迭代器类importjava.util.StringTokenizer;用来对字符串进行切importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntW
【实验2】在Hadoop平台上部署WordCount程序 -借我杀死庸碌的情怀- hadoop npm 大数据 centos 分布式
文章目录实验内容一、实验环境：二、实验内容与步骤（过程及数据记录）：5.分布式文件系统HDFS上的操作5.1利用Shell命令与HDFS进行交互5.2利用Web界面管理HDFS6.分布式文件系统HDFS上的编程实践6.1安装Eclipse6.2创建Eclipse工程6.3编写一个Java应用程序检测HDFS中是否存在一个文件7.Eclipse上的HDFS操作7.1安装Hadoop-Eclipse-
Spark大数据分析与实战笔记（第二章 Spark基础-06）想你依然心痛 #Spark大数据分析与实战 spark 数据分析笔记
文章目录每日一句正能量2.6IDEA开发WordCount程序2.6.1本地模式执行Spark程序2.6.2集群模式执行Spark程序每日一句正能量我们全都要从前辈和同辈学习到一些东西。就连最大的天才，如果想单凭他所特有的内在自我去对付一切，他也决不会有多大成就。2.6IDEA开发WordCount程序Spark-Shell通常在测试和验证我们的程序时使用的较多，然而在生产环境中,通常会在IDEA
Spark Shuffle模块详解晓之以理的喵~~ 大数据 Hadoop Spark spark 大数据 hadoop
Shuffle，具有某种共同特征的一类数据需要最终汇聚（aggregate）到一个计算节点上进行计算。这些数据分布在各个存储节点上并且由不同节点的计算单元处理。以最简单的WordCount为例，其中数据保存在Node1、Node2和Node3；经过处理后，这些数据最终会汇聚到Nodea、Nodeb处理。这个数据重新打乱然后汇聚到不同节点的过程就是Shuffle。但是实际上，Shuffle过程可能会
6.0 MapReduce 服务使用教程二当家的素材网 Hadoop 教程 mapreduce 大数据
在学习了之前的MapReduce概念之后，我们应该已经知道什么是Map和Reduce，并了解了他们的工作方式。本章将学习如何使用MapReduce。WordCountWordCount就是"词语统计"，这是MapReduce工作程序中最经典的一种。它的主要任务是对一个文本文件中的词语作归纳统计，统计出每个出现过的词语一共出现的次数。Hadoop中包含了许多经典的MapReduce示例程序，其中就包
Spark Streaming实战：窗口操作，每10秒，把过去30秒的数据取出来(读取端口号1235中的数据) Movle
1.需求：窗口操作，每10秒，把过去30秒的数据取出来窗口长度：30秒滑动距离：10秒2.代码：(1)pom.xmlorg.apache.sparkspark-core_2.112.1.0org.apache.sparkspark-sql_2.112.1.0org.apache.sparkspark-streaming_2.112.1.0(2)MyNetWorkWordCountByWindow.
spark WordCount lehuai
SparkWC.scalapackageday06importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectSparkWC{defmain(args:Array[String]):Unit={//配置信息类valconf:SparkConf=newSparkConf().setAppName
大数据组件笔记 -- Spark 入门 L小Ray想有腮 BigData
文章目录一、简介二、Spark运行模式2.1本地模式2.2集群角色2.3Standalone模式2.4Yarn模式2.5总结三、WordCount开发案例实操一、简介Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark历史Spark虽然有自己的资源调度框架，但实际中常用Yarn来进行统一资源管理。Spark框架Spark内置模块SparkCore：实现了Spark的基本功能
Flink的dataStream的状态保存和恢复我还不够强
我们前面写的wordcount的例子，没有包含状态管理。如果一个task在处理过程中挂掉了，那么它在内存中的状态都会丢失，所有的数据都需要重新计算。从容错和消息处理的语义上(atleastonce,exactlyonce)，Flink引入了state和checkpoint。首先区分一下两个概念state一般指一个具体的task/operator的状态【state数据默认保存在java的堆内存中】而
Flink 1.18.1的基本使用 You Only Live Once_2 快速响应 flink 大数据
系统示例应用/usr/local/flink-1.18.1/bin/flinkrun/usr/local/flies/streaming/SocketWindowWordCount.jar--port9010nc-l9010asdasdsdfsfsdfsdfsdagdsdf单次统计示例工程cdC:\Dev\IdeaProjectsmvnarchetype:generate-DarchetypeGr
Hadoop3.x基础（3）- MapReduce 魅美大数据基础 hadoop
来源:B站尚硅谷目录MapReduce概述MapReduce定义MapReduce优缺点优点缺点MapReduce核心思想MapReduce进程常用数据序列化类型MapReduce编程规范WordCount案例实操本地测试提交到集群测试Hadoop序列化序列化概述自定义bean对象实现序列化接口（Writable）序列化案例实操MapReduce框架原理InputFormat数据输入切片与MapT
大数据 - Spark系列《一》- 从Hadoop到Spark：大数据计算引擎的演进王哪跑nn spark 大数据 spark hadoop
目录1.1Hadoop回顾1.2spark简介1.3Spark特性1.通用性2.简洁灵活3.多语言1.4SparkCore编程体验1.4.1spark开发工程搭建1.开发语言选择：2.依赖管理工具：1.4.2Spark编程流程1.获取sparkcontext对象2.加载数据3.处理转换数据4.输出结果,释放资源1.4.3简单代码实现-wordCount在大数据领域，Hadoop一直是一个重要的框架
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

[hadoop]命令行编译并运行hadoop例子WordCount

你可能感兴趣的:(wordcount)