Hadoop之词频统计WordCount

参考文章:Ubuntu16.04安装Hadoop单机和伪分布式环境超详细

 

1. 启动HDFS

start-all.sh

2. 查看HDFS下包含的文件目录

hadoop dfs -ls /

由于是第一次运行,没有文件

3. 在HDFS中创建一个文件目录input,将/usr/local/hadoop/README.txt上传至input中,此时再用ls查看就发现多了个input目录

hdfs dfs -mkdir /input
hadoop fs -put /usr/local/hadoop/README.txt /input

再查看HDFS下的input文件夹的内容

hadoop dfs -ls /input

 可以看到,此时已经有了我们上传的README.txt文件

Hadoop之词频统计WordCount_第1张图片

4. 执行命令运行wordcount 并将结果输出到output中   注意将版本号修改为自己安装的版本

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /input /output

统计成功:

Hadoop之词频统计WordCount_第2张图片

5. 查看output文件夹内容

hadoop dfs -ls /output

Hadoop之词频统计WordCount_第3张图片

其中,_SUCCESS是成功标志文件,可以看到大小为0,里面没有内容;part-r-00000文件存储统计结果

查看part-r-00000文件内容:

hadoop fs -cat /output/part-r-00000

即为查询结果:
Hadoop之词频统计WordCount_第4张图片

你可能感兴趣的:(hadoop,大数据)