大数据处理学习笔记2.4

一、词频统计准备工作
单词计数是学习分布式计算的入门程序,有很多种实现方式,例如MapReduce;使用Spark提供的RDD算子可以更加轻松地实现单词计数。
在IntelliJ IDEA中新建Maven管理的Spark项目,并在该项目中使用Scala语言编写Spark的WordCount程序,最后将项目打包提交到Spark集群(Standalone模式)中运行。
(一)创建本地单词文件
在D:\spark_work\wordcount\input里创建单词文件words.txt
(二)启动集群的HDFS与Spark
启动HDFS服务
大数据处理学习笔记2.4_第1张图片

 

  • 启动Spark集群 

 

二)在HDFS上准备单词文件

  • 在虚拟机上创建单词文件 - words.txt

大数据处理学习笔记2.4_第2张图片

 

 

  • 将单词文件上传到HDFS指定目录/wordcount/input 

 

二、本地模式执行Spark程序

(一)新建Maven项目

  • 新建Maven项目,基于JDK11

大数据处理学习笔记2.4_第3张图片

 

 

  • 设置项目信息(项目名称、保存位置、组编号以及产品编号)

大数据处理学习笔记2.4_第4张图片

 

 

  • 单击【Finish】按钮

大数据处理学习笔记2.4_第5张图片

  • java目录改成scala目录

大数据处理学习笔记2.4_第6张图片

二)添加相关依赖和构建插件
在pom.xml文件里添加依赖与Maven构建插件


由于源程序目录改成了scala,在元素里必须添加子元素,指定目录src/main/scala
(三)创建日志属性文件
在resources目录里创建日志属性文件 - log4j.properties

大数据处理学习笔记2.4_第7张图片

 

四)添加Scala SDK

  • 安装配置Scala 2.12.15

  • 在项目结构窗口的Global Libraries里添加Scala 2.12.15

大数据处理学习笔记2.4_第8张图片

 

 

五)创建词频统计单例对象

  • 创建net.huawei.rdd包,然后在包里创建WordCount单例对象

 大数据处理学习笔记2.4_第9张图片

 

六)本地运行程序,查看结果

  • 首先看控制台输出结果

 大数据处理学习笔记2.4_第10张图片

 

后查看HDFS上的结果文件内容

大数据处理学习笔记2.4_第11张图片
 显示结果文件内容

 

大数据处理学习笔记2.4_第12张图片
 有两个结果文件,我们可以分别查看其内容

 

大数据处理学习笔记2.4_第13张图片
再次运行程序,会报错说输出目录已经存在 

 

大数据处理学习笔记2.4_第14张图片
-执行命令: hdfs dfs -rm -r /wordcount/output,删除输出目录

 

大数据处理学习笔记2.4_第15张图片
 再次运行,查看结果

 

大数据处理学习笔记2.4_第16张图片

 

 

你可能感兴趣的:(学习,笔记,大数据)