实验4 RDD编程初级实践

一、实验目的

(1)熟悉Spark的RDD基本操作及键值对操作;

(2)熟悉使用RDD编程解决实际具体问题的方法。

二、实验平台

操作系统:Ubuntu16.04

Spark版本:2.1.0

三、实验内容和要求

实验内容与完成情况:

1.spark-shell交互式编程

(1)该系总共有多少学生;

实验4 RDD编程初级实践_第1张图片(2)该系共开设来多少门课程

实验4 RDD编程初级实践_第2张图片

(3)Tom同学的总成绩平均分是多少

实验4 RDD编程初级实践_第3张图片

(4)求每名同学的选修的课程门数;

实验4 RDD编程初级实践_第4张图片

具体如下

实验4 RDD编程初级实践_第5张图片(5)该系DataBase课程共有多少人选修;

实验4 RDD编程初级实践_第6张图片

 (6)各门课程的平均分是多少;

实验4 RDD编程初级实践_第7张图片

(7)使用累加器计算共有多少人选了DataBase这门课。

实验4 RDD编程初级实践_第8张图片

2.编写独立应用程序实现数据去重

方法一:源码设置直接输出显示

实验4 RDD编程初级实践_第9张图片

 

实验4 RDD编程初级实践_第10张图片

实验4 RDD编程初级实践_第11张图片

方法二:源码设置输出结果文件的路径

实验4 RDD编程初级实践_第12张图片

 实验4 RDD编程初级实践_第13张图片

 3.编写独立应用程序实现求平均值问题

方法一:源码设置直接输出显示

实验4 RDD编程初级实践_第14张图片

 

实验4 RDD编程初级实践_第15张图片

实验4 RDD编程初级实践_第16张图片

方法二:源码设置输出结果文件的路径

实验4 RDD编程初级实践_第17张图片

实验4 RDD编程初级实践_第18张图片

出现的问题:

(1)Data01.txt文件不存在

(2)无结果result文件

解决方案(列出遇到的问题和解决办法,列出没有解决的问题):

(1)Data01.txt文件需手动上传到/usr/local/spark/sparksqldata路径下,其中sparksqldata文件夹需自己提前创建

(2)需有输入数据才会有result,需将文件存放到data文件夹下

但是将文件放在data文件夹下后运行还是没有result,因此修改了代码文件直接输出显示了结果,代码如下

实验4 RDD编程初级实践_第19张图片

实验4 RDD编程初级实践_第20张图片

后听课发现,仅在saveAsTestFile()中写result的话采用的是默认路径,是没有找到正确位置才没发现result文件,因此指定了输出结果的路径为usr/local/spark/sparksqldata/result1和usr/local/spark/sparksqldata/result2方便查看,成功找到输出文件,如下图

实验4 RDD编程初级实践_第21张图片

实验4 RDD编程初级实践_第22张图片

 

你可能感兴趣的:(hadoop,spark,hdfs)