RDD编程初级实践(Spark编程)

实现目录

  • 一、pyspark交互式编程
    • 1.该系总共有多少学生
    • 2.该系共开设了多少门课程
    • 3.Tom同学的总成绩平均分是多少
    • 4.求每名同学的选修的课程门数
    • 5.该系DataBase课程共有多少人选修
    • 6.各门课程的平均分是多少
    • 7.使用累加器计算共有多少人选了DataBase这门课
  • 二、编写独立应用程序实现数据去重
    • 1.导入数据及代码
    • 2.运行结果
  • 三、编写独立应用程序实现求平均值问题
    • 1.导入数据及代码
    • 2.运行结果

一、pyspark交互式编程

首先我们需要先提供某大学计算机系的成绩,数据格式如下(仅供参考)

Aaron,OperatingSystem,100
Aaron,Python,50
Aaron,ComputerNetwork,30
Aaron,Software,94
Abbott,DataBase,18
Abbott,Python,82
Abbott,ComputerNetwork,76
Abel,Algorithm,30
Abel,DataStructure,38
Abel,OperatingSystem,38
而后根据接下来的具体问题来分析实验操作,我们首先进入pyspark
-VirtualBox:~/桌面$ pyspark

1.该系总共有多少学生

在这里插入图片描述

2.该系共开设了多少门课程

在这里插入图片描述

3.Tom同学的总成绩平均分是多少

RDD编程初级实践(Spark编程)_第1张图片

4.求每名同学的选修的课程门数

RDD编程初级实践(Spark编程)_第2张图片

5.该系DataBase课程共有多少人选修

在这里插入图片描述

6.各门课程的平均分是多少

RDD编程初级实践(Spark编程)_第3张图片

7.使用累加器计算共有多少人选了DataBase这门课

RDD编程初级实践(Spark编程)_第4张图片

二、编写独立应用程序实现数据去重

1.导入数据及代码

在目录为/usr/local/spark/sparkdata下,创建A.txt以及B.txt文件内容大致如下:

20200101	x
20200102	y
20200103	x
20200104	y
20200105	z
20200106	z
20200107	x
20200108	y
20200109	x
20200110	y

在命令行中,在同一目录下新建一个remdup.py且内容如下:
RDD编程初级实践(Spark编程)_第5张图片

2.运行结果

利用Phthon3编译器运行程序remdup.py

-VirtualBox:/usr/local/spark/sparkdata$ python3 remdup.py

而后查看result1下的文件
RDD编程初级实践(Spark编程)_第6张图片

三、编写独立应用程序实现求平均值问题

1.导入数据及代码

在目录为/usr/local/spark/sparkdata下,创建三个关于学生各科成绩的txt文件(按科目分类),结构如下(以python成绩为例):
RDD编程初级实践(Spark编程)_第7张图片

在命令行中,同一目录下新建一个avgscore.py.py且内容如下:
RDD编程初级实践(Spark编程)_第8张图片

2.运行结果

利用Phthon3编译器运行程序remdup.py
在这里插入图片描述

而后查看result下的文件
RDD编程初级实践(Spark编程)_第9张图片

你可能感兴趣的:(大数据,python)