首先我们需要先提供某大学计算机系的成绩,数据格式如下(仅供参考)
Aaron,OperatingSystem,100
Aaron,Python,50
Aaron,ComputerNetwork,30
Aaron,Software,94
Abbott,DataBase,18
Abbott,Python,82
Abbott,ComputerNetwork,76
Abel,Algorithm,30
Abel,DataStructure,38
Abel,OperatingSystem,38
而后根据接下来的具体问题来分析实验操作,我们首先进入pyspark
-VirtualBox:~/桌面$ pyspark
在目录为/usr/local/spark/sparkdata下,创建A.txt以及B.txt文件内容大致如下:
20200101 x
20200102 y
20200103 x
20200104 y
20200105 z
20200106 z
20200107 x
20200108 y
20200109 x
20200110 y
在命令行中,在同一目录下新建一个remdup.py且内容如下:
利用Phthon3编译器运行程序remdup.py
-VirtualBox:/usr/local/spark/sparkdata$ python3 remdup.py
在目录为/usr/local/spark/sparkdata下,创建三个关于学生各科成绩的txt文件(按科目分类),结构如下(以python成绩为例):
在命令行中,同一目录下新建一个avgscore.py.py且内容如下: