2021年广东省专业技能大赛——大数据技术与应用 真题题目及解析(1)

2021年广东省专业技能大赛——大数据技术与应用 真题题目及解析

文章适合用户了解大数据技能大赛的考试提纲和解析步骤。文章在编写过程中难免有疏漏和错误,欢迎大佬指出文章的不足之处;更多内容请点进 Lino_White 查看。
未来的世界充满着各式各样的数据,我们该怎么好好利用起来呢?开启正文吧~~~

提纲

比赛题目分为5点进行,3人一组,可以根据组员情况进行分配任务。
常见分组情况为任务一二一人、任务三一人、任务四五一人。

1. 组件部署
2. 数据爬虫
3. 数据清洗及分析
4. 数据可视化
5. 编写报告

.
.
.

比赛考点

任务一 组件部署

主要考察Hadoop HA高可用,Hive两点。

任务二 数据爬虫

主要考察scrapy框架使用,以及selenium模拟操作。

任务三 数据清洗及分析

主要考察spark core的运用。
注意:spark 截止目前未涉及DataFrame、DataSet、Streaming

任务四 数据可视化

主要考察falsk框架,jinja语法。

任务五 编写报告

主要考察你的文学底蕴。
.
.
.

真题技术点解析

比赛题目均用绝对路径

  • 任务一 组件部署
    1.将master节点指定目录下的JDK包解压到/usr/local/src,将命令复制粘贴至报告。
    2.设置JDK环境变量,并使环境变量只对当前用户生效,将配置内容复制粘贴至报告。
    3.配置SSH免密钥登陆,实现master到slave1免密登录,将命令和结果复制粘贴至报告。
    4.配置Zookeeper,在Hadoop HA下启动并查看进程状态,将命令和结果复制粘贴至报告。
    4.查看进程,将命令和结果复制粘贴至报告。
  • 任务二 数据爬虫
    1-4.填充函数,填充代码,将完整函数复制粘贴至报告
    5.对数据进行简单的重复值统计/缺失值统计,将代码和结果复制粘贴至报告。
  • 任务三 数据清洗及分析(25分)
    1.1 数据清洗
    (1)去除首行,对字段数异常的进行过滤(字段值数量正常为61),对两个字段中时间字段进行格式,如字段中存在(2020/1/10 22:10:12、2020-1-2 14:05:55),如果字段未空则不进行相关处理,转换成统计格式:yyyy-MM-dd,并分别统计修改的个数是多少,结果输出如下:

******************* 创建时间字段 修改144条数异常值**************************
******************* 签订时间字段 修改167条数异常值**************************
******************* 剩余条数:18933**************************

(2)将其结果打包输出至/hotelsparktask1,并且运行,将命令和结果复制粘贴至报告。
(3)查看/hotelsparktask1中的文件,输出前10行数据,将命令和结果复制粘贴至报告。
1.2 数据清洗
(1)利用/hotelsparktask1中的数据对创建时间字段和签订时间字段同时不为空的行值,统计求出相差中位数,相差中位数单位为天,输出如下格式:

******************* 相差中位数的天数为 114**************************

(2)对签订时间字段为空的,利用相差中位数和创建时间字段相关公式,填充正确的签订时间,(公式:签订时间=创建时间+相差中位数)并且输出如下格式:

******************* 填充相差中位数:1134条**************************

(3)将结果输出至/hotelsparktask2下,并利用管道命令查看前10行数据,将命令和结果复制粘贴值报告

2.1 数据分析
.
.

  • 任务四 数据可视化
    .
    .
    .
  • 任务五 编写报告
    .
    .
    .
更多内容请查看下一章:《2021年广东省专业技能大赛——大数据技术与应用 真题题目及解析(2)》

这里先给出部分题目,剩余题目、答案和解析步骤,请具体请查看下一章

你可能感兴趣的:(竞赛知识点,文章,大数据,大数据竞赛,大数据竞赛真题,大数据竞赛真题及答案)