大数据技能大赛题目(高职组,模块A和B)

模块A:Hadoop平台及组件的部署管理(15分)

环境说明:

编号 主机名 类型 用户 密码
1 master 主节点 root passwd
2 slave1 从节点 root passwd
3 slave2 从节点 root passwd

补充说明
主节点MySQL数据库用户名/密码:root/Password123$
相关软件安装包在/chinaskills目录下
所有模块中应用命令必须采用绝对路径


任务一:Hadoop HA部署管理

本环节需要使用root用户完成相关配置,安装Hadoop需要配置前置环境,具体部署要求如下:
1、将/chinaskills下的JDK包解压到/usr/local/src路径下,命令复制并粘贴至对应报告中;
2、设置JDK环境变量,并使环境变量只对当前root用户生效;将环境变量配置内容复制并粘贴至对应报告中;
3、从master复制JDK环境变量文件到slave1、slave2节点,命令和结果复制并粘贴至对应报告中;
4、配置SSH密钥登录,实现从master登录到slave1,命令和结果复制并粘贴至对应报告中;
5、Zookeeper配置完毕后,在slave2节点启动Zookeeper,查看Zookeeper运行状态,将命令和结果复制并粘贴至对应报告中;
6、Zookeeper、Hadoop HA配置完毕后,在master节点启动Hadoop,并查看服务进程状态,并将结果复制并粘贴至对应报告中;
7、Hadoop HA配置完毕后,在slave1节点查看服务进程,将命令及结果复制并粘贴至对应报告中。

任务二:Hive部署管理

本环节需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,具体部署要求如下:
1、将指定路径下的Hive安装包解压到(/usr/local/src)下,使用绝对路径,将命令复制并粘贴至对应报告中;
2、把解压后的apache-hive-1.1.0-bin文件夹更名为hive;进入hive文件夹,并将查看命令及结果复制并粘贴至对应报告中;
3、设置Hive环境变量,并使环境变量只对当前root用户生效;并将环境变量配置内容复制并粘贴至对应报告中;
4、将Hive安装目录里hive-default.xml.template文件更名为hive-site.xml;并将更改命令复制并粘贴至对应报告中;
5、通过VI编辑器配置hive-site.xml文件,将MySQL数据库作为Hive元数据库。将配置文件“Hive元存储”相关内容复制并粘贴至对应报告中;
6、初始化Hive元数据,将MySQL数据库JDBC驱动拷贝到Hive安装目录的lib文件夹下;并通过schematool命令执行初始化,将初始化结果复制粘贴至对应报告中;
7、启动Hive并保存命令输出结果,将结果输出复制粘贴至对应报告中。

任务三:Sqoop组件部署管理

本环节需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,具体部署要求如下:
1、解压/chinaskills路径下的Sqoop安装包到/usr/local/src路径下,并使用相关命令,修改解压后文件夹名为sqoop,进入sqoop文件夹,并将查看内容复制粘贴至对应报告中;
2、修改Sqoop环境变量,并使环境变量只对当前root用户生效,并将变量内容复制粘贴至对应报告中;
3、修改并配置sqoop-env.sh文件,并将修改内容复制粘贴至对应报告中;
4、测试Sqoop连接MySQL数据库是否成功,结果复制粘贴至对应报告中。


模块B:数据采集与处理(20分)

任务说明
1、查看餐饮外送统计平台网站源码结构。
1)打开网站,在网页中右键点击检查,或者F12快捷键,查看源码页面;
2)检查网站:浏览网站源码查看所需内容。
2、从餐饮外送统计平台中采集需要数据,按照要求使用Python语言编写代码工程,获取指定数据项,并对结果数据集进行必要的数据处理。请将符合任务要求的结果复制粘贴至对应报告中。
具体步骤如下:
1)创建工程工程项目:C:\food_delivery
2)构建采集请求
3)按要求定义相关字段
4)获取有效数据
5)将获取到的数据保存到指定位置
6)对数据集进行基础的数据处理
至此已从餐饮外送统计平台中获取所需数据,并完成了必要的基础的数据处理。
3、自行创建Scrapy工程项目food_delivery,路径为C:\ food_delivery按照任务要求从餐饮外送统计平台中获取数据。提取“商户数据”页面相关字段(包括平台餐厅ID、餐厅名称、城市等全部有效数据项),保存至文件restaurant_data.json;再提取“配送平台灰测维度数据”页面相关数据(包括餐厅名称、城市、营业时长等全部字段)保存至文件grey_test.json。
4、每条数据记录请以单独一行保存,信息存储格式为key:value。文件保存路径为:C:\output。
示例:
{" rest_id “: “", " rest_name ": "”,……},
{” rest_id ": “", " rest_name ": "”,……},
……
5、任务中要求将“以下内容及答案完整复制粘贴至对应报告中。”,粘贴到对应报告中的内容示例如下:
配送范围审核相关数据页数为:100
灰度数据对比相关数据页数为:100

任务一:爬取网页信息

自行创建Scrapy工程编写爬虫代码,爬取“配送范围审核-人员预算”与“灰度数据对比”页面相关数据,通过爬虫代码分页爬取,以合理的程序逻辑判断相关数据包含的页数并将以下内容及答案完整复制粘贴至对应报告中。
示例格式:
配送范围审核相关数据页数为:
灰度数据对比相关数据页数为:

任务二:爬取指定文件

运行代码,爬取网页数据至指定文件。查看文件并填写采集到的记录行数,并将答案复制粘贴至对应报告中。
示例格式:
range_audited.json行数为:
grey_value.json行数为:

任务三:属性判断

审查爬取的range_audited数据,判断属性“申请时间”、“创建时间”与“created_at”、“updated_at”是否为重复属性。如果为重复属性,则删除“申请时间”、“创建时间”;如果不是重复属性,请输出数据集中数值不相同的记录条数。并将答案复制粘贴至对应报告中。
(1)如果仅考虑年、月、日数据,忽略时、分、秒信息,“申请时间”、“创建时间”与“created_at”、“updated_at”是否为重复属性(请填写“是”/“否”):
(2)如果不是重复属性,不同的记录条数为(如果为重复属性,请填写“/”)。

任务四:数据探索

针对爬取的grey_value数据,利用DataFrame.describe方法探索数据基本情况,将输出结果复制粘贴至对应报告中。

任务五:缺失值统计

针对缺失值较多的属性“推单数-8日”,“有效完成率-8日”,“超时率-8日”,请分别计算下列任务,并将正确答案复制粘贴至对应报告中。
(1)属性“推单数-8日”空值记录条数为: ,中位数为: 。
(2)属性“有效完成率-8日”空值记录条数为: ,平均值为: 。
(3)属性“超时率-8日”空值记录条数为: ,平均值为: 。

任务六:缺失值处理

请根据任务5中计算的结果,对数据集中存在空值的字段进行填充。查看填充后的数据集前5条记录,将查看结果复制粘贴至对应报告中。

你可能感兴趣的:(大数据技能大赛题目,大数据,爬虫,hadoop,hive,sqoop)