大数据实训平台

第一章 平台介绍
1.1 架构介绍
大数据竞赛平台采用私有云系统建设,基于私有云环境架构建设大数据竞赛系统,结合当今大数据形势、主流竞赛设备、技术在数据挖掘与分析等方向为学校提供全面的竞赛环境。通过动手实际操作,强化学生对大数据技术知识的理解,提高集群部署与数据分析操作能力。整个平台的运行依托于云计算系统,将云计算系统的计算资源与各种教学资源整合在一起,向用户提供各种服务。具体说明如下:
底层IaaS层为整合各种IT资源,包括云资源计算设备、管理控制设备、资源调度设备资源。统一的云系统将这些设备资源进行虚拟化管理,向上提供基础服务,包括分布式数据存储、计算服务、负载管理和备份等。这一层使用虚拟化技术,将分布式计算资源进行整合,为实验室的运行提供统一管理和使用。
中间的PaaS层为云系统业务调度中心,包括统一身份认证管理、各种管理功能、竞赛考题资源管理、统一业务访问控制和数据监控、采集和分析功能等。这一层将各种竞赛环境需要的开发支持与管理工具、实验教学管理工具等有机地整合在一起,对上一层资源工具打包整合进行按需分配。
SaaS层包含了向最终用户提供的各种服务以及各种资源调用。方式为通过竞赛系统,将竞赛考题和所需要的实验环境进行整合为用户进行服务。调用资源的终端可以为PC、笔记本电脑、各种云终端和平板电脑。云系统的优点是可以通过网络进行访问,可在教室、办公室、图书馆、寝室访问使用,可有效的提高系统使用率。

1.2 竞赛平台
该模块为此平台的核心内容,参赛选手在此进行大数据竞赛。当开启比赛模式后,参赛选手统一在此页面下进行登录,登录后,竞赛平台页面包含以下主要信息:虚拟机信息、通知栏、当前成绩、比赛题目、排行榜、比赛信息等。

登录界面

竞赛系统
1.3 虚拟机信息
虚拟机信息功能是为选手提供操作机连接服务,为保证比赛的公平性与安全性,每一支参赛队伍的账号密码都随机生成。因此,选手需要根据虚拟机的信息进行登录访问。与此同时为方便选手直观的看到操作及状态,根据颜色来区分服务是否正常,当虚拟机出现异常情况,可以快速重置恢复到正常状态继续比赛。
1.4 比赛信息
比赛信息展示出当前账号的基本信息情况,一是让参赛选手了解比赛的注意事项,而是让选手验证身份是否正确。
1.4.1 比赛题目
比赛题目模块包含了整个比赛的考核内容,考核题按照技术层次进行划分,以步骤的的形式展示。选手完成每一步时点击“立即验证”功能按钮,系统自动监测出完成用时与完成情况。当子考题全部验证通过后,即可进行下一步考题。选手可以按照题目进行操作,当遇到串行题目时,选手必须按照赛题设计顺序进行操作,当遇到并行题目时,选手可以自行选择答题顺序,答题顺序不限。
1.4.2 当前成绩
实时统计当前选手的比赛排名、比赛得分及当前步骤用时。让选手了解自己在整场比赛中的信息。
1.4.3 通知栏
实时监控全部竞赛选手的比赛状态,方便选手快速看到大赛整体的得分趋势。
1.4.4 排行榜
系统自动统计每一支队伍的总体得分情况,以名次从高到低的顺序展示。
1.5 管理平台
大数据竞赛平台的建设采用B/S架构,用户通过浏览器进行访问,且支持内网与外网同时访问。平台的管理端是针对前端系统设置的对应的管理功能,便于竞赛过程中对前端系统的自定义管理。后台管理包括4项功能,包括:用户角色、资源管理、比赛管理、控制台功能。
1.5.1 用户角色管理
为满足教师方便的管理班级学院,平台提供用户组织管理功能。其中用户管理显示平台用户的信息列表,管理端可对平台用户信息进行编辑与删除,根据信息进行用户模糊筛选,便于管理平台用户;角色管理显示平台现有角色,用户可编辑新的角色并赋予角色权限;组织结构管理显示平台现有的组织机构,管理端可以也可根据层级分步添加组织、学院、系别、专业、班级,对同级别下的机构进行排序。

用户管理
1.5.2 控制台
控制台功能是帮助管理人员了解竞赛平台的整体使用状况,用户分布功能是将平台的人员按照班级进行统计,活跃用户能够统计学习时长最多的选手,还可以通过折线图监控设备的使用情况,最后为了方便管理,可以通过此功能远程关闭服务器。

控制台
1.5.3 资源监控中心
资源监控中心是为用户提供虚拟化管理功能,通过镜像管理功能可以实现对比赛环境的自定义,自定义内容包括操作系统类型、内置各类软件服务等信息;虚拟化资源管理功能可以查看比赛队伍的虚拟机状态;智能考核管理可以根据比赛的每个知识点定制化检测方式,使系统能够根据智能考核设定的检测方式,自动判断选手是否答对了该知识点,典型检测内容包括文件是否存在、文件内容是否正确、服务状态是否正常等内容。

资源监控

1.5.4 比赛管理
 队伍信息管理
管理员在此功能下创建比赛队伍,创建成功以列表的形式展示。
 监控中心
系统内置检测工具,对虚拟机的各项服务进行检测,当存在服务异常时,检测工具发出报警机制,监控中心以可视化的形式展示出异常状态,管理员可以快速处理进行重置,保证虚拟机的正常使用,在创建比赛时可以设置该监控服务的开启与关闭。
 得分规则
按照比赛需求系统实现了按照时间顺序扣分和按照名次顺序扣分,按照时间顺序扣分的机制是每隔定义时间扣除分数的整体百分比,分数低于最低阀值时停止扣分,保证比赛成绩的合理性;按照名次扣分的机制是通过该题的提交正确次序先后进行扣分,递减分数的整体百分比,分数低于最低阀值时停止扣分,保证比赛成绩的合理性;
 比赛环境
在新建比赛时,比赛环境功能需要管理员来设置,对于本次比赛所用到的虚拟机直接映射到资源管理中心下的镜像管理,选择对应的环境,同时可以对虚拟机的配置进行调整,确保选手操作体验效果良好。像展示环境只提供参考信息可以设置用户无权限操作,避免破坏比赛提示信息。
 得分统计
为了方便统一查看全部队伍的得分情况,科技研发得分排行耪功能,与之前的得分榜不同的是,该功能能够展示全部队伍的每一步得分情况,榜单纵向为各参赛队伍,横向是全部考核体系的步骤展示,分数根据具体得分情况实时变化。

排行榜
1.6 技术优势
1.6.1 AI智能分析
科技自主研发智能考核功能,以“AI+大数据”技术实现系统自动检阅机制,管理员在后台的智能考核模板下编写检测脚本,选手提交检测后,系统自动检测操作结果与脚本的一致性,判定结果。优势在于脚本的灵活性,可以根据不同的考核内容去设计对应的检测代码,其次节省的手动批阅的时间与精力,最后就是结果的实时展示,完美的遵循竞赛“公平、公正、公开”原则。
1.6.2 多维数据展示
根据历届的竞赛进行分析观众与裁判只能等待最终的比赛结果,在比赛过程中耗费了大家的时间,而且只通过一个分数很难判断出学生的真实水平与知识漏洞。
因此,为解决广大用户的困扰,科技大数据竞赛平台设计了选手竞赛过程以可视化的形式展现,呈现形式为金字塔或者星球。座金字塔每一层代表着一个步骤,当选手完成一个步骤后,以动画的形式搭建一层,星球展示页面下的每一个星球代表一个实验步骤,当选手完成一个步骤后,宇航员会前往下一颗星球。同时,当选手首次完成一个步骤后,会有语音播报效果通知大家,后续完成的会有几秒钟的动画展示完成效果,效果一直常驻。界面两侧展示出步骤完成度、通知栏、得分排行榜。步骤完成度会将完成步骤的队伍展示出来,每隔10秒刷新一次。

金字塔

星球展示
1.6.3 便捷式操作平台
为了保证选手不受竞赛操作设备的影响,科技提供了统一的操作环境,利用Web-Console技术将虚拟环境集成在操作页面内,选手可以直接在竞赛平台下答题,使得必备的工具与虚拟机切换等问题得到完全解决,从根本上解决的竞赛自带设备的问题。
操作台
1.7 赛题设计
新增赛题功能的设计理念是灵活、便捷、科技。题纲层次分为三级,选手在前台可以直观地了解竞赛整体考核内容。除此之外,考核条件支持串行添加与并行添加。
像大数据分析工具Hive是需要搭建在底层的Hdfs系统上,所以这样的考核条件是有先后顺序性的,先搭建Hdfs分布式文件系统,再去构建数据仓库,类似于这样的考核条件我们选择串行。
像大数据分析工具Hive与数据库Hbase都是安装在Hdfs系统上,且彼此之间的安装互不影响,这种情况选手无论先安装任何一个组件都是不影响结果的,类似于这样的考核条件我们需要选择并行。

1.8 赛题样例
1.8.1 竞赛题库
针对于大数据竞赛平台的样题,目前具有4套完整的真实题库:
序号 竞赛名称 竞赛核心 竞赛说明
1 2018年第一届全国大学生大数据技能竞赛(高职组) 电商运营分析 本次竞赛数据集为某购物平台在“双11”之前和之后的过去6个月内的匿名用户的购物日志以及指示它们是否是重复购买者的标签信息。通过大数据能力驱动电子商务运营的精细化,更好的提升运营效果,提升业绩。
2 2019年第二届全国大学生大数据技能竞赛(高职组) 商品销量分析 本次竞赛数据集为某购物平台的商品数据、访问量数据、用户信息数据等。通过大数据能力分析出热门商品与流失客户群体,从而进行针对性服务活动提升销量。
3 2019年全国大学生大数据技能竞赛(本科组) 1.共享单车数据分析
2.人口收入数据统计 1.本数据为某年某段时间某地区的共享单车数据集。通过对共享单车的骑行规律,用户群体,单日活月用户等数据的分析,给出运营思路和方法上的建议,对共享单车的发展有一个整体的把握。
2.本数据为某人口普查公开数据数据库抽取而来,该数据集类变量为年收入是否超过50k$,属性变量包含年龄、工作类型、教育程度等属性,统计对各因素对收入的影响。
4 2019年首届“智警杯”全国公安大学生大数据技能竞赛 电信网络诈骗分析 其预测分析的数据基础来源既有机关企业的宏观数据,亦有各当事人的微观数据。基于大数据的模型与算法预测电信网络诈骗,能够积极促进研发预测警务系统和警务软件,促进公安数据信息系统从查询统计功能向预测功能转变,是实现预测警务在打击跨境电信诈骗犯罪中应用的基础技术建设。

1.8.2 样题案例
电商数据分析项目:
 任务一:大数据环境搭建
竞赛平台提供Linux环境,将Hadoop、Java、Hive、Zookeeper、Mysql、Hbase等工具的压缩包放在指定目录下。选手首先需要对基础环境进行配置;之后按提示在找到工具压缩包后可进行解压,并将解压后的工具进行配置文件的修改;配置文件修改完成后按大数据集群启动顺序逐次启动。
评判规则:在选手完成任务以后,系统自动检测Hadoop、Zookeeper、Hbase、Hive进程以及通过Web端口检测进行评判。
评判方法:选手针对每步,点击答题平台的检测按钮,答题平台自动检测相关结果,检查每步结果。
 任务二:构建数据仓库、进行数据采集
本数据为国内某网站2018年4 月15日部分访问数据,包含了3个字段,共1000个样本,数据文件及数据格式说明保存于比赛系统虚拟机中。任务二要求参赛者开启Hive服务,构建数据表,表的结构按照数据类型进行创建,将数据集完整导入Hadoop系统中,并可使用Hive访问数据。
评判规则:在选手完成任务以后,系统自动检测Hive中数据存放路径、数据大小、数据类型
评判方法:选手针对每步,点击答题平台的检测按钮,答题平台自动检测相关结果,检查每步结果。
 任务三:数据分析
本任务要求参赛者对本数据集进行分析及解读,通过分析了解数据分布,为后续结果进行展示。以下分析内容供参考:
实现统计pv:页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1次。
实现统计uv:一天之内,访问网站的不同独立 IP个数加和。其中同一IP无论访问了几个页面,独立IP 数均为1。因此,这里我们只需要统计日志中处理的独立IP数即可。
流失用户:浏览了网站就不在浏览的用户我们可以称之为流失用户,这里,我们可以通过用户的IP进行分组,如果分组后的记录数只有一条,那么即为流失用户。当然这个定义是我们临时取得,网站分析的时候,对流失用户定义更复杂。
新增用户:通过分析可以知道,该网站的用户注册页面的path为register,所以当用户点击注册时请求的是register?的即可。
评判规则:在选手完成任务以后,系统自动检测数据表信息,包括:表存在情况、表结构、表数据等相关内容
评判方法:选手针对每步,点击答题平台的检测按钮,答题平台自动检测相关结果,检查每步结果。
 任务四:分析结果展示
根据分析的数据结果,得到按要求规定的数据表。然后就可以查看每个表格的数据情况,比如我们要看uv,直接从“UV数据表”获取,想看新增用户,就可以从“新增数据表”获取。
评判规则:在选手完成任务以后,系统自动检测分析结果与实际结果是否相一致。检测语句正确率及逻辑性。
评判方法:选手针对每步,点击答题平台的检测按钮,答题平台自动检测相关结果,检查每步结果。

你可能感兴趣的:(高校,hadoop)