大数据竞赛解决方案

第一章 建设背景
1.1 政策分析
 2017年1月

工业和信息化部正式发布了《大数据产业发展规划(2016-2020年)》,明确了“十三五”时期大数据产业的发展思路、原则和目标,将引导大数据产业持续健康发展,有力支撑制造强国和网络强国建设。
 2018年9月
工信部公示“2018年大数据产业发展试点示范项目名单”,公布了包括大数据存储管理、大数据分析挖掘、大数据安全保障、产业创新大数据应用、跨行业大数据融合应用、民生服务大数据应用、大数据测试评估、大数据重点标准研制及应用、政务数据共享开放平台及公共数据共享开放平台等10个方向200个项目。
 2019年11月
为进一步落实《国务院关于印发促进大数据发展行动纲要的通知》和《大数据产业发展规划(2016~2020年)》,推进实施国家大数据战略,务实推动大数据技术、产业创新发展,我国工业和信息化部将组织开展2020年大数据产业发展试点示范项目申报工作。
在我国政府的大力支持下,大数据的发展突飞猛进,全国各地高校开设大数据专业,培养技术性精英人才。但是目前教育模式没有突破性,学生接受传统的教学方法,导致大数据思维的创新型、拓展性没能得到进一步的提高。因此,教育部、工信部等国家单位推出“以赛促学、以赛促教”的方法,在全国实行全国本科、高职、中职大数据比赛。从目前情况来看,全国各校学生踊跃报名参加,兴趣十分高涨,同时取得了优异的成绩,所以竞赛模式必将成为大数据教学的主流趋势。

1.2 高校现状
自教育部批设大数据专业以来,全国各高校积极进行申报建设,专业学生数量不断增多,专业课程知识种类多样,专业方向覆盖范围广泛。但由于大数据本身是一门交叉性学科,导致各行业的大数据人才在理论知识、技能掌握及应用领域等方面上各有侧重。因此大数据竞赛是现今众多高校喜闻乐见的竞赛,通过竞赛了解整体数据处理思维,对于培养大数据技术应用型人才起到了很重要的作用。
我国自2012年开始关注大数据,经过多年的发展,大数据竞赛已经日益成熟。以国内目前情况来看,我国还没有一所高校通过竞赛模式来培养学生,主要是因为传统的考试模式为试卷答题,根据文本性题型只能判断出学生的知识储备能力与学生的记忆力,不能全面的分析出学生的真实水平。除此之外,大数据竞赛设计的内容包括:大数据集群部署能力、数据处理能力、数据采集能力与数据分析挖掘能力,其中的大数据集群部署是不通过试卷答题进行考核的,需要一个真实的操作环境,本地部署耗费的资源量大,学校无法承受一个学生3台机器的设备压力,虚拟化部署会导致在统一判卷时不方便,而且保存困难。因此,一个标准的大数据竞赛平台需要解决以上两点问题,但从目前情况来看能够解决此需求的竞赛平台在我国高校是十分罕见的。

第二章 建设理念
2.1 建设目的
2.1.1 促进专业建设与课程改革

2015年,国务院印发《促进大数据发展行动纲要》(以下简称《纲要》),系统指导我国大数据发展的国家顶层设计和总体部署大数据发展工作。《纲要》中明确指出,要加强专业人才培养,创新人才培养模式,建立健全多层次、多类型的大数据人才培养体系。
2016年,教育部批准设立了大数据专业。由于缺乏与用人单位岗位核心技术技能相匹配的专业课程体系及师资力量,严重影响了学校大数据人才培养质量。
大数据竞赛赛项包括大数据平台运行维护、数据采集与预处理、数据清洗及存储、数据分析及可视化等工作内容。考查内容对接国家教学标准提出的大数据相关专业及专业群综合核心技术技能和职业素养,能够适应我国大数据产业对高素质复合型人才的产业需求,覆盖大数据行业技术岗位体系,满足大数据企业技术研发类、基础平台运营类岗位对大数据平台运维能力、大数据应用开发能力及职业素养等方面的要求;促进教师专业能力及教学能力的提升与大数据技术与应用专业建设及课程改革。
2.1.2 推动产教融合、校企合作
《国务院办公厅关于深化产教融合的若干意见》国办发〔2017〕95号指出“用10年左右时间,教育和产业统筹融合、良性互动的发展格 局总体形成,需求导向的人才培养模式健全完善,人才教育供给与产业需求重大结构性矛盾基本解决,职业教育、高等教育对经济发展和产业升级的贡献显著增强”
大数据竞赛赛项选取大数据行业企业典型项目需求,围绕项目开发过程设计竞赛内容,竞赛任务就是项目工作任务。通过本赛项推动了课程内容与职业标准对接,教学过程与生产过程对接,专业与产业对接,实现教育链、人才链与产业链、创新链有机衔接,促进产教融合、校企合作、产业发展。
2.1.3 彰显高校师生职业能力与教学能力
大数据竞赛赛项选取真实的大数据业务分析应用场景,重点考查选手的实际动手能力、规范操作水平、创新创意水平等综合职业能力。参赛选手通过对实际业务数据的分析,运用大数据领域技术手段,揭示业务数据隐含的业务规律,实现对业务运行发展状态的推断,以数据分析结果为支撑做出科学合理的决策建议,彰显了参赛选手的综合职业能力及教师的教学能力,充分展示职教改革成果及师生良好精神面貌。
2.2 建设意义
竞赛平台的建设,旨在有效促进高校计算机科学与技术、信息管理与信息系统、统计学、经济、金融、数学等专业教学模式的探索性改良,推进相关专业课程体系、教学内容和教学方法等教学资源的质量提升和丰富完善,进而推动本省大数据专业教育上层建筑体系质的飞跃。
通过竞赛教学模式,能够激发学生的自主学习热情,树立正确积极的职业价值观和人生观。联合高校之间举办竞赛,可以提高实践教学课时量,学生可在“大数据竞赛平台”中以实际大数据项目案例开展平台搭建数据采集、数据分析与挖掘等方面得到有效锻炼,提高学生的专业技能,并逐步实践“理实一体化”、“做学教一体化”的教学模式,同时可以提高本校在本省甚至全国的知名度,打造大数据竞赛示范性品牌。
以大数据集群搭建与分析赛项为纽带,搭建校企合作的平台,提升高校大数据专业及其他信息技术类专业学生的技能及职业素养,满足企业用人需求,实现行业资源、企业资源与教学资源的有机融合,使高校在专业建设、课程建设、人才培养方案和人才培养模式等方面紧跟行业及社会发展的需求,缩小学生能力与行业需求之间的差距,促进专业教学建设和教学改革。

第三章 平台介绍
3.1 架构介绍

大数据竞赛平台采用私有云系统建设,基于私有云环境架构建设大数据竞赛系统,结合当今大数据形势、主流竞赛设备、技术在数据挖掘与分析等方向为学校提供全面的竞赛环境。通过动手实际操作,强化学生对大数据技术知识的理解,提高集群部署与数据分析操作能力。整个平台的运行依托于云计算系统,将云计算系统的计算资源与各种教学资源整合在一起,向用户提供各种服务。具体说明如下:
底层IaaS层为整合各种IT资源,包括云资源计算设备、管理控制设备、资源调度设备资源。统一的云系统将这些设备资源进行虚拟化管理,向上提供基础服务,包括分布式数据存储、计算服务、负载管理和备份等。这一层使用虚拟化技术,将分布式计算资源进行整合,为实验室的运行提供统一管理和使用。
中间的PaaS层为云系统业务调度中心,包括统一身份认证管理、各种管理功能、竞赛考题资源管理、统一业务访问控制和数据监控、采集和分析功能等。这一层将各种竞赛环境需要的开发支持与管理工具、实验教学管理工具等有机地整合在一起,对上一层资源工具打包整合进行按需分配。
SaaS层包含了向最终用户提供的各种服务以及各种资源调用。方式为通过竞赛系统,将竞赛考题和所需要的实验环境进行整合为用户进行服务。调用资源的终端可以为PC、笔记本电脑、各种云终端和平板电脑。云系统的优点是可以通过网络进行访问,可在教室、办公室、图书馆、寝室访问使用,可有效的提高系统使用率。

3.2 竞赛平台
该模块为此平台的核心内容,参赛选手在此进行大数据竞赛。当开启比赛模式后,参赛选手统一在此页面下进行登录,登录后,竞赛平台页面包含以下主要信息:虚拟机信息、通知栏、当前成绩、比赛题目、排行榜、比赛信息等。

3.3 虚拟机信息
虚拟机信息功能是为选手提供操作机连接服务,为保证比赛的公平性与安全性,每一支参赛队伍的账号密码都随机生成。因此,选手需要根据虚拟机的信息进行登录访问。与此同时为方便选手直观的看到操作及状态,根据颜色来区分服务是否正常,当虚拟机出现异常情况,可以快速重置恢复到正常状态继续比赛。
3.4 比赛信息
比赛信息展示出当前账号的基本信息情况,一是让参赛选手了解比赛的注意事项,而是让选手验证身份是否正确。
3.4.1 比赛题目
比赛题目模块包含了整个比赛的考核内容,考核题按照技术层次进行划分,以步骤的的形式展示。选手完成每一步时点击“立即验证”功能按钮,系统自动监测出完成用时与完成情况。当子考题全部验证通过后,即可进行下一步考题。选手可以按照题目进行操作,当遇到串行题目时,选手必须按照赛题设计顺序进行操作,当遇到并行题目时,选手可以自行选择答题顺序,答题顺序不限。
3.4.2 当前成绩
实时统计当前选手的比赛排名、比赛得分及当前步骤用时。让选手了解自己在整场比赛中的信息。
3.4.3 通知栏
实时监控全部竞赛选手的比赛状态,方便选手快速看到大赛整体的得分趋势。
3.4.4 排行榜
系统自动统计每一支队伍的总体得分情况,以名次从高到低的顺序展示。
3.5 管理平台
大数据竞赛平台的建设采用B/S架构,用户通过浏览器进行访问,且支持内网与外网同时访问。平台的管理端是针对前端系统设置的对应的管理功能,便于竞赛过程中对前端系统的自定义管理。后台管理包括4项功能,包括:用户角色、资源管理、比赛管理、控制台功能。
3.5.1 用户角色管理
为满足教师方便的管理班级学院,平台提供用户组织管理功能。其中用户管理显示平台用户的信息列表,管理端可对平台用户信息进行编辑与删除,根据信息进行用户模糊筛选,便于管理平台用户;角色管理显示平台现有角色,用户可编辑新的角色并赋予角色权限;组织结构管理显示平台现有的组织机构,管理端可以也可根据层级分步添加组织、学院、系别、专业、班级,对同级别下的机构进行排序。

3.5.2 控制台
控制台功能是帮助管理人员了解竞赛平台的整体使用状况,用户分布功能是将平台的人员按照班级进行统计,活跃用户能够统计学习时长最多的选手,还可以通过折线图监控设备的使用情况,最后为了方便管理,可以通过此功能远程关闭服务器。
3.5.3 资源监控中心
资源监控中心是为用户提供虚拟化管理功能,通过镜像管理功能可以实现对比赛环境的自定义,自定义内容包括操作系统类型、内置各类软件服务等信息;虚拟化资源管理功能可以查看比赛队伍的虚拟机状态;智能考核管理可以根据比赛的每个知识点定制化检测方式,使系统能够根据智能考核设定的检测方式,自动判断选手是否答对了该知识点,典型检测内容包括文件是否存在、文件内容是否正确、服务状态是否正常等内容。
3.5.4 比赛管理
 队伍信息管理

管理员在此功能下创建比赛队伍,创建成功以列表的形式展示。
 监控中心
系统内置检测工具,对虚拟机的各项服务进行检测,当存在服务异常时,检测工具发出报警机制,监控中心以可视化的形式展示出异常状态,管理员可以快速处理进行重置,保证虚拟机的正常使用,在创建比赛时可以设置该监控服务的开启与关闭。
 得分规则
按照比赛需求系统实现了按照时间顺序扣分和按照名次顺序扣分,按照时间顺序扣分的机制是每隔定义时间扣除分数的整体百分比,分数低于最低阀值时停止扣分,保证比赛成绩的合理性;按照名次扣分的机制是通过该题的提交正确次序先后进行扣分,递减分数的整体百分比,分数低于最低阀值时停止扣分,保证比赛成绩的合理性;
 比赛环境
在新建比赛时,比赛环境功能需要管理员来设置,对于本次比赛所用到的虚拟机直接映射到资源管理中心下的镜像管理,选择对应的环境,同时可以对虚拟机的配置进行调整,确保选手操作体验效果良好。像展示环境只提供参考信息可以设置用户无权限操作,避免破坏比赛提示信息。
 得分统计
为了方便统一查看全部队伍的得分情况,红亚科技研发得分排行耪功能,与之前的得分榜不同的是,该功能能够展示全部队伍的每一步得分情况,榜单纵向为各参赛队伍,横向是全部考核体系的步骤展示,分数根据具体得分情况实时变化。
3.6 技术优势
3.6.1 AI智能分析

红亚科技自主研发智能考核功能,以“AI+大数据”技术实现系统自动检阅机制,管理员在后台的智能考核模板下编写检测脚本,选手提交检测后,系统自动检测操作结果与脚本的一致性,判定结果。优势在于脚本的灵活性,可以根据不同的考核内容去设计对应的检测代码,其次节省的手动批阅的时间与精力,最后就是结果的实时展示,完美的遵循竞赛“公平、公正、公开”原则。
3.6.2 多维数据展示
根据历届的竞赛进行分析观众与裁判只能等待最终的比赛结果,在比赛过程中耗费了大家的时间,而且只通过一个分数很难判断出学生的真实水平与知识漏洞。
因此,为解决广大用户的困扰,红亚科技大数据竞赛平台设计了选手竞赛过程以可视化的形式展现,呈现形式为金字塔或者星球。座金字塔每一层代表着一个步骤,当选手完成一个步骤后,以动画的形式搭建一层,星球展示页面下的每一个星球代表一个实验步骤,当选手完成一个步骤后,宇航员会前往下一颗星球。同时,当选手首次完成一个步骤后,会有语音播报效果通知大家,后续完成的会有几秒钟的动画展示完成效果,效果一直常驻。界面两侧展示出步骤完成度、通知栏、得分排行榜。步骤完成度会将完成步骤的队伍展示出来,每隔10秒刷新一次。
3.6.3 便捷式操作平台
为了保证选手不受竞赛操作设备的影响,红亚科技提供了统一的操作环境,利用Web-Console技术将虚拟环境集成在操作页面内,选手可以直接在竞赛平台下答题,使得必备的工具与虚拟机切换等问题得到完全解决,从根本上解决的竞赛自带设备的问题。赛题设计
新增赛题功能的设计理念是灵活、便捷、科技。题纲层次分为三级,选手在前台可以直观地了解竞赛整体考核内容。除此之外,考核条件支持串行添加与并行添加。
像大数据分析工具Hive是需要搭建在底层的Hdfs系统上,所以这样的考核条件是有先后顺序性的,先搭建Hdfs分布式文件系统,再去构建数据仓库,类似于这样的考核条件我们选择串行。
像大数据分析工具Hive与数据库Hbase都是安装在Hdfs系统上,且彼此之间的安装互不影响,这种情况选手无论先安装任何一个组件都是不影响结果的,类似于这样的考核条件我们需要选择并行。

3.7 赛题样例
3.7.1 竞赛题库
针对于大数据竞赛平台的样题,目前具有4套完整的真实题库:
序号 竞赛名称 竞赛核心 竞赛说明
1 2018年第一届全国大学生大数据技能竞赛(高职组) 电商运营分析 本次竞赛数据集为某购物平台在“双11”之前和之后的过去6个月内的匿名用户的购物日志以及指示它们是否是重复购买者的标签信息。通过大数据能力驱动电子商务运营的精细化,更好的提升运营效果,提升业绩。
2 2019年第二届全国大学生大数据技能竞赛(高职组) 商品销量分析 本次竞赛数据集为某购物平台的商品数据、访问量数据、用户信息数据等。通过大数据能力分析出热门商品与流失客户群体,从而进行针对性服务活动提升销量。
3 2019年全国大学生大数据技能竞赛(本科组) 1.共享单车数据分析
2.人口收入数据统计 1.本数据为某年某段时间某地区的共享单车数据集。通过对共享单车的骑行规律,用户群体,单日活月用户等数据的分析,给出运营思路和方法上的建议,对共享单车的发展有一个整体的把握。
2.本数据为某人口普查公开数据数据库抽取而来,该数据集类变量为年收入是否超过50k$,属性变量包含年龄、工作类型、教育程度等属性,统计对各因素对收入的影响。
4 2019年首届“智警杯”全国公安大学生大数据技能竞赛 电信网络诈骗分析 其预测分析的数据基础来源既有机关企业的宏观数据,亦有各当事人的微观数据。基于大数据的模型与算法预测电信网络诈骗,能够积极促进研发预测警务系统和警务软件,促进公安数据信息系统从查询统计功能向预测功能转变,是实现预测警务在打击跨境电信诈骗犯罪中应用的基础技术建设。

3.7.2 样题案例
电商数据分析项目:
 任务一:大数据环境搭建
竞赛平台提供Linux环境,将Hadoop、Java、Hive、Zookeeper、Mysql、Hbase等工具的压缩包放在指定目录下。选手首先需要对基础环境进行配置;之后按提示在找到工具压缩包后可进行解压,并将解压后的工具进行配置文件的修改;配置文件修改完成后按大数据集群启动顺序逐次启动。
评判规则:在选手完成任务以后,系统自动检测Hadoop、Zookeeper、Hbase、Hive进程以及通过Web端口检测进行评判。
评判方法:选手针对每步,点击答题平台的检测按钮,答题平台自动检测相关结果,检查每步结果。
 任务二:构建数据仓库、进行数据采集
本数据为国内某网站2018年4 月15日部分访问数据,包含了3个字段,共1000个样本,数据文件及数据格式说明保存于比赛系统虚拟机中。任务二要求参赛者开启Hive服务,构建数据表,表的结构按照数据类型进行创建,将数据集完整导入Hadoop系统中,并可使用Hive访问数据。
评判规则:在选手完成任务以后,系统自动检测Hive中数据存放路径、数据大小、数据类型
评判方法:选手针对每步,点击答题平台的检测按钮,答题平台自动检测相关结果,检查每步结果。
 任务三:数据分析
本任务要求参赛者对本数据集进行分析及解读,通过分析了解数据分布,为后续结果进行展示。以下分析内容供参考:
实现统计pv:页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1次。
实现统计uv:一天之内,访问网站的不同独立 IP个数加和。其中同一IP无论访问了几个页面,独立IP 数均为1。因此,这里我们只需要统计日志中处理的独立IP数即可。
流失用户:浏览了网站就不在浏览的用户我们可以称之为流失用户,这里,我们可以通过用户的IP进行分组,如果分组后的记录数只有一条,那么即为流失用户。当然这个定义是我们临时取得,网站分析的时候,对流失用户定义更复杂。
新增用户:通过分析可以知道,该网站的用户注册页面的path为register,所以当用户点击注册时请求的是register?的即可。
评判规则:在选手完成任务以后,系统自动检测数据表信息,包括:表存在情况、表结构、表数据等相关内容
评判方法:选手针对每步,点击答题平台的检测按钮,答题平台自动检测相关结果,检查每步结果。
 任务四:分析结果展示
根据分析的数据结果,得到按要求规定的数据表。然后就可以查看每个表格的数据情况,比如我们要看uv,直接从“UV数据表”获取,想看新增用户,就可以从“新增数据表”获取。
评判规则:在选手完成任务以后,系统自动检测分析结果与实际结果是否相一致。检测语句正确率及逻辑性。
评判方法:选手针对每步,点击答题平台的检测按钮,答题平台自动检测相关结果,检查每步结果。

第四章 相关服务介绍
4.1 赛题定制

大数据本身是一门交叉学科,所以在各高校专业设置教学的侧重方向上也有所不同。为满足教学需求,赛题的设置应该从专业领域、侧重知识点与考核需求等角度出发,定制一套完全符合于本专业教学要求的赛题,以此来测评学生的知识掌握情况。
赛题的设计类型分为两种,一是从技术层次出发,从大数据集群搭建到数据仓库部署,经过数据采集处理阶段后,进入最后阶段数据分析。红亚科技根据学校的需求进行定制赛题,保证既可以从基础环境开始操作,也可以选择层次继续宁设计;二是从分析对象层次出发,支持从计算机、金融、交通、公安等不同专业分析角度定制竞赛题目,旨在缩小学生能力与行业需求之间的差距,加深大数据数据处理思维与分析逻辑。
4.2 赛前指导
北京红亚华宇科技有限公司为高校大数据教学提供竞赛平台支持,竞赛宗旨以赛促学,以赛促教,通过竞赛带动学校大数据专业的建设,提升学生学习兴趣,提高开设大数据院校的教学水平。为了更好的使学生学习到大数据技能,红亚科技支持为高校提供线下赛前技能培训服务,服务参赛的师生,真正的做到“以赛促学”让学生学到更多的实战技能。
4.3 赛事支持
经过多年承办大数据竞赛以及国家级竞赛,红亚科技在此方面拥有丰富的经验。高校有竞赛需求,红亚科技会派遣专业人员去学校做技术支持,其中服务包括以下几项:

赛前测试平台的稳定性与流畅性
赛前布置场地与网络
竞赛全程监控平台正常
竞赛做为监考人员解决现场选手问题
4.4 赛后诊断
大数据竞赛平台支持记录每一位参赛选手操作数据,赛事结束之后,红亚科技制作技能评估模型,将选手的操作数据导入模型进行分析,依据模型与数据形成的画像结果对用户进行诊断,对目前学习大数据的用户定位、定向的进行提高。
4.5 竞赛场地
红亚科技科技根据比赛区域进行分析,保证在前往比赛现场的交通不会对参赛院校造成负担,而且舒适的环境能让选手专注进行比赛。
4.6 竞赛现场直播
红亚科技会派遣专业的摄像师去进行现场直播,保证直播的内容输出与画质为优良,以此来提升竞赛的影响力与宣传力。
4.7 竞赛用电建设
针对于新版竞赛场地,红亚科技的技术工程师去现场布置强电,确保设备的最大承受负载,同时布置设备的连接,确保整个竞赛现场的网络通常。
4.8 选手餐饮服务
在竞赛途中提供午餐/晚餐服务,餐饮标准达到分量足够、营养均衡。
4.9 现场LED展示屏
为了让参赛观众与参赛选手能够更好的观看比赛,红亚科技提供LED展示屏,多维数据展示结果全部映射在展示屏幕上,红亚科技的技术人员会去现场进行调试与监管,确保在比赛圆满落幕时屏幕不会出现问题。
4.10 选手定制服装
红亚科技依据竞赛主题与校园风格,提供竞赛服装定制服务,提升竞赛标准水品与校园文化建设。
4.11 选手宣传片制作
红亚科技会根据个人详细资料制作展示宣传片,展示学生个人荣誉信息,也是为了体现“友谊第一”的精神。
4.12 竞赛队伍文化建设
在比赛前期,红亚科技会对参赛选手进行文化培训,其内容包括:竞赛要求须知、团队精神训练、竞赛意识培训与行为准则,保证在比赛中能让大家深深地感受到队伍的正规、严格、素质。

你可能感兴趣的:(大数据,竞赛,方案,大数据,数据分析,数据挖掘,可视化)