第一章 大数据发展背景
1.1 国家政策
2017年1月
工业和信息化部正式发布了《大数据产业发展规划(2016-2020年)》,明确了“十三五”时期大数据产业的发展思路、原则和目标,将引导大数据产业持续健康发展,有力支撑制造强国和网络强国建设。
2018年9月
工信部公示“2018年大数据产业发展试点示范项目名单”,公布了包括大数据存储管理、大数据分析挖掘、大数据安全保障、产业创新大数据应用、跨行业大数据融合应用、民生服务大数据应用、大数据测试评估、大数据重点标准研制及应用、政务数据共享开放平台及公共数据共享开放平台等10个方向200个项目。
2019年11月
为进一步落实《国务院关于印发促进大数据发展行动纲要的通知》和《大数据产业发展规划(2016~2020年)》,推进实施国家大数据战略,务实推动大数据技术、产业创新发展,我国工业和信息化部将组织开展2020年大数据产业发展试点示范项目申报工作。
1.2 行业现状
据相关资料显示,随着互联网、移动互联网、物联网等信息通信技术及产业的不断发展,全球数据量呈爆发式增长态势。至此,IDC研究报告指出,根据ZDNET的统计预计到2020年,中国产生的数据总量将超过8.5ZB,是2013年的10倍。
此外,值得一提的是,大数据市场空间巨大的同时,其产业规模也有望迎来快速增长。据前瞻产业研究院发布的《中国大数据产业发展前景与投资战略规划分析报告》统计数据显示,2015年我国大数据产业规模已达2800亿元,截止至2017年我国大数据产业规模增长至4700亿元,规模增速进一步提高至30.6%,初步测算2018年我国大数据产业规模将达6200亿元左右,同比增长31.9%。并预测在2020年我国大数据产业规模增长突破万亿元,达到了10100亿元,同比增长26.3%。
2015-2020年我国大数据产业规模统计及增长情况预测
数据来源:前瞻产业研究院整理
由此可知,随着来自政策、技术以及市场等各方面的力量推进之下,大数据产业的发展潜力绝不能小觑。对此,业内人士还预期称,我国大数据产业正在从起步阶段步入黄金期,2020年中国有望成世界第一数据资源大国。
1.3 专业背景
大数据及相关专业是以计算机为基础,以挖掘、分析为主,以搭建、工具使用为辅,紧密面向行业应用的一门综合性学科。其方向有数据科学与大数据技术、概率论与数理统计、数据挖掘与数据分析、数据运维与开发、算法与数据结构、计算机网络、并行计算等多个专业方向。目前全国各类院校已陆续开始围绕大数据专业建设展开研究并申报大数据专业。
2016年,教育部批准北京大学、对外经贸大学、中南大学率先开设“数据科学与大数据技术”专业;2017年,教育部批准包括中国人民大学、北京邮电大学、复旦大学在内的共计32所高校获批“数据科学与大数据技术专业”;2018年3月,教育部发布《2017年度普通高等学校本科专业备案和审批结果》,共计255所高校获批开设“数据科学与大数据技术专业”及“大数据管理与应用专业”;2019年3月,教育部发布《2018年度普通高等学校本科专业备案和审批结果》,共计228所高校获批开设“数据科学与大数据技术专业” 及“大数据管理与应用专业”。
“大数据技术与应用”专业是2016年教育部公布的新增专业。2017年共有62所职业院校获批“大数据技术与应用”专业,2018年共有148所职业院校获批“大数据技术与应用”专业,2019年度新增195所高职院校获批“大数据技术与应用”专业。截止目前,总计405所高职院校成功申请该专业。
第二章 教学平台
红亚大数据教学平台基于高校的教学场景,运用云计算技术,集课程实验、算法实战、数据科研、考试于一体的实训平台,平台课程共计800多个任务。学生可通过浏览器访问使用,可在学校任何一个网络可达的场所进行学习。
系统课程学习模式包括实验平台、项目路径和职业路径,满足不同场景的教学需求。在教学管理方面,平台自带人工智能课程推荐功能,可为学生提供个性化课程推荐及AI课程助手,助力学生定向就业。还可以通过大数据分析,自动生成学业报告,为学生就业提供桥梁,并作为教师教学的得力助手,为高校的学生能力培养及教师的工作提供强有力的支持。
2.1 学习模式
2.1.1 实验平台
该模式以知识体系为核心,将大数据内容按照不同类型的知识模块进行分类。如大数据基础体系下包含了:Linux基础、编程基础、数学基础、数据库基础等课程;大数据进阶体系包含了:Hadoop、Spark数据处理、R语言、Python数据处理、SAS数据分析等课程;该模式围绕一个内容展开了多方面知识的学习,与现在教育方式一致,保留了师生们传统的学习授课方法。不仅如此,为满足学校的已有的课程教学资源,老师可以自定义实验内容及实验镜像,将文本类、实操类、视频类课件上传到教学平台上满足教学需求。
2.1.2 职业路径
该模式以职业岗位需求为核心,综合分析国内众多企业的大数据相关人才岗位需求,如大数据运维工程师、大数据研发工程师、大数据架构工程师,经过采集、筛选、对比、定模等一系列的流程,将岗位技能需求落实到具体的知识点,围绕一个岗位展开多方面相关技术的学习。
教师在后台可以将实验按照所需知识点的难易程度设计成一套流程体系。学生按照流程开始实验,将每一模块的技能牢牢掌握后,到最后具备胜任该职业的能力,可为自身职业发展提供有效帮助。
2.1.3 项目路径
项目路径学习模式是以还原企业的真实项目完成过程为设计思路,将大数据技能知识点与实际项目案例相结合,让学生能够真实的体会到每个知识点在实际项目中的具体作用。
将一个项目拆分成多个实验,多个实验间共同使用同一实验环境,以实现项目的连贯性和真实性。项目提供整套的实验环境及配套工具,用户在切换实验时对应的实验环境不会改变,在下一个实验会继续使用上一实验的实验环境,并最终完成该项目。具体项目案例包括大数据集群运维项目、图书馆管理系统的设计与实现、IBM离职率分析等。
2.2 练习算法
2.2.1 算法集
算法集提供了一个环境,用户可以在里面写代码、运行代码、查看结果,并在其中可视化数据,并与平台中的数据集功能进行交互式使用,可直接调用平台当中的数据集用于算法在实际数据中的实践测试。鉴于这些优点,它能帮助他们便捷地执行各种端到端任务,如数据清洗、统计建模、构建/训练机器学习模型等。
算法集的一个特色是允许把代码写入独立的cell中,然后单独执行。这样做意味着用户可以在测试项目时单独测试特定代码块,无需从头开始执行代码。虽然其他的IDE环境(如RStudio)也提供了这种功能,但就个人使用情况来看,算法集的单元结构是设计的最好的。
算法集的优势还体现在灵活性和交互性上,除了最基础的Python,它还允许用户在上面运行R语言。由于它比IDE平台更具交互性,教师也更乐于在各种教程中用它来展示代码。
2.2.2 数据集
数据集功能提供数量众多的大数据数据集,包括互联网、零售、电商、医疗等相关数据集,数据集中的数据可直接与算法集中的算法进行交互使用,为算法提供所需数据的调用支撑。
教师可根据数据集的内容、格式、数量等为学生设定开放式课题,使用真实的数据集进行大数据项目案例处理分析,深度理解掌握大数据技术是如何处理这些数据的,例如,教师给定一份数据让学生进行预测实验,学生需设计算法进行清洗与预测等。
平台提供开放式上传功能,支持用户将自己的数据上传至平台当中,并可设定是否与他人共用,可帮助用户解决数据存放管理问题,实现用户数据的开放式共享。
2.3 在线考试
2.3.1 理论考核
理论考核采用在线考核模式,将单选题、多选题、判断题、填空题、简答题添加在试卷上,每一道题的题目、正选、分值等内容可由管理员自行设置,简答题题采用关键词进行自动判分,同时也可以由教师手动判分。
2.3.2 实践测评
实践测评考核模式是以实验操作过程为考核点,也称之为实操题考核模式,由教师在管理端设置考核步骤、分值权重,平台提供配套的实验考试环境。学生在实际操作过程中遇到的考核点,需要根据实际结果去填写,到最后统一汇总分数。该模式突破了传统的考核模式,通过实操的方式来加深印象,巩固大数据知识。
2.4 智能教务
2.4.1 教学进度分析
课程实验具有核全局开关功能,打开全局考核后,进行所有实验时都必须完成实验当中设定的每一步考核才能查看下一步。接着,系统不仅自动检测到正在进行实验,也可以手动设定实验状态分析(也可以手动设置分析目标)。查看分析结果时可查看每个班级的学生在进行每个实验时完成度,查看每个实验的每个步骤的通过率、完成率、完成进度、实验总结信息等。
教学进度分析功能可通过智能化的手段,有效帮助教师分析并掌握整个班级的学习情况,根据学生完成实验的进度过程进行授课,选择重点难点部分进行针对性讲解,有效降低教师授课压力,高效完成授课任务。
2.4.2 教学计划管理
管理员在后台可以一次性布置全部的教学计划,规定上课时间与学习课程,随后学生通过在前端查看,即可了解到每一天的课程安排。
2.4.3 实验报告管理
教师通过此功能查看学生的实验报告,支持预览和批阅等功能,后台自动统计学生学习数据,展示出每个步骤的学习通过时间、成绩正确率、班级排名等信息,并将实验数据与学生的实验报告有机结合,形成完成的实验报告。此功能相较于传统的实验报告,增加了学生的学习数据统计功能,可大大的减轻教师的负担,同时为教师了解班级整体的学习状况提供的有力的支持。
2.5 平台管理
2.5.1 用户管理
为满足教师方便的管理班级学院,平台提供用户组织管理功能。其中用户管理显示平台用户的信息列表,管理端可对平台用户信息进行编辑与删除,根据信息进行用户模糊筛选,便于管理平台用户;角色管理显示平台现有角色,用户可编辑新的角色并赋予角色权限;组织结构管理显示平台现有的组织机构,管理端可以也可根据层级分步添加组织、学院、系别、专业、班级,对同级别下的机构进行排序。
2.5.2 资源管理
用户可以在此查看版本信息、用户数量、实验数量,资源监控及用户虚拟机监控。同时后台资源监控中心可查看平台的用户数量、实验数量、职业路径数量、项目路径数量、算法集数量、数据集数量、用户分布、活跃用户等数据;实时的CPU、内存、硬盘、实例的使用情况和该时刻学生实验进行的状态;可对虚拟机进行监控所处状态。该功能的实现可便捷精准的反应出学生的问题所在,可对实验平台进行实时状态的查看,又同时提高了老师的教学质量和效率。
第三章 教学课程库
3.1 实验体系
大数据实验体系按照大数据基础、大数据采集、大数据存储、数据处理、数据分析、数据挖掘、数据可视化、深度学习、机器学习和大数据案例组成。
3.1.1 大数据基础
3.1.1.1 Linux基础
Linux系统是开源软件,其可靠性得到肯定,是当今举世瞩目、发展最快、应用最广的主流软件之一。在服务器平台、嵌入式系统和云计算系统所运行的操作系统中,Linux占很大比重。大数据主流框架Hadoop、Spark都架设在Linux系统上,所以现在学习和应用Linux成为众多用户和学生的首选。
Linux基础32 Linux基础32 Linux系统概述3 Linux简介
Linux应用领域
Linux优势
字符操作环境2 使用Shell
字符编辑器VI
Linux文件系统3 Linux文件
ext3文件系统
安装和卸载文件系统
进程管理2 Linux进程概述
进程控制命令
常用命令介绍5 目录操作
文件操作
磁盘操作
文本编辑
帮助命令
用户管理4 Linux用户账户概述
管理用户和群组
命令行配置
用户管理器配置
系统监控与备份4 显示系统进程
查看硬件信息
查看日志文件
数据备份与恢复
软件包管理4 RPM概述
RPM包的命令介绍
查看软件包(检查软件包签名)
软件包管理工具
管理网络服务4 守护进程服务
配置FTP服务
配置邮件服务器
Apache服务器
3.1.1.2 编程基础
编程基础包含Python基础、R语言基础、Scala基础和Java基础四大模块共计81个实验项目。针对每一个所讲解的知识点都进行了深入分析,并使用生动形象的情境化举例,将原本复杂的、难于理解的知识点和问题进行简化,针对每个知识点,精心设计了相应的问题,让学习者不但能掌握和理解这些知识点,并且还可以清楚地知道在实际工作中如何去运用。
编程基础81 Python基础38 Python基础38 Python介绍
Python开发环境搭建
Python基本数据类型
Python变量
Python基本输入输出
Python模块
Python运算符与表达式
Python选择与循环结构
Python序列操作
Python列表常用方法
Python元组
Python列表解析式与生成器表达式
Python字符编码
Python字符串基本操作
Python字符串格式化
Python字符串方法
Python正则表达式与re模块
Python字典创建与使用
Python字典方法
Python集合创建与使用
Python集合常用运算
Python文件基本概念
Python打开与关闭文件
Python文件对象基本方法
Python数据序列化与反序列化
Python文件与文件夹基本操作
Python函数的定义和调用
Python函数参数
Python变量作用域
Python函数返回值
Python函数嵌套定义、闭包、装饰器
Python类的定义和使用
Python构造方法与析构方法
Python成员访问权限
Python继承
Python异常概念与常见表现形式
Python常见异常处理结构
Python的raise语句
R语言基础14 R语言基础14 R语言开发环境搭建
R语言对象与属性
R语言向量
R语言矩阵和数组
R语言列表
R语言数据框
R语言构建子集
lapply函数
apply函数
mapply函数
split函数
tapply函数
R语言重复值处理
R语言排序
Scala基础16 Scala基础16 Scala开发环境搭建
Scala控制结构和函数
Scala数组相关操作
Scala映射与元组
Scala类与对象
Scala包管理
Scala继承
Scala文件和正则表达式
Scala特质
Scala运算符(原本为scala操作符)
Scala高阶函数
Scala集合
Scala模式匹配和样例类
Scala类型参数
Scala高级类型
Scala隐式转换和隐式参数
Java基础15 Java基础15 Java开发环境搭建
Java的类和对象
Java标识符、关键字与运算符
Java基本数据类型
Java流程控制
Java继承与多态
Java抽象类与接口
Java内部类
Java异常处理
Java集合类
Java基础类库
Java泛型
Java的输入与输出
Java数据库操作
3.1.1.3 数学基础
数字在数学体系中稳固的位置,而大数据技术也和数学紧紧地结合在一起。数学基础共计信息论、线性代数、概率论与数理统计、数值计算和最优化方法五大模块30个实验项目。大数据技术本身是一门交叉性学科,统计方法为核心,所以学习数学基础就显得尤为重要。
数学基础30 信息论6 信息论6 熵
联合熵
条件熵
相对熵
互信息
最大熵模型
线性代数7 线性代数7 标量
向量
张量
范数
矩阵
特征分解
几种常用距离计算
概率论与数理统计8 概率论与数理统计8 随机变量
概率分布
贝叶斯公式
期望
方差
协方差
常见分布函数
最大似然估计
数值计算3 数值计算3 数值计算概述
上溢和下溢
计算复杂性与NP问题
最优化方法6 最优化方法6 最优化理论概述
最优化问题的数学描述
凸集与凸集分离方法
梯度下降算法
启发式优化方法
牛顿法和拟牛顿法
3.1.1.4 数据库基础
数据库已是当今信息社会须臾不可脱离的重要工具,数据库的教学也就成为计算机科学与技术专业的一门必修课程。在大数据技术中,数据库种类繁多,包括了Exce、MySql、Oracle等等,学习数据库基础是为大数据的存储做准备。
数据库基础54 excel6 Excle6 Excel函数与公式
Excel数据统计与汇总
VBA程序基础
VBA数据类型
VBA流程控制
VBA综合应用
mysql11 Mysql11 MySQL简介与安装
MySQL创建连接
MySQL操作数据库
MySQL操作数据表
MySQL操作数据
MySQL条件限定与正则表达式
MySQL表的连接
MySQL排序、分组与过滤
MySQL结果合并
MySQL函数
MySQL导入与导出
oracle8 Oracle8 Oracle安装与卸载
Oracle数据类型(文本)
表的创建与管理
简单查询
单行函数
分组统计查询
多表查询
Sybase PowerDesigner设计工具
mongodb8 MongoDB8 MongoDB简介与安装
MongoDB创建连接
MongoDB操作数据库
MongoDB操作集合
MongoDB操作文档
MongoDB条件操作符与正则表达式
MongoDB之Limit与Skip方法
MongoDB排序与聚合
redis+memcache11 Redis10 Redis简介、安装与配置
Redis命令(包括Redis键)
Redis数据类型
Redis基数统计
Redis服务器与连接
memcached简介与安装
memcached连接
memcached存储
memcached查找
memcached统计
SQLite(10) SQLite10 SQLite简介与安装
SQLite操作数据库
SQLite操作数据表
SQLite操作数据
SQLite条件限定与通配符
SQLite表的连接
SQLite排序、分组与过滤
SQLite结果合并
SQLite之Explain细节描述
SQLite函数
3.1.2 大数据采集
3.1.2.1 Python爬虫
Python爬虫是一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息,可使用Python爬虫对数据进行采集。
Python基础知识41 Python基础简介4 Python语言概述
为何学习Python语言
Python主要应用领域
Python开发环境搭建
初识Python7 Python基本数据类型
Python变量
Python基本输入输出
Python模块
Python运算符与表达式
Python选择与循环结构
Python猜数字游戏
列表与元组4 Python序列操作
Python列表常用方法
Python元组
Python列表解析式与生成器表达式
字符串与正则表达式5 Python字符编码
Python字符串基本操作
Python字符串格式化
Python字符串方法
Python正则表达式与re模块
字典2 Python字典创建与使用
Python字典方法
集合2 Python集合创建与使用
Python集合常用运算
文件操作5 Python文件基本概念
Python打开与关闭文件
Python文件对象基本方法
Python数据序列化与反序列化
Python文件与文件夹基本操作
函数5 Python函数的定义和调用
Python函数参数
Python变量作用域
Python函数返回值
Python函数嵌套定义、闭包、装饰器
面向对象4 Python类的定义和使用
Python构造方法与析构方法
Python成员访问权限
Python继承
异常处理结构3 Python异常概念与常见表现形式
Python常见异常处理结构
Python的raise语句
Python 爬虫19 爬虫初识3 爬虫简介
爬虫应用场景
爬虫基本工作原理
网络请求基础6 TCP/IP协议
HTTP请求格式
HTTP常用请求头
响应状态码
浏览器发送HTTP请求的过程
cookie和session
使用Python发送网络请求5 Requests模块介绍
使用Requests发送post请求
使用Requests发送get请求
使用Requests发送带Header请求
使用Requests发送带参数请求
Python爬虫实战5 XPATH介绍及节点选择
LXML介绍及使用
对抗反爬虫措施
网站数据爬取实验
IP代理数据爬取
3.1.2.2 Flume数据抽取
Flume 是一个分布式,可靠且可用的系统,用于有效地从许多不同的源收集、聚合和移动大量日志数据到一个集中式的数据存储区。Flume是在数据采集中有比不可少的一个环节。
Flume7 Flume简介
Flume架构与工作原理
Flume安装与配置
案例:Avro
案例:Spool
案例:Exec
案例:Syslogtcp
3.1.2.3 Kafka+zookeeper
Kafka它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)成为broker。无论是kafka集群,还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。Kakfa也是数据采集的中一个重要环节。
ZooKeeper7 ZooKeeper7 Zookeeper简介
Zookeeper工作原理
Zookeeper安装与配置
Zookeeper基本操作实例
集群管理
共享锁
队列管理
Kafka4 Kafka简介
Kafka工作原理
Kafka安装与配置
生产者消费者实例
Kafka案例
3.1.2.4 ELK
ELK为数据的收集、传输、存储、分析和警告提供了一整套解决方案,并且都是开源软件,之间互相配合使用,完美衔接,高效的满足了很多场合的应用。目前主流的一种日志系统。
ELK10 ELK10 ELK简介
安装与配置Elasticsearch
安装与配置Logstash
安装与配置Kibana
处理JSON格式Nginx日志
处理Nginx日志
处理Apache日志
处理Twitterdingyue
纽约交通事故数据分析
美国联邦选举委员竞选捐款数据分析
3.1.3 大数据存储
3.1.3.1 HDFS存储
HDFS 主要是为了应对海量数据的存储,由于数据量非常大,因此一台服务器是解决不能够应付的,需要一个集群来存储这些数据。在这个集群中,存在一个 NameNode 节点,该节点用于管理元数据,即用户上传的文件位于哪个服务器上,都多少个副本等信息。此外,还有多个 DataNode 节点,这些节点就是文件存储位置。
Hadoop基础4 Hadoop初识简介4 Hadoop介绍
Hadoop体系架构
Hadoop软件安装及配置
单节点伪分布式安装
分布式存储HDFS5 分布式存储HDFS5 HDFS安装
HDFS的相关概念
HDFS的文件存储机制
HDFS的数据存储管理
HDFS的数据的读写过程
3.1.3.2 HBase存储
HBase是一种NoSQL数据库,这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。HBase是一种分布式存储的数据库,技术上来讲,它更像是分布式存储而不是分布式数据库,它缺少很多RDBMS系统的特性,比如列类型,辅助索引,触发器,和高级查询语言等待。
HBase6 HBase6 HBase简介
HBase的shell应用v2.0
使用Hive操作HBase
HBase的JavaAPI应用
HBase学生选课案例
HBase微博案例
3.1.4 数据处理
3.1.4.1 Pandas数据处理
Pandas是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
使用pandas进行数据处理13 基础概念4 Series和DataFrame简介
DataFrame常用属性方法
数据访问
文件读取(原读写文件)
数据清洗3 pandas缺失值处理
pandas重复值处理
pandas异常值处理
数据集成2 使用键参数的DataFrame合并
轴向连接
数据变换4 利用函数或映射进行数据转换
替换值
重命名轴索引
离散化和面元
3.1.4.2 R语言数据处理
R语言在处理数据的过程中,经常需要根据需求从完整的实验设计和数据中筛选、整理出可以直接使用的部分,这就涉及到数据整理和变换工作。常用的数据整理和变换主要包括以下几类:选取特定分析变量、筛选满足条件的数据、按照某个变量排序、对数据进行分组和汇总。
R语言数据处理17 R语言数据处理12 R语言数据导入
R语言数据导出
R语言重复值处理
R语言缺失值处理
R语言空格值处理和字段抽取
R语言记录抽取和随机抽样
R语言记录合并
R语言字段匹配
R语言数据标准化
数据分组
日期格式处理与日期抽取
虚拟变量
3.1.4.3 SAS数据处理
SAS数据处理系统主要完成以数据为中心的四大任务:数据访问、数据管理、数据呈现、数据分析四个步骤,一下实验可以满足这个四个大任务的使用。
SAS数据分析(34) SAS基础简介4 SAS基础简介4 SAS概述
SAS的特点及模块组成
SAS软件基本介绍-SAS_Studio安装过程
SAS数据导入导出4 SAS数据导入导出4 读数据和生成数据集
写数据
导入数据
导出数据
条件判断和循环语句3 条件判断和循环语句3 SAS语句的基本组成
条件判断语句
循环语句
SAS数据分析综合应用5 SAS数据分析综合应用5 建立营销响应模型
预测股票价格
建立信用评分模型
预测门店销售额
人口教育情况分析
3.1.4.4 Spark数据处理
Spark是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。所以使用Spark进行数据分析比Hadoop的MR快很多。
Spark数据处理(82) Spark基础19 Spark简介5 Spark介绍
Spark体系架构
Spark安装与配置
Spark运行模式
Spark生态系统BDAS
Spark核心概念4 RDD弹性分布式数据集
RDD的依赖关系
RDD共享变量
Spark优化
RDD编程10 创建RDD
转化操作
行动操作
惰性求值
传递参数
持久化
Pair_RDD的创建
Pair_RDD的转化操作
Pair_RDD的行动操作
数据分区
数据读取与存储13 文件系统2 Amazon_S3的读取与存储
HDFS中的读取与存储
数据库4 Cassandra
Elasticsearch
HBase
Java_JDBC连接
文件格式7 文本文件的读取与存储
JSON文件的读取与存储
CSV与TSV文件的读取与存储
序列文件的读取与存储
对象文件的读取与存储
Hadoop的输入输出读写
压缩文件的读取与存储
Spark程序结构4 Spark程序结构4 Spark架构设计
Spark算子分类
Spark核心组件
Spark程序执行基本流程
Spark流式计算6 Spark流式计算6 Spark_Streaming介绍
Spark_Streaming架构
Spark_Streaming部署
Spark_Streaming编程
Spark_Streaming性能调优
Flume、Kafka与Spark Streamng结合使用
Spark SQL9 Spark SQL9 Spark_SQL介绍
Spark_SQL架构
DataFrame
Spark_SQL的Shell
Spark_SQL的UDF使用
JDBC操作MySQL
Spark_SQL性能调优
网站日志分析实例
Spark与机器学习13 Spark Mllib13 特征提取和转化
降维操作
协同过滤算法原理及使用
FP-growth算法及使用
Spark机器学习的优势和潜力
Spark_MLlib的数据类型
线性回归算法原理与使用
逻辑回归算法的原理及使用
支持向量机算法原理与使用
朴素贝叶斯算法原理与使用
决策树算法原理与使用
随机森林算法原理与使用
K-Means算法原理与使用
GraphX7 GraphX7 GraphX简介
Graphx常用数据结构
GraphX图算法
GraphX属性图
GraphX图操作符
GraphX-Pregel-API
PageRank算法实战
案例分析11 案例分析11 网络日志分析
电商广告案例
实时路况案例
黑名单案例
性别预测案例
年龄预测案例
垃圾邮件案例
图片分类案例
电影推荐案例
推荐系统案例
金融数据分析案例
3.1.4.5 Impala与Storm
Impala它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。
Impala3 Impala3 impala简介
数据库语句
impala table操作
Storm5 Storm5 Storm简介
Storm架构与运行原理
Storm安装与配置
Storm入门实例
Storm日志分析实战
3.1.4.6 MapReduce
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
MapReduce编程模型7 MapReduce编程模型7 MapReduce简介
MapReduce架构
MapReduce接口类
MapReduce代码编程
MapReduce经典案例—WordCount
分布式资源调度系统YARN的安装
MapReduce和YARN命令
3.1.5 数据分析
3.1.5.1 Hive数据分析
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
数据仓库Hive6 Hadoop数据仓库Hive6 Hive简介
Hive-DDL
Hive-DML
Hive UDFV
Hive数据清洗项目
Hive统计UV项目
3.1.5.2 Python数据分析
Python数据处理需要完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据等技能。
Python相关算法23 分类与预测6 决策树
K近邻分类算法
支持向量机
Python随机森林
Logistic回归分析
人工智能网络
常用聚类分析算法3 K-Means聚类算法
系统聚类算法
DBSCAN聚类算法
关联规则算法2 Apriori算法简介
Apriori算法应用
协同过滤算法2 基于用户的协同过滤算法
基于物品的协同过滤算法
时间序列数据分析4 时间序列预处理
平稳时间序列分析
非平稳时间序列分析
Python主要时序模式算法
离群点检测方法4 离群点检测概述
基于密度的离群点检测方法
基于聚类的离群点检测方法
基于距离的离群点检测方法
数据降维2 数据降维概述
常用降维方法-1.机器学习简介
常用降维方法-2.机器学习数学预备知识
常用降维方法-3.常用降维方法的目的
常用降维方法-4.常用降维方法解读
模型调优与实战8 模型评估与调优3 模型评估和调优的意义
评估指标
模型调优建议与注意事项
数据分析与挖掘实战5 电子商务的智能推荐
财政收入分析
电商产品评价分析
电力窃漏识别分析
电器使用情况分析
3.1.5.3 Pig数据分析
Pig是一种数据流语言和运行环境,用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。Pig包括两部分:一是用于描述数据流的语言,称为Pig Latin;二是用于运行Pig Latin程序的执行环境。
Pig语言7 Pig简介
Pig的安装与运行
命令行交互工具Grunt
Pig数据模型
Pig Latin基础知识
Pig Latin关系操作
Pig Latin高级应用
3.1.5.4 R语言数据分析
R语言提供数据分析功能,主要课程包括了R语言的基础进阶部分、R语言数据分析部分以及R语言案例。
R语言基础18 R语言简介3 R语言概述与应用领域
为何学习R语言
R语言开发环境搭建
R语言数据结构6 R语言数据类型
Array数组和factor因子
List列表和DataFrame数据框
R语言程序结构
R语言向量化计算
对象改值3 就地改值
逻辑值取子集
缺失信息
R的记号体系2 值的选取
发牌实例和洗牌实例
S类系统4 S类系统简介与属性
泛型函数
S类系统方法
类、S3与调试
R语言数据分析11 R语言数据分析11 基本统计
对比分析
分组分析
分布分析
交叉分析
结构分析
相关分析
简单线性回归分析
多重线性回归分析
RFM分析
矩阵分析
R语言数据分析综合应用10 R语言数据分析综合应用10 建立销售响应模型
预测销售额
水质评估
财政收入分析预测模型
骑车数据可视化分析
房价指数的分析与预测
电商评论情感分析
航空公司价值分析
游戏玩家付费行为预测
用户留存分析实战
3.1.6 数据挖掘
3.1.6.1 SAS和R数据挖掘
SAS和R语言可以在基础的教学和分析上进行数据的挖掘,主要课程如下。
SAS数据挖掘6 SAS数据挖掘6 主成分分析
因子分析
聚类分析
判别分析
相关分析
生存分析
R语言数据挖掘11 R语言数据挖掘11 数据挖掘简介
数据挖掘常见问题
数据挖掘流程
分类预测基本流程
R语言数据预处理(一)
R语言数据预处理(二)-转换
R语言决策树分类方法
R语言高级分类方法
R语言聚类分析与关联分析
智能推荐
时间序列
离群点检测
R语言网页数据抓取3 R语言网页数据抓取3 HTML数据抓取
JSON数据抓取
使用Google分析网页结构
3.1.6.2 Mahout
Mahout是Apache Software Foundation(ASF)旗下的一个开源项目。提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用Apache Hadoop库。 Mahout可以有效地扩展到云中。
Mahout5 Mahout5 Mahout简介
推荐算法
聚类算法
分类算法
使用Mahout构建职位推荐案例
3.1.7 数据可视化
3.1.7.1 Matplotlib可视化
Matplotlib可能是 Python 2D-绘图领域使用最广泛的套件。它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。下面的课程将会探索 matplotlib 的常见用法。
可视化技术与matplotlib6 可视化与Matplotlib6 绘制折线图
绘制散点图
绘制饼状图
绘制柱状图
绘图区域分割
结合pandas进行数据可视化
3.1.7.2 SAS和R可视化
R语言使用dplyr、tidyr、reshape2 等包的数据操作方法; base、lattice 和ggplot2包的图形语法进行可视化展示。SAS可视化文本分析综合运用自然语言处理、机器学习和语言规则,从非结构化数据中获取价值。该课程可解决各行业面临的业务难题,包括:管理和解释记录、评估风险和欺诈、以及通过客户反馈及早发现问题。
SAS数据可视化7 SAS数据可视化7 图形绘制
条形图
饼图
散点图
箱型图
R语言数可视化8 R语言数据可视化8 R语言饼图
R语言散点图
R语言折线图
R语言柱形图
R语言直方图
R语言箱线图
R语言树形图
R语言地图和热力图
3.1.7.3 可视化工具
可视化除了编程语言之外还可已使用Echart、NodeBox、Inkscape等这样的工具进行可视化处理。
可视化工具6 可视化工具:python
可视化工具:Echart
可视化工具:NodeBox
可视化工具:Inkscape
可视化工具:Open Layers
可视化工具:Leaflet
3.1.8 大数据案例
大数据正在改变我们的世界。互联网发展以及移动通信市场和相关技术的迅速扩张也已创建大量的数据包括结构化数据和非结构化数据。数据可用性和数据应用对商业和更广泛的社会领域带来了巨大影响。有效使用大数据有助于公司更精准地对重要信息进行分析很终提高运营效率、减少成本、降低风险、加快创新、增加收入。本平台详细介绍了大数据策略的规划和执行配以不同行业里不计其数的现实案例加以阐述。
Hadoop项目案例8 Hadoop项目案例8 QQ好友推荐算法
PageRank算法
Tf-Idf算法
数据关联案例
ETL案例
PV UV统计案例
用户流失和新增案例
Hadoop总结
大数据案例(34) 大数据案例34 数据分析生命周期概述6 数据分析概述
发现
数据准备
模型规划
模型建立
沟通与实施
数据采集2 数据采集的原理
数据采集的实验步骤
数据清洗2 数据清洗的原理
数据清洗的实验步骤
可视化工具6 可视化工具:python
可视化工具:Echart
可视化工具:NodeBox
可视化工具:Inkscape
可视化工具:Open Layers
可视化工具:Leaflet
数据建模2 数据建模的原理
数据分析方法与过程
模型评估与优化2 模型-数据与实验环境介绍
模型-数据分析方法与过程
出租车数据分析2 出租车-数据与实验环境介绍
出租车-数据分析方法与过程
音乐分类2 音乐-数据与实验环境介绍
音乐-数据分析方法与过程
知识图谱制作2 知识图谱-数据与实验环境介绍
知识图谱-数据分析方法与过程
电影评论情感分析2 电影-数据与实验环境介绍
电影-数据分析方法与过程
金融数据分析2 金融-数据与实验环境介绍
金融-数据分析方法与过程
大型商场销售额预测2 销售-数据与实验环境介绍
销售-数据分析方法与过程
NBA篮球比赛结果分析预测2 篮球-数据与实验环境介绍
篮球-数据分析方法与过程
3.2 教学资源
为满足教学需求,针对红亚大数据教学平台重点实验提供配套的PPT讲义及视频讲解,从实验知识介绍、实验目的、实验原理、实验拓展、实验过程等内容展开详细的介绍。教材建设
红亚科技与全国高校大数据专家、出版社共同出版了一套国家“高等教育十三五规划”大数据教材,包括Hadoop、Spark、R语言、SAS、大数据综合案例技术应用实践教材。本套教材与大数据实训教学平台相辅相成,形成完整的教学资源,覆盖理论、实训、实践、实战类型,可有效的解决大数据教学资源不够完善的问题。
第四章 数据安全科研保障箱
数据安全科研实验箱是在建立在学生具备完善的数据安全基础知识的层面上的,在学生掌握了一定的数据安全攻击防御学科知识的同时,亦可进行学科性的知识拓展研究;在一定程度上可延伸学生的学习和知识掌握能力;同时更加全面的提高了学生的综合知识能力。
数据安全科研实验实验箱集成了四种处理器,包括A8处理器、M4处理器、Z32处理器、FPGA编程板,可通过编程实现如下科研项目:SM2密码算法与实现、12684液晶屏串行显示实验、SLE4428逻辑加密卡实验、SM3密码杂凑算法程序设计。