数据科学与大数据技术专业实训解决方案

第一章大数据发展背景

1.1 国家政策

 2017年1月

工业和信息化部正式发布了《大数据产业发展规划（2016－2020年）》，明确了“十三五”时期大数据产业的发展思路、原则和目标，将引导大数据产业持续健康发展，有力支撑制造强国和网络强国建设。

 2018年9月

工信部公示“2018年大数据产业发展试点示范项目名单”，公布了包括大数据存储管理、大数据分析挖掘、大数据安全保障、产业创新大数据应用、跨行业大数据融合应用、民生服务大数据应用、大数据测试评估、大数据重点标准研制及应用、政务数据共享开放平台及公共数据共享开放平台等10个方向200个项目。

 2019年11月

为进一步落实《国务院关于印发促进大数据发展行动纲要的通知》和《大数据产业发展规划（2016~2020年）》，推进实施国家大数据战略，务实推动大数据技术、产业创新发展，我国工业和信息化部将组织开展2020年大数据产业发展试点示范项目申报工作。

1.2 行业现状

据相关资料显示，随着互联网、移动互联网、物联网等信息通信技术及产业的不断发展，全球数据量呈爆发式增长态势。至此，IDC研究报告指出，根据ZDNET的统计预计到2020年，中国产生的数据总量将超过8.5ZB，是2013年的10倍。

此外，值得一提的是，大数据市场空间巨大的同时，其产业规模也有望迎来快速增长。据前瞻产业研究院发布的《中国大数据产业发展前景与投资战略规划分析报告》统计数据显示，2015年我国大数据产业规模已达2800亿元，截止至2017年我国大数据产业规模增长至4700亿元，规模增速进一步提高至30.6%，初步测算2018年我国大数据产业规模将达6200亿元左右，同比增长31.9%。并预测在2020年我国大数据产业规模增长突破万亿元，达到了10100亿元，同比增长26.3%。

2015-2020年我国大数据产业规模统计及增长情况预测

数据来源：前瞻产业研究院整理

由此可知，随着来自政策、技术以及市场等各方面的力量推进之下，大数据产业的发展潜力绝不能小觑。对此，业内人士还预期称，我国大数据产业正在从起步阶段步入黄金期，2020年中国有望成世界第一数据资源大国。

1.3 专业背景

大数据及相关专业是以计算机为基础，以挖掘、分析为主，以搭建、工具使用为辅，紧密面向行业应用的一门综合性学科。其方向有数据科学与大数据技术、概率论与数理统计、数据挖掘与数据分析、数据运维与开发、算法与数据结构、计算机网络、并行计算等多个专业方向。目前全国各类院校已陆续开始围绕大数据专业建设展开研究并申报大数据专业。

2016年，教育部批准北京大学、对外经贸大学、中南大学率先开设“数据科学与大数据技术”专业；2017年，教育部批准包括中国人民大学、北京邮电大学、复旦大学在内的共计32所高校获批“数据科学与大数据技术专业”；2018年3月，教育部发布《2017年度普通高等学校本科专业备案和审批结果》，共计255所高校获批开设“数据科学与大数据技术专业”及“大数据管理与应用专业”；2019年3月，教育部发布《2018年度普通高等学校本科专业备案和审批结果》，共计228所高校获批开设“数据科学与大数据技术专业” 及“大数据管理与应用专业”。

“大数据技术与应用”专业是2016年教育部公布的新增专业。2017年共有62所职业院校获批“大数据技术与应用”专业，2018年共有148所职业院校获批“大数据技术与应用”专业，2019年度新增195所高职院校获批“大数据技术与应用”专业。截止目前，总计405所高职院校成功申请该专业。

第二章教学平台

红亚大数据教学平台基于高校的教学场景，运用云计算技术，集课程实验、算法实战、数据科研、考试于一体的实训平台，平台课程共计800多个任务。学生可通过浏览器访问使用，可在学校任何一个网络可达的场所进行学习。

系统课程学习模式包括实验平台、项目路径和职业路径，满足不同场景的教学需求。在教学管理方面，平台自带人工智能课程推荐功能，可为学生提供个性化课程推荐及AI课程助手，助力学生定向就业。还可以通过大数据分析，自动生成学业报告，为学生就业提供桥梁，并作为教师教学的得力助手，为高校的学生能力培养及教师的工作提供强有力的支持。

2.1 学习模式

2.1.1 实验平台

该模式以知识体系为核心，将大数据内容按照不同类型的知识模块进行分类。如大数据基础体系下包含了：Linux基础、编程基础、数学基础、数据库基础等课程；大数据进阶体系包含了：Hadoop、Spark数据处理、R语言、Python数据处理、SAS数据分析等课程；该模式围绕一个内容展开了多方面知识的学习，与现在教育方式一致，保留了师生们传统的学习授课方法。不仅如此，为满足学校的已有的课程教学资源，老师可以自定义实验内容及实验镜像，将文本类、实操类、视频类课件上传到教学平台上满足教学需求。

2.1.2 职业路径

该模式以职业岗位需求为核心，综合分析国内众多企业的大数据相关人才岗位需求，如大数据运维工程师、大数据研发工程师、大数据架构工程师，经过采集、筛选、对比、定模等一系列的流程，将岗位技能需求落实到具体的知识点，围绕一个岗位展开多方面相关技术的学习。

教师在后台可以将实验按照所需知识点的难易程度设计成一套流程体系。学生按照流程开始实验，将每一模块的技能牢牢掌握后，到最后具备胜任该职业的能力，可为自身职业发展提供有效帮助。

2.1.3 项目路径

项目路径学习模式是以还原企业的真实项目完成过程为设计思路，将大数据技能知识点与实际项目案例相结合，让学生能够真实的体会到每个知识点在实际项目中的具体作用。

将一个项目拆分成多个实验，多个实验间共同使用同一实验环境，以实现项目的连贯性和真实性。项目提供整套的实验环境及配套工具，用户在切换实验时对应的实验环境不会改变，在下一个实验会继续使用上一实验的实验环境，并最终完成该项目。具体项目案例包括大数据集群运维项目、图书馆管理系统的设计与实现、IBM离职率分析等。

2.2 练习算法

2.2.1 算法集

算法集提供了一个环境，用户可以在里面写代码、运行代码、查看结果，并在其中可视化数据，并与平台中的数据集功能进行交互式使用，可直接调用平台当中的数据集用于算法在实际数据中的实践测试。鉴于这些优点，它能帮助他们便捷地执行各种端到端任务，如数据清洗、统计建模、构建/训练机器学习模型等。

算法集的一个特色是允许把代码写入独立的cell中，然后单独执行。这样做意味着用户可以在测试项目时单独测试特定代码块，无需从头开始执行代码。虽然其他的IDE环境（如RStudio）也提供了这种功能，但就个人使用情况来看，算法集的单元结构是设计的最好的。

算法集的优势还体现在灵活性和交互性上，除了最基础的Python，它还允许用户在上面运行R语言。由于它比IDE平台更具交互性，教师也更乐于在各种教程中用它来展示代码。

2.2.2 数据集

数据集功能提供数量众多的大数据数据集，包括互联网、零售、电商、医疗等相关数据集，数据集中的数据可直接与算法集中的算法进行交互使用，为算法提供所需数据的调用支撑。

教师可根据数据集的内容、格式、数量等为学生设定开放式课题，使用真实的数据集进行大数据项目案例处理分析，深度理解掌握大数据技术是如何处理这些数据的，例如，教师给定一份数据让学生进行预测实验，学生需设计算法进行清洗与预测等。

平台提供开放式上传功能，支持用户将自己的数据上传至平台当中，并可设定是否与他人共用，可帮助用户解决数据存放管理问题，实现用户数据的开放式共享。

2.3 在线考试

2.3.1 理论考核

理论考核采用在线考核模式，将单选题、多选题、判断题、填空题、简答题添加在试卷上，每一道题的题目、正选、分值等内容可由管理员自行设置，简答题题采用关键词进行自动判分，同时也可以由教师手动判分。

2.3.2 实践测评

实践测评考核模式是以实验操作过程为考核点，也称之为实操题考核模式，由教师在管理端设置考核步骤、分值权重，平台提供配套的实验考试环境。学生在实际操作过程中遇到的考核点，需要根据实际结果去填写，到最后统一汇总分数。该模式突破了传统的考核模式，通过实操的方式来加深印象，巩固大数据知识。

2.4 智能教务

2.4.1 教学进度分析

课程实验具有核全局开关功能，打开全局考核后，进行所有实验时都必须完成实验当中设定的每一步考核才能查看下一步。接着，系统不仅自动检测到正在进行实验，也可以手动设定实验状态分析（也可以手动设置分析目标）。查看分析结果时可查看每个班级的学生在进行每个实验时完成度，查看每个实验的每个步骤的通过率、完成率、完成进度、实验总结信息等。

教学进度分析功能可通过智能化的手段，有效帮助教师分析并掌握整个班级的学习情况，根据学生完成实验的进度过程进行授课，选择重点难点部分进行针对性讲解，有效降低教师授课压力，高效完成授课任务。

2.4.2 教学计划管理

管理员在后台可以一次性布置全部的教学计划，规定上课时间与学习课程，随后学生通过在前端查看，即可了解到每一天的课程安排。

2.4.3 实验报告管理

教师通过此功能查看学生的实验报告，支持预览和批阅等功能，后台自动统计学生学习数据，展示出每个步骤的学习通过时间、成绩正确率、班级排名等信息，并将实验数据与学生的实验报告有机结合，形成完成的实验报告。此功能相较于传统的实验报告，增加了学生的学习数据统计功能，可大大的减轻教师的负担，同时为教师了解班级整体的学习状况提供的有力的支持。

2.5 平台管理

2.5.1 用户管理

为满足教师方便的管理班级学院，平台提供用户组织管理功能。其中用户管理显示平台用户的信息列表，管理端可对平台用户信息进行编辑与删除，根据信息进行用户模糊筛选，便于管理平台用户；角色管理显示平台现有角色，用户可编辑新的角色并赋予角色权限；组织结构管理显示平台现有的组织机构，管理端可以也可根据层级分步添加组织、学院、系别、专业、班级，对同级别下的机构进行排序。

2.5.2 资源管理

用户可以在此查看版本信息、用户数量、实验数量，资源监控及用户虚拟机监控。同时后台资源监控中心可查看平台的用户数量、实验数量、职业路径数量、项目路径数量、算法集数量、数据集数量、用户分布、活跃用户等数据；实时的CPU、内存、硬盘、实例的使用情况和该时刻学生实验进行的状态；可对虚拟机进行监控所处状态。该功能的实现可便捷精准的反应出学生的问题所在，可对实验平台进行实时状态的查看，又同时提高了老师的教学质量和效率。

第三章教学课程库

3.1 实验体系

大数据实验体系按照大数据基础、大数据采集、大数据存储、数据处理、数据分析、数据挖掘、数据可视化、深度学习、机器学习和大数据案例组成。

3.1.1 大数据基础

3.1.1.1 Linux基础

Linux系统是开源软件，其可靠性得到肯定，是当今举世瞩目、发展最快、应用最广的主流软件之一。在服务器平台、嵌入式系统和云计算系统所运行的操作系统中，Linux占很大比重。大数据主流框架Hadoop、Spark都架设在Linux系统上，所以现在学习和应用Linux成为众多用户和学生的首选。

Linux基础32 Linux基础32 Linux系统概述3 Linux简介

Linux应用领域

Linux优势

字符操作环境2 使用Shell

字符编辑器VI

Linux文件系统3 Linux文件

ext3文件系统

安装和卸载文件系统

进程管理2 Linux进程概述

进程控制命令

常用命令介绍5 目录操作

文件操作

磁盘操作

文本编辑

帮助命令

用户管理4 Linux用户账户概述

管理用户和群组

命令行配置

用户管理器配置

系统监控与备份4 显示系统进程

查看硬件信息

查看日志文件

数据备份与恢复

软件包管理4 RPM概述

RPM包的命令介绍

查看软件包（检查软件包签名）

软件包管理工具

管理网络服务4 守护进程服务

配置FTP服务

配置邮件服务器

Apache服务器

3.1.1.2 编程基础

编程基础包含Python基础、R语言基础、Scala基础和Java基础四大模块共计81个实验项目。针对每一个所讲解的知识点都进行了深入分析，并使用生动形象的情境化举例，将原本复杂的、难于理解的知识点和问题进行简化，针对每个知识点，精心设计了相应的问题，让学习者不但能掌握和理解这些知识点，并且还可以清楚地知道在实际工作中如何去运用。

编程基础81 Python基础38 Python基础38 Python介绍

Python开发环境搭建

Python基本数据类型

Python变量

Python基本输入输出

Python模块

Python运算符与表达式

Python选择与循环结构

Python序列操作

Python列表常用方法

Python元组

Python列表解析式与生成器表达式

Python字符编码

Python字符串基本操作

Python字符串格式化

Python字符串方法

Python正则表达式与re模块

Python字典创建与使用

Python字典方法

Python集合创建与使用

Python集合常用运算

Python文件基本概念

Python打开与关闭文件

Python文件对象基本方法

Python数据序列化与反序列化

Python文件与文件夹基本操作

Python函数的定义和调用

Python函数参数

Python变量作用域

Python函数返回值

Python函数嵌套定义、闭包、装饰器

Python类的定义和使用

Python构造方法与析构方法

Python成员访问权限

Python继承

Python异常概念与常见表现形式

Python常见异常处理结构

Python的raise语句

R语言基础14 R语言基础14 R语言开发环境搭建

R语言对象与属性

R语言向量

R语言矩阵和数组

R语言列表

R语言数据框

R语言构建子集

lapply函数

apply函数

mapply函数

split函数

tapply函数

R语言重复值处理

R语言排序

Scala基础16 Scala基础16 Scala开发环境搭建

Scala控制结构和函数

Scala数组相关操作

Scala映射与元组

Scala类与对象

Scala包管理

Scala继承

Scala文件和正则表达式

Scala特质

Scala运算符(原本为scala操作符)

Scala高阶函数

Scala集合

Scala模式匹配和样例类

Scala类型参数

Scala高级类型

Scala隐式转换和隐式参数

Java基础15 Java基础15 Java开发环境搭建

Java的类和对象

Java标识符、关键字与运算符

Java基本数据类型

Java流程控制

Java继承与多态

Java抽象类与接口

Java内部类

Java异常处理

Java集合类

Java基础类库

Java泛型

Java的输入与输出

Java数据库操作

3.1.1.3 数学基础

数字在数学体系中稳固的位置，而大数据技术也和数学紧紧地结合在一起。数学基础共计信息论、线性代数、概率论与数理统计、数值计算和最优化方法五大模块30个实验项目。大数据技术本身是一门交叉性学科，统计方法为核心，所以学习数学基础就显得尤为重要。

数学基础30 信息论6 信息论6 熵

联合熵

条件熵

相对熵

互信息

最大熵模型

线性代数7 线性代数7 标量

向量

张量

范数

矩阵

特征分解

几种常用距离计算

概率论与数理统计8 概率论与数理统计8 随机变量

概率分布

贝叶斯公式

期望

方差

协方差

常见分布函数

最大似然估计

数值计算3 数值计算3 数值计算概述

上溢和下溢

计算复杂性与NP问题

最优化方法6 最优化方法6 最优化理论概述

最优化问题的数学描述

凸集与凸集分离方法

梯度下降算法

启发式优化方法

牛顿法和拟牛顿法

3.1.1.4 数据库基础

数据库已是当今信息社会须臾不可脱离的重要工具，数据库的教学也就成为计算机科学与技术专业的一门必修课程。在大数据技术中，数据库种类繁多，包括了Exce、MySql、Oracle等等，学习数据库基础是为大数据的存储做准备。

数据库基础54 excel6 Excle6 Excel函数与公式

Excel数据统计与汇总

VBA程序基础

VBA数据类型

VBA流程控制

VBA综合应用

mysql11 Mysql11 MySQL简介与安装

MySQL创建连接

MySQL操作数据库

MySQL操作数据表

MySQL操作数据

MySQL条件限定与正则表达式

MySQL表的连接

MySQL排序、分组与过滤

MySQL结果合并

MySQL函数

MySQL导入与导出

oracle8 Oracle8 Oracle安装与卸载

Oracle数据类型（文本）

表的创建与管理

简单查询

单行函数

分组统计查询

多表查询

Sybase PowerDesigner设计工具

mongodb8 MongoDB8 MongoDB简介与安装

MongoDB创建连接

MongoDB操作数据库

MongoDB操作集合

MongoDB操作文档

MongoDB条件操作符与正则表达式

MongoDB之Limit与Skip方法

MongoDB排序与聚合

redis+memcache11 Redis10 Redis简介、安装与配置

Redis命令（包括Redis键）

Redis数据类型

Redis基数统计

Redis服务器与连接

memcached简介与安装

memcached连接

memcached存储

memcached查找

memcached统计

SQLite（10） SQLite10 SQLite简介与安装

SQLite操作数据库

SQLite操作数据表

SQLite操作数据

SQLite条件限定与通配符

SQLite表的连接

SQLite排序、分组与过滤

SQLite结果合并

SQLite之Explain细节描述

SQLite函数

3.1.2 大数据采集

3.1.2.1 Python爬虫

Python爬虫是一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息，可使用Python爬虫对数据进行采集。

Python基础知识41 Python基础简介4 Python语言概述

为何学习Python语言

Python主要应用领域

Python开发环境搭建

初识Python7 Python基本数据类型

Python变量

Python基本输入输出

Python模块

Python运算符与表达式

Python选择与循环结构

Python猜数字游戏

列表与元组4 Python序列操作

Python列表常用方法

Python元组

Python列表解析式与生成器表达式

字符串与正则表达式5 Python字符编码

Python字符串基本操作

Python字符串格式化

Python字符串方法

Python正则表达式与re模块

字典2 Python字典创建与使用

Python字典方法

集合2 Python集合创建与使用

Python集合常用运算

文件操作5 Python文件基本概念

Python打开与关闭文件

Python文件对象基本方法

Python数据序列化与反序列化

Python文件与文件夹基本操作

函数5 Python函数的定义和调用

Python函数参数

Python变量作用域

Python函数返回值

Python函数嵌套定义、闭包、装饰器

面向对象4 Python类的定义和使用

Python构造方法与析构方法

Python成员访问权限

Python继承

异常处理结构3 Python异常概念与常见表现形式

Python常见异常处理结构

Python的raise语句

Python 爬虫19 爬虫初识3 爬虫简介

爬虫应用场景

爬虫基本工作原理

网络请求基础6 TCP/IP协议

HTTP请求格式

HTTP常用请求头

响应状态码

浏览器发送HTTP请求的过程

cookie和session

使用Python发送网络请求5 Requests模块介绍

使用Requests发送post请求

使用Requests发送get请求

使用Requests发送带Header请求

使用Requests发送带参数请求

Python爬虫实战5 XPATH介绍及节点选择

LXML介绍及使用

对抗反爬虫措施

网站数据爬取实验

IP代理数据爬取

3.1.2.2 Flume数据抽取

Flume 是一个分布式，可靠且可用的系统，用于有效地从许多不同的源收集、聚合和移动大量日志数据到一个集中式的数据存储区。Flume是在数据采集中有比不可少的一个环节。

Flume7 Flume简介

Flume架构与工作原理

Flume安装与配置

案例：Avro

案例：Spool

案例：Exec

案例：Syslogtcp

3.1.2.3 Kafka+zookeeper

Kafka它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类，发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成，每个实例(server)成为broker。无论是kafka集群，还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。Kakfa也是数据采集的中一个重要环节。

ZooKeeper7 ZooKeeper7 Zookeeper简介

Zookeeper工作原理

Zookeeper安装与配置

Zookeeper基本操作实例

集群管理

共享锁

队列管理

Kafka4 Kafka简介

Kafka工作原理

Kafka安装与配置

生产者消费者实例

Kafka案例

3.1.2.4 ELK

ELK为数据的收集、传输、存储、分析和警告提供了一整套解决方案，并且都是开源软件，之间互相配合使用，完美衔接，高效的满足了很多场合的应用。目前主流的一种日志系统。

ELK10 ELK10 ELK简介

安装与配置Elasticsearch

安装与配置Logstash

安装与配置Kibana

处理JSON格式Nginx日志

处理Nginx日志

处理Apache日志

处理Twitterdingyue

纽约交通事故数据分析

美国联邦选举委员竞选捐款数据分析

3.1.3 大数据存储

3.1.3.1 HDFS存储

HDFS 主要是为了应对海量数据的存储，由于数据量非常大，因此一台服务器是解决不能够应付的，需要一个集群来存储这些数据。在这个集群中，存在一个 NameNode 节点，该节点用于管理元数据，即用户上传的文件位于哪个服务器上，都多少个副本等信息。此外，还有多个 DataNode 节点，这些节点就是文件存储位置。

Hadoop基础4 Hadoop初识简介4 Hadoop介绍

Hadoop体系架构

Hadoop软件安装及配置

单节点伪分布式安装

分布式存储HDFS5 分布式存储HDFS5 HDFS安装

HDFS的相关概念

HDFS的文件存储机制

HDFS的数据存储管理

HDFS的数据的读写过程

3.1.3.2 HBase存储

HBase是一种NoSQL数据库，这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。HBase是一种分布式存储的数据库，技术上来讲，它更像是分布式存储而不是分布式数据库，它缺少很多RDBMS系统的特性，比如列类型，辅助索引，触发器，和高级查询语言等待。

HBase6 HBase6 HBase简介

HBase的shell应用v2.0

使用Hive操作HBase

HBase的JavaAPI应用

HBase学生选课案例

HBase微博案例

3.1.4 数据处理

3.1.4.1 Pandas数据处理

Pandas是基于NumPy的一种工具，该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

使用pandas进行数据处理13 基础概念4 Series和DataFrame简介

DataFrame常用属性方法

数据访问

文件读取（原读写文件）

数据清洗3 pandas缺失值处理

pandas重复值处理

pandas异常值处理

数据集成2 使用键参数的DataFrame合并

轴向连接

数据变换4 利用函数或映射进行数据转换

替换值

重命名轴索引

离散化和面元

3.1.4.2 R语言数据处理

R语言在处理数据的过程中，经常需要根据需求从完整的实验设计和数据中筛选、整理出可以直接使用的部分，这就涉及到数据整理和变换工作。常用的数据整理和变换主要包括以下几类：选取特定分析变量、筛选满足条件的数据、按照某个变量排序、对数据进行分组和汇总。

R语言数据处理17 R语言数据处理12 R语言数据导入

R语言数据导出

R语言重复值处理

R语言缺失值处理

R语言空格值处理和字段抽取

R语言记录抽取和随机抽样

R语言记录合并

R语言字段匹配

R语言数据标准化

数据分组

日期格式处理与日期抽取

虚拟变量

3.1.4.3 SAS数据处理

SAS数据处理系统主要完成以数据为中心的四大任务：数据访问、数据管理、数据呈现、数据分析四个步骤，一下实验可以满足这个四个大任务的使用。

SAS数据分析（34） SAS基础简介4 SAS基础简介4 SAS概述

SAS的特点及模块组成

SAS软件基本介绍-SAS_Studio安装过程

SAS数据导入导出4 SAS数据导入导出4 读数据和生成数据集

写数据

导入数据

导出数据

条件判断和循环语句3 条件判断和循环语句3 SAS语句的基本组成

条件判断语句

循环语句

SAS数据分析综合应用5 SAS数据分析综合应用5 建立营销响应模型

预测股票价格

建立信用评分模型

预测门店销售额

人口教育情况分析

3.1.4.4 Spark数据处理

Spark是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。所以使用Spark进行数据分析比Hadoop的MR快很多。

Spark数据处理（82） Spark基础19 Spark简介5 Spark介绍

Spark体系架构

Spark安装与配置

Spark运行模式

Spark生态系统BDAS

Spark核心概念4 RDD弹性分布式数据集

RDD的依赖关系

RDD共享变量

Spark优化

RDD编程10 创建RDD

转化操作

行动操作

惰性求值

传递参数

持久化

Pair_RDD的创建

Pair_RDD的转化操作

Pair_RDD的行动操作

数据分区

数据读取与存储13 文件系统2 Amazon_S3的读取与存储

HDFS中的读取与存储

数据库4 Cassandra

Elasticsearch

HBase

Java_JDBC连接

文件格式7 文本文件的读取与存储

JSON文件的读取与存储

CSV与TSV文件的读取与存储

序列文件的读取与存储

对象文件的读取与存储

Hadoop的输入输出读写

压缩文件的读取与存储

Spark程序结构4 Spark程序结构4 Spark架构设计

Spark算子分类

Spark核心组件

Spark程序执行基本流程

Spark流式计算6 Spark流式计算6 Spark_Streaming介绍

Spark_Streaming架构

Spark_Streaming部署

Spark_Streaming编程

Spark_Streaming性能调优

Flume、Kafka与Spark Streamng结合使用

Spark SQL9 Spark SQL9 Spark_SQL介绍

Spark_SQL架构

DataFrame

Spark_SQL的Shell

Spark_SQL的UDF使用

JDBC操作MySQL

Spark_SQL性能调优

网站日志分析实例

Spark与机器学习13 Spark Mllib13 特征提取和转化

降维操作

协同过滤算法原理及使用

FP-growth算法及使用

Spark机器学习的优势和潜力

Spark_MLlib的数据类型

线性回归算法原理与使用

逻辑回归算法的原理及使用

支持向量机算法原理与使用

朴素贝叶斯算法原理与使用

决策树算法原理与使用

随机森林算法原理与使用

K-Means算法原理与使用

GraphX7 GraphX7 GraphX简介

Graphx常用数据结构

GraphX图算法

GraphX属性图

GraphX图操作符

GraphX-Pregel-API

PageRank算法实战

案例分析11 案例分析11 网络日志分析

电商广告案例

实时路况案例

黑名单案例

性别预测案例

年龄预测案例

垃圾邮件案例

图片分类案例

电影推荐案例

推荐系统案例

金融数据分析案例

3.1.4.5 Impala与Storm

Impala它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。

Impala3 Impala3 impala简介

数据库语句

impala table操作

Storm5 Storm5 Storm简介

Storm架构与运行原理

Storm安装与配置

Storm入门实例

Storm日志分析实战

3.1.4.6 MapReduce

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）“和"Reduce（归约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。

MapReduce编程模型7 MapReduce编程模型7 MapReduce简介

MapReduce架构

MapReduce接口类

MapReduce代码编程

MapReduce经典案例—WordCount

分布式资源调度系统YARN的安装

MapReduce和YARN命令

3.1.5 数据分析

3.1.5.1 Hive数据分析

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

数据仓库Hive6 Hadoop数据仓库Hive6 Hive简介

Hive-DDL

Hive-DML

Hive UDFV

Hive数据清洗项目

Hive统计UV项目

3.1.5.2 Python数据分析

Python数据处理需要完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括：Python基础知识，如何从CSV、Excel、XML、JSON和PDF文件中提取数据，如何获取与存储数据，各种数据清洗与分析技术，数据可视化方法，如何从网站和API中提取数据等技能。

Python相关算法23 分类与预测6 决策树

K近邻分类算法

支持向量机

Python随机森林

Logistic回归分析

人工智能网络

常用聚类分析算法3 K-Means聚类算法

系统聚类算法

DBSCAN聚类算法

关联规则算法2 Apriori算法简介

Apriori算法应用

协同过滤算法2 基于用户的协同过滤算法

基于物品的协同过滤算法

时间序列数据分析4 时间序列预处理

平稳时间序列分析

非平稳时间序列分析

Python主要时序模式算法

离群点检测方法4 离群点检测概述

基于密度的离群点检测方法

基于聚类的离群点检测方法

基于距离的离群点检测方法

数据降维2 数据降维概述

常用降维方法-1.机器学习简介

常用降维方法-2.机器学习数学预备知识

常用降维方法-3.常用降维方法的目的

常用降维方法-4.常用降维方法解读

模型调优与实战8 模型评估与调优3 模型评估和调优的意义

评估指标

模型调优建议与注意事项

数据分析与挖掘实战5 电子商务的智能推荐

财政收入分析

电商产品评价分析

电力窃漏识别分析

电器使用情况分析

3.1.5.3 Pig数据分析

Pig是一种数据流语言和运行环境，用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。Pig包括两部分：一是用于描述数据流的语言，称为Pig Latin；二是用于运行Pig Latin程序的执行环境。

Pig语言7 Pig简介

Pig的安装与运行

命令行交互工具Grunt

Pig数据模型

Pig Latin基础知识

Pig Latin关系操作

Pig Latin高级应用

3.1.5.4 R语言数据分析

R语言提供数据分析功能，主要课程包括了R语言的基础进阶部分、R语言数据分析部分以及R语言案例。

R语言基础18 R语言简介3 R语言概述与应用领域

为何学习R语言

R语言开发环境搭建

R语言数据结构6 R语言数据类型

Array数组和factor因子

List列表和DataFrame数据框

R语言程序结构

R语言向量化计算

对象改值3 就地改值

逻辑值取子集

缺失信息

R的记号体系2 值的选取

发牌实例和洗牌实例

S类系统4 S类系统简介与属性

泛型函数

S类系统方法

类、S3与调试

R语言数据分析11 R语言数据分析11 基本统计

对比分析

分组分析

分布分析

交叉分析

结构分析

数据科学与大数据技术专业实训解决方案

你可能感兴趣的:(数据科学与大数据技术专业实训解决方案)