大数据Spark入门教程

第一部分:快学Scala

第一章 Scala简介
第二章 Scala安装
第三章 Scala基础
第1节 声明值和变量
第2节 基本数据类型和操作
第3节 Range
第4节 打印语句
第5节 读写文件
第四章 控制结构
第1节 if条件表达式
第2节 while循环
第3节 for循环
第五章 数据结构
第1节 数组
第2节 列表
第3节 元组
第4节 集
第5节 映射
第6节 迭代器
第六章 类
第七章 对象
第八章 继承
第九章 特质
第十章 模式匹配
第十一章 函数式编程
第1节 函数定义和高阶函数
第2节 针对集合的操作
第2.1节 遍历操作
第2.2节 map操作和flatMap操作
第2.3节 filter操作
第2.4节 reduce操作
第2.5节 fold操作
第3节 函数式编程实例WordCount

Spark有不同的版本,而且版本一直在升级,我们只要学习其中一个版本即可。截至2017年3月,Spark已经更新到2.0以上版本。
下面的第二部分是Spark速成(Spark2.1.0版本),第三部分是Spark速成(Spark1.6.2版本),读者可以选择其中一个版本学习,建议学习最新2.1.0版本。

第二部分:Spark速成(Spark2.1.0版本)

林子雨、赖永炫、陶继平 编著《Spark编程基础》纸质教程(访问教程官网)已经撰写完毕,将于2018年春季由人民邮电出版社出版发行,主要用于高校大数据课程教学,敬请关注!
2018年6月1日附近厦大校园网维护,本站有几天时间无法访问,在无法访问期间,可以访问百度云盘上的大数据教学应急盘。

Spark官网截至2017年3月发布的最新版本是Spark2.1.0,建议读者学习Spark2.1.0版本。
第1章 Spark的设计与运行原理
1.1 Spark简介
1.2 Spark运行架构
1.3 RDD的设计与运行原理
1.4 Spark的部署模式
第2章 Spark的安装与使用
2.1 Spark的安装与使用
2.2 第一个Spark应用程序:WordCount
2.3 使用开发工具Intellij idea编写Spark应用程序
2.3.1 使用开发工具Intellij idea编写Spark应用程序(Scala+Maven)
2.3.2 使用开发工具Intellij idea编写Spark应用程序(Scala+SBT)
2.4 使用开发工具Eclipse编写Spark应用程序
2.4.1 使用开发工具Eclipse编写Spark应用程序(Scala+Maven)
2.4.2 使用开发工具Eclipse编写Spark应用程序(Scala+SBT)
2.5 Spark集群环境搭建
2.6 在集群上运行Spark应用程序
第3章 Spark编程基础
3.1 RDD编程
3.2 键值对RDD
3.3 共享变量
3.4 数据读写
3.4.1 文件数据读写
3.4.2 读写HBase数据

第4章 Spark SQL
4.1 Spark SQL简介
4.2 DataFrame与RDD的区别
4.3 DataFrame的创建
4.4 从RDD转换得到DataFrame
[第4.5节 读取和保存数据]
4.5.1 读写Parquet(DataFrame)
4.5.2 通过JDBC连接数据库(DataFrame)
4.5.3 连接Hive读写数据

第5章 Spark Streaming
5.1 流计算简介
5.2 Spark Streaming简介
第5.3节 DStream操作
5.3.1 DStream操作概述
第5.3.2节 输入源
第5.3.2.1节 基本输入源
5.3.2.1.1 文件流
5.3.2.1.2 套接字流
5.3.2.1.3 RDD队列流
第5.3.2.2节 高级数据源
5.3.2.2.1 Apache Kafka
5.3.2.2.2 Apache Flume
5.3.3 转换操作
5.3.4 输出操作

第6章 Spark MLlib
6.1 Spark MLlib简介
6.2 机器学习工作流
6.2.1 机器学习工作流(ML Pipelines) 
6.2.2 构建一个机器学习工作流
6.3 特征抽取、转化和选择
6.3.1 特征抽取:TF-IDF
6.3.2 特征抽取:Word2Vec
6.3.3 特征抽取:CountVectorizer
6.3.4 特征变换:标签和索引的转化
6.3.5 特征选取:卡方选择器
6.4 分类与回归
6.4.1 逻辑斯蒂回归分类器
6.4.2 决策树分类器
6.5 聚类算法
6.4.1 KMeans聚类算法
6.4.2 高斯混合模型(GMM)聚类算法
6.6 推荐算法
6.5.1 协同过滤算法
6.7 机器学习参数调优
6.7.1 模型选择和超参数调整

第7章 Spark GraphX(选修内容,可以不学)
7.1 图计算简介
7.2 Spark GraphX 简介
7.3 Spark GraphX 图操作
7.4 Spark GraphX算法实例

第8章 Structured Streaming(选修内容,可以不学)
8.1 Structured Streaming简介
8.2 Structured Streaming操作概述(包括读取网络流)
8.3 Structured Streaming读取文件流

第三部分:Spark速成(Spark1.6.2版本)

本部分内容是Spark1.6.2版本,建议学习上面第二部分的Spark2.1.0版本。
第一章 Spark简介
第二章 Spark安装
第三章 Spark运行架构
第四章 RDD的设计与运行原理
第五章 Spark的部署模式
第六章 第一个Spark应用程序:WordCount
第七章 RDD编程
[第八章] 键值对RDD
[补充] 共享变量
第九章 数据读写
[第9.1节] 文件数据读写
第9.2节 读写HBase数据
[第十章] Spark SQL
第10.1节 Spark SQL简介
第10.2节 DataFrame
第10.2.1节 DataFrame与RDD的区别
第10.2.2节 DataFrame的创建
第10.2.3节 从RDD转换得到DataFrame
第10.2.4节 读取和保存数据
第10.2.4.1节 读写Parquet
第10.2.4.2节 通过JDBC连接数据库
第10.2.4.3节 连接Hive读写数据

[第十一章]Spark Streaming
第11.1节 流计算简介
第11.2节 Spark Streaming简介
第11.3节 DStream操作
第11.3.0节 DStream操作概述
第11.3.1节 输入源
第11.3.1.1节 基本输入源
第11.3.1.1.1节 文件流
第11.3.1.1.2节 套接字流
第11.3.1.1.3节 RDD队列流
第11.3.1.2节 高级数据源
第11.3.1.2.1节 Apache Kafka
第11.3.2节 转换操作
第11.3.3节 输出操作

第十二章 Spark MLlib
第12.1节 Spark MLlib简介
第12.2节 spark.mllib库
第12.2.1节 MLlib基本数据类型(1)
第12.2.2节 MLlib基本数据类型(2)
第12.2.3节 基本的统计工具(1)
第12.2.4节 基本的统计工具(2)
第12.2.5节 降维操作
第12.2.5.1节 奇异值分解(SVD)
第12.2.5.2节 主成分分析(PCA)
第12.2.6节 分类与回归
第12.2.6.1节 逻辑斯蒂回归的分类器
第12.2.6.2节 决策树分类器
第12.2.6.3节 支持向量机SVM分类器
第12.2.7节 推荐算法
第12.2.7.1节 协同过滤算法
第12.2.8节 聚类算法
第12.2.8.1节 KMeans聚类算法

第12.3节 spark.ml库
第12.3.1节 工作流
第12.3.1.1节 机器学习工作流
第12.3.1.2节 构建一个机器学习工作流
第12.3.2节 特征抽取、转化和选择
第12.3.2.1节 特征抽取:TF-IDF
第12.3.2.2节 特征抽取:CountVectorizer
第12.3.2.3节 特征抽取:Word2Vec
第12.3.2.4节 标签和索引的转化
第12.3.3节 分类与回归
第12.3.3.1节 逻辑斯蒂回归的分类器
第12.3.3.2节 决策树分类器

(备注:前面我们都是在单机或伪分布式环境下操作,现在可以尝试在真正的分布式集群环境下运行Spark,由于Spark集群下编程会导致复杂性大大增加,所以,下面内容可以自由选择是否学习)
第十三章 Spark集群
第13.1 Spark集群环境搭建
第13.2 在集群上运行Spark应用程序

(以上是Spark1.6.2教程所有内容,不再继续更新,请学习第二部分的Spark2.1.0版本教程)


转自:  http://dblab.xmu.edu.cn/blog/spark/

你可能感兴趣的:(spark)