阅读更多
快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)
分享网盘下载——https://pan.baidu.com/s/1mkqrTs0 密码: y5hg
https://pan.baidu.com/s/1c3V93wO 密码: isbr
Spark进入2.0时代,引入了很多优秀特性,性能上有较大提升,API更易用。在“编程统一”方面非常惊艳,实现了离线计算和流计算API的统一,实现了Spark sql和Hive Sql操作API的统一。真正做到了“更简单、更快速、更智能”!
课程适用于Spark零基础或有一些基础的初级学员,帮助学员从基础开始快速占领技术制高点。
学习本课程不需要具备Spark 1.x的基础,因为课程里会覆盖仍保留可用的Spark 1.x的内容。需要Scala基础,课程中用Scala编程语言。
本课程从基础开始,紧抓重点、言简意赅、深入浅出的讲解Spark 2.0,旨在学员能快速上手并灵活掌握。
课程以实操为主,提供完整详细的源码,供学员学习或应用到项目中。课程的课件也很详细,在学员不方便看视频的时候直接看课件并结合源码,同样可以达到很好的学习效果,并能大幅节省学习时间。
课程中编程语言采用当前较有前景的Scala,Hadoop采用Cloudera Hadoop的5.7.1版本,Kafka的0.10版本.
课程中对RDD操作、SQL、Streaming开发有非常深入系统的讲解,且围绕企业需求场景逐级展开和深化。
课程里不涉及当今企业里还比较少用的数据挖掘算法包MLlib和图计算模块部分。
目录——
01 Spark架构体系,应用场景
02 Spark 2.0新特性一览
03 把Spark-examples导入到IntelliJ IDEA
04 Cloudera Manager安装
05 CDH5.7.1 集群安装
06 CDH5.7.1 集群安装-续
07 Spark 2.0集群部署和测试
08 RDD详解和创建RDD方式
09 RDD操作之Transform
10 RDD的Action操作和持久化persist()
11 Pair RDD操作
12 Pair RDD常用函数详解
13.Join和cogroup
14 添加Hive服务及设置Mysql元数据库
15 [项目案例]网站流量UV和PV的统计
16 [项目案例]会话二跳率的统计
17 Spark Sql基础练习
18 SparkSesion语法练习
19 [项目案例]使用SparkSesion进行流量分析
20 [项目案例]SparkSesion操作Hive
21 Idea里打包部署,作业结果验证
22 Spark Cli命令spark-sql的使用
23 spark-sql支持传参数的封装
24 spark-sql支持传参数的封装-续
25 UDF开发和运用
26 Spark读写Json、parquet文件
27 优化篇-控制数据分区和分布
28 Spark Streaming架构和概念
29 DStream的两种类型,API介绍
30 Kafka架构体系和概念
31 Kafka集群搭建和测试
32 Streaming读Kafka开发WordCount案例
33 使用updateStateByKey完善案例
34 按天计算地区销售额
35 时间窗口
36 去重类计算案例,以计算UV为例
37 [流计算项目]需求说明和架构设计
38 [流计算项目]HBase DAO类开发和测试
39 [流计算项目]Spark和Servlet代码详解
40 [流计算项目]Highcharts代码详解,项目运行
Spark2全面精讲
分享百度网盘地址:https://pan.baidu.com/s/1hrHL4Le 密码: mais