大数据核心开发技术

大数据核心开发技术 - 内存计算框架Spark精讲Spark是UC Berkeley AMP lab所开源的类Hadoop

MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点。启用了内存分布数据集,除

了能够提供交互式查询外,它还可以优化迭代工作负载。Spark Streaming:

构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断

(几秒),以类似batch批量处理的方式来处理这小部分数据

1)Spark 初识入门

2)Spark 概述、生态系统、与MapReduce比较

3)Spark 编译、安装部署(Standalone Mode)及测试

4)Spark应用提交工具(spark-submit,spark-shell)

5)Scala基本知识讲解(变量,类,高阶函数)

6)Spark 核心RDD

7)RDD特性、常见操作、缓存策略

8)RDD Dependency、Stage常、源码分析

9)Spark 核心组件概述10)案例分析

11)Spark 高阶应用

12)Spark on YARN运行原理、运行模式及测试

13)Spark HistoryServer历史应用监控

14)Spark Streaming流式计算

15)Spark Streaming 原理、DStream设计

16)Spark Streaming 常见input、out

17)Spark Streaming 与Kafka集成

18)使用Spark对进行分析

你可能感兴趣的:(大数据核心开发技术)