Spark The Definitive Guide Spark权威指南中文笔记

目前在做Spark开发,所用到的参考资料便是Spark: The Definitive Guide。目前暂时没有中文版,为了记录学习和工作的过程,顺便等待中文版的推出,便将每章节的学习过程总结下来,以加深印象。

前6章不再赘述,前面的技术大牛已经翻译和整理笔记完毕,下面放出地址:
1-6章以及部分12章RDD翻译 by: 刺客五六柒
Spark: The Definitive Guide 2019中文版-开源翻译项目
4-6章以及部分7章学习笔记 by: lzw2016
《Spark: The Definitive Guide 》Spark权威指南学习计划

该书的源码及数据集已经在Github中:
https://github.com/databricks/Spark-The-Definitive-Guide

在目前的开发过程中涉及到最主要的是7-9章,及从不同的数据源获取数据和对已处理好的DF或者RDD进行操作。我将着重在这三章整理笔记。接下来会拓展更多章节。

点击如下链接会跳转到简书
目前暂时发表于简书

目录

  • 大数据和Spark概述
    Chapter 1 to 2:了解Apache Spark
    Chapter 3:了解Spark的工具集
  • 结构化API——DataFrames, SQL, and Datasets
    Chapter 4:结构化API预览
    Chapter 5:基本结构化API操作
    Chapter 6:处理不同类型的数据
    Chapter 7:Aggregations 聚合(7.1-7.2已有前人做笔记,故从窗口函数开始记录)
    Chapter 8:Joins 连接
    Chapter 9:数据源
    Chapter 10:Spark SQL
    Chapter 11:Datasets
  • 底层API
    Chapter 12:弹性分布式数据集(RDDs)
    Chapter 13:RDDs的高级操作
    Chapter 14:分布式共享变量
  • 生产上的应用
    Chapter 15:Spark 如何在集群上运行
    Chapter 16:开发 Spark 应用程序
    Chapter 17:部署 Spark
    Chapter 18:监控和调试
    Chapter 19:性能调优
  • Streaming流
    Chapter 20:Stream 流处理基础
    Chapter 21:结构化Streaming流的基础
    Chapter 22:事件时间(Event-time)和状态处理
    Chapter 23:生产中的结构化流处理
  • 高级数据分析和机器学习
    Chapter 24:高级分析和机器学习预览
    Chapter 25:预处理和特征工程
    Chapter 26:分类
    Chapter 27:回归
    Chapter 28:Recommendation 推荐
    Chapter 29:非监督性学习
    Chapter 30:图分析
    Chapter 31:深度学习
  • Spark 生态
    Chapter 32:语言细节: Python (PySpark)和 r (SparkR 和 sparklyr)
    Chapter 33:生态和社区

你可能感兴趣的:(大数据,Hadoop,Spark)