如何入门spark

入门 Spark 需要“三步走”。

第一步,我们需要掌握 Spark 常用的开发 API 与开发算子。毕竟,通过这些 API 与开发算子,我们才能启动并驱使 Spark 的分布式计算引擎。接着,我们必须要深入理解它的工作原理。第三步,我们需要了解并熟悉 Spark 不同的计算子框架(Spark SQL、Spark MLlib 和 Structured Streaming),来应对不同的数据应用场景,比如数据分析、机器学习和流计算。
如何入门spark_第1张图片

四个模块

4 个模块与三步走相对应,其中第一个模块是基础知识模块,专注于三步走的前两步,即熟悉开发 API 和吃透核心原理。后面的三个模块应对不同数据场景的计算子框架,分别是 Spark SQL、Spark MLlib 和 Structured Streaming。这四个模块和“三步走”的关系如下图所示:
如何入门spark_第2张图片
第一个模块是基础知识。包括 RDD 编程模型、Spark 进程模型、调度系统、存储系统、Shuffle 管理、内存管理等等,。
第二个模块Spark SQL ,包括数据的转换、清洗、关联、分组、聚合、排序,等等。
第三个模块Spark MLlib,包括Spark MLlib 丰富的特征处理函数,细数 Spark MLlib 都支持哪些模型与算法,并学习构建端到端的机器学习流水线。
最后一部分, Spark 的流处理框架 Structured Streaming。包括Structured Streaming 如何同时保证语义一致性与数据一致性,以及如何应对流处理中的数据关联等。如何入门spark_第3张图片

你可能感兴趣的:(spark,spark,大数据,分布式)