Spark框架核心原理详解(持续更新)

Spark框架核心原理详解

  • 引言
  • spark框架组成
  • Spark与Hadoop框架对比
  • Spark程序执行过程
  • 深入理解RDD
    • RDD是什么?
    • RDD提供了哪些计算函数(算子)?
    • RDD算子的宽窄依赖如何区分?
    • 怎么进行分布式计算的节点任务分配?
  • 参考资料

引言

前面有一篇博客记录了Spark在Windows系统上的安装配置过程,由于工作需要使用了一段时间,这就篇系统地梳理一下Spark框架的核心知识作为备忘。

spark框架组成

Spark RDD:离线批处理;
Spark SQL:交互式查询;
Spark Streaming:流式计算;
Spark MLlib:机器学习;
Spark GraphX:图计算;

Spark与Hadoop框架对比

组件差异看如下架构:

你可能感兴趣的:(分布式技术,spark,分布式,大数据)