Spark-深入理解Spark 核心思想和源码分析阅读笔记

第五章 数据处理与执行

5.3 RDD转换与DGA

  1. 数据处理模型
    RDD 数据机构, 可控制数据存储位置, 提供操作 map flatmap filter可以对RDD进行转换。RDD还提供join groupBy reduceByKey等操作。 reduce by key是action
    为了满足各个应用场景, 抽象出RDD这一模型
  2. 依赖划分原则 为什么划分
    宽依赖 窄依赖
    关于数据恢复, 宽依赖需要完全执行 窄依赖需要重新执行与之相关父依赖。
  3. 处理效率
    多节点并发执行 增加分区树 增加任务数
  4. 容错处理
    传统数据库 重新执行日志中的sql, worker任务失败, 利用DAG重新调度, 在Hadoop另外节点直接执行。 流式计算中 Spark会记录日志和设置检查点,以便进行恢复。

5.3.2 RDD实现

源码分析 需要java Scale基础 暂时先看到这里

你可能感兴趣的:(Spark-深入理解Spark 核心思想和源码分析阅读笔记)