Spark避坑系列(三)(Spark Core-RDD 依赖关系&持久化&共享变量)

大家想了解更多大数据相关内容请移驾我的课堂:
大数据相关课程

剖析及实践企业级大数据
数据架构规划设计
大厂架构师知识梳理:剖析及实践数据建模


PySpark入坑系列第三篇,该篇章主要介绍spark的编程核心RDD的其他概念,依赖关系,持久化,广播变量,累加器等

一、RDD依赖关系

1、血缘关系(Lineage)

在spark中,数据的处理和计算都是通过RDD的转换进行的。由于RDD是不可变的,在转换的过程中就会生成新的RDD。而这些RDD的顺序就形成了类似血缘的关系,新的RDD会依赖于旧的RDD。spark会将这一血缘关系记录下来,这样就能提高容错性能,当集群中有节点宕机后造成RDD部分数据丢失,就可以根据这个Lineage来进行重新计算来恢复丢失的数据。在RDD中有一个toDebugString方法来查看Lineage。

conf = SparkConf().setAppName("WordCountHelloWorld")
sc = SparkContext(conf=co

你可能感兴趣的:(大数据,spark,大数据,hadoop,分布式,数据处理)