6.2.3 Spark《RDD高阶》序列化,依赖,持久,容错,分区,广播,累加,TopN《原理初》独立作业提交,洗牌原理,RDD优化《SQL概述》数据抽象,类型《SQL编程》SpkSes,DF&DS
目录第4节RDD编程高阶Spark原理4.1序列化4.2RDD依赖关系4.3RDD持久化/缓存4.4RDD容错机制Checkpoint4.5RDD的分区1、本地模式(取决于核数)2、伪分布式(x为本机上启动的executor数,y为每个executor使用的core数,z为每个executor使用的内存)3、分布式模式(yarn&standalone)4.6RDD分区器4.7广播变量4.8累加器(