PySpark的RDD持久化

RDD迭代链条中只有最新的RDD,旧RDD会销毁,节省内存空间

追溯旧RDD是依照血缘关系,使用持久化技术

->1. RDD缓存 ,把某个RDD保留,rdd.cache() 缓存到内存,rdd.persist(StorageLevel.DISK_ONLY_2) 缓存到本地硬盘上,2个副本,不支持存HDFS,保留血缘关系

清理缓存:rdd.unpersist()

缓存的原理是写到对应节点的服务器上的本地内存或磁盘上

-> 2.RDD Checkpoint 仅支持存硬盘,设计上安全,不保留血缘关系(后台执行计划可体现)

控制存储到什么地方,如HDFS,重量级

使用:1.设置checkpoint路径 2.调用CP

你可能感兴趣的:(java,开发语言)