关于RDD缓存命令需要导入的包

  • spark操作时候,如果一个数据集需要反复的运算,则考虑将其导入进内存中,使得能够快速的运行。
//在使用缓存命令之前,需要导入一个包

import org.apache.spark.storage.StorageLevel

val x =sc.parallelize(List(1,2,3,4))
x.persist(StorageLevel.MEMORY_AND_DISK)
//默认缓存等级为:MEMORY_ONLY
//将缓存数据集从内存中释放
x.unpersist()

你可能感兴趣的:(关于RDD缓存命令需要导入的包)