RDD Checkpoint

一、RDD Checkpoint介绍

  • RDD数据可以持久化,但是持久化/缓存可以把数据放在内存中,虽然是快速的,但是也是最不可靠的;也可以把数据放在磁盘上,也不是完全可靠的!例如磁盘会损坏等
  • Checkpoint的产生就是为了更加可靠的数据持久化,在Checkpoint的时候一般把数据放在HDFS上,这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全,实现了RDD的容错和高可用
  • 在Spark Core中对RDD做checkpoint,可以切断做checkpoint RDD的依赖关系,将RDD数据保存到可靠存储(如HDFS)以便数据恢复

二、RDD Checkpoint使用方法

  • java源代码

    // 设置检查点目录,将RDD数据保存到那个目录
    sc.setCheckpointDir("datas/spark/ckpt/")
    // 读取文件数据
    val datasRDD = sc.textFile("datas/wordcount/wordcount.data")
    // 调用checkpoint函数,将RDD进行备份,需要RDD中Action函数触发
    datasRDD.checkpoint()
    datasRDD.count()
    // 再次执行count函数,此时从checkpoint读取数据
    datasRDD.count()
    
  • Python使用方法

    from pyspark import SparkConf, SparkContext
    
    if __name__ == '__main__':
        print("PySpark checkpoint Program")
        # 1.创建应用程序入口SparkContext实例对象
        conf = SparkConf().setAppName("miniProject").setMaster("local[*]")
        sc = SparkContext.getOrCreate(conf)
        # 2.RDD的checkpoint
        sc.setCheckpointDir("file:///export/pyfolder1;pyspark-chapter02_3.8/data/checkpoint1")
        # 3.调用集合RDD中函数处理分析数据
        fileRDD = sc.textFile("file:///export/pyfolder1/pyspark-chapter02_3.8/data/word.txt")
        # 4.调用checkpoint函数,将RDD进行备份,需要RDD中Action函数触发
        fileRDD.checkpoint()
        fileRDD.count()
        # 5.再次执行count函数,此时从checkpoint读取数据
        fileRDD.count()
        # 关闭SparkContext
        print("停止PySpark SparkSession对象")
        sc.stop()
    

你可能感兴趣的:(大数据,大数据,数据仓库)