王家林每日大数据语录Spark篇0008(2015.10.31于北京)

持久化(包含Memory、Disk、Tachyon等类型)是Spark构建迭代算法和快速交互式查询的关键,当通过persist对一个RDD持久化后,每一个节点都将把计算的分片结果保存在内存或者磁盘或者Tachyon上,并且对此数据集或者衍生出来的数据集进行的其它Action级别的炒作都可以重用当前RDD的计算结果,这是的后续的的操作通常会快10到100倍。


你可能感兴趣的:(王家林,王家林spark,王家林语录)