Alluxio使用场景

官网:http://www.alluxio.org

在Alluxio上运行spark  :http://www.alluxio.org/docs/1.6/cn/Running-Spark-on-Alluxio.html#规避-为hadoop配置指定fsalluxioimpl

Alluxio作为一个内存级的虚拟分布式存储系统有几个常见的使用场景:

  1. 计算层需要反复访问远程(比如在云端,或跨机房)的数据;
  2. 计算层需要同时访问多个独立的持久化数据源(比如同时访问S3和HDFS中的数据);
  3. 多个独立的大数据应用(比如不同的Spark Job)需要高速有效的共享数据;
  4. 当计算层有着较为严重的内存资源、以及JVM GC压力,或者较高的任务失败率时,Alluxio作为输入输出数据的Off heap存储可以极大缓解这一压力,并使计算消耗的时间和资源更可控可预测。

详见:http://blog.csdn.net/alluxio/article/details/59536999

特点:多个Spark job以内存级速度共享相同的数据(可以做到多个job共享一个RDD)

你可能感兴趣的:(spark)