Spark异构分布式计算平台架构

1.基于Spark的异构分布式深度学习平台——百度的spark on PADDLE
http://geek.csdn.net/news/detail/58867
还未开源

2.分布式机器学习框架——谷歌的TensorFlow on Spark
https://my.oschina.net/u/2306127/blog/634189 (中文翻译版)
原文:https://databricks.com/blog/2016/01/25/deep-learning-with-spark-and-tensorflow.html

3.基于Hadoop/Spark的分布式深度学习——雅虎的CaffeOnSpark
http://dataunion.org/22172.html

  1. CaffeOnSpark和SparkNet的区别
    CaffeOnSpark在参数的同步/管理操作上和SparkNet是完全不同的:CaffeOnSpark executors之间通过MPI_ALLREDUCE接口通信(通过底层RDMA/Infiniband或者TCP/Ethenet来保证GPU间高速的数据传输,10X于CPU)。在这种通信模式下,各个节点/caffe引擎之间是peer-to-peer的模式;而SparkNet的设计中依然保留了Spark的主/从模式。
    总结:
    二者的相同之处在于两者都使得Spark集群下基于Caffe的深度学习成为可能。而二者的最显著的不同在于两者在系统框架设计中对于参数同步所采用的不同方案。

你可能感兴趣的:(Spark异构分布式计算平台架构)