Distributed Training of Deep Neural Networks with Theoretical Analysis: Under SSP Setting

1. Abstract

  • 新的训练DNN的方法
  • 保证理论正确的收敛性,实践中扩展性很好
  • 收敛性证明有:layerwise convergence和convergence of weights in probability

2. Introduction

2.1. DNN存在的问题

  • 目标函数通常是非凸的。需要合并所有层的权重为一个大的参数,然后使用SGD,很少有从layerwise的角度分析
  • DNN训练很慢,现在的启发式并行方法缺少收敛性的理论证明

2.2 Main contribution

  • 将BP算法对DNN的分析扩展到layerwise,new insights 例如layerwise contraction
  • build了一个扩展性好的分布式深度学习方法
  • 提供在分布式SSP模式下DNN的收敛性证明

3. Related work

3.1. BP的收敛性

  • Backpropagation convergence via deterministic nonmonotone perturbed minimization. 分析了BP的收敛性,证明了在随机假设下,BP产生的权重diverge或者converge到一个稳定点
  • Converegnce properties of backpropagation for neural nets via theory of stchastic gradient methods. 与上面类似,但是是随机梯度BP。这两者都没有提高layerwise的分析
  • Some asymptotic results for learning in single hidden-layer feedforward network models. 提供了layerwise的分析,但是将多层参数合并成一个隐藏层

3.2. Scale DNN

  • A provably e�cient algorithm for training deep networks. 提出了一种有效的算法来建立和训练有监督的深度网络,有理论证明
  • Building high-level features using large scale unsupervised learning. 模型并行DNN,DNN的每层被切分到不同的机器,L-BFGS的分布式实现,但是没有理论证明
  • 使用GPU加速:Large-scale deep unsupervised learning using graphics processors.
  • 使用GPU+CPU:Large-scale deep learning at baidu.

3.3. 缺点

  • 局限在一些领域
  • 理论分析restricted to small setting: limited analysis, 非分布式, 不可扩展, 没有比较不同的分布式方法

4. Background

4.1. SSP

选择SSP的原因:

  • SSP是工业级的semi-synchronous(半同步)分布式学习框架,同时有理论保证
  • 在系统性能和准确性之间取得了平衡

5. Problem formulation

  • 残差的链式规则,chain rule
  • 每个机器保存所有参数,数据平均切分,每个机器独立训练,同时满足SSP条件

缺点

  • SSP based DNN的缺点是只能数据并行
  • 没有模型并行

你可能感兴趣的:(Distributed Training of Deep Neural Networks with Theoretical Analysis: Under SSP Setting)