EASGD-简单介绍

EASGD
from:http://joerihermans.com/ramblings/distributed-deep-learning-part-1-an-introduction/
这种算法每次迭代完成后会将worker的平均扔给全局参数,worker自己更新的时候除了要更新梯度,还要考虑全局参数

worker与server更新的公式

不同大小的ρ(弹性系数)所带来的影响

  • 不像downpour有很多通信窗.
  • 因为较长时间才和ps通信一次,worker有机会去探索临近的参数空间
  • 作者反驳:只有worker的参数在central variable(ps维护的参数)附近时这才是有用的,但是EASGD并没有和central variable 进行同步,因此EASGD是否能够较好的收敛我们还要打个问号❓
  • worker覆盖不同的参数空间时会导致不收敛.
  • ρ (elasticity parameter 弹性参数)太小时,也就是说与central variable的联系更加松时,每个worker将探索自己的参数空间,可能导致模型的不收敛(公式2)
  • 解决办法是:满足某个条件后就只更新梯度,不算别的

你可能感兴趣的:(EASGD-简单介绍)