《大数据日知录》读书笔记-ch16机器学习:分布式算法

 

计算广告:逻辑回归

 

千次展示收益eCPM(Effective Cost Per Mille)

eCPM= CTR * BidPrice

 

优化算法

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第1张图片

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第2张图片

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第3张图片

 

训练数据使用:在线学习(online learning)、批学习(batch learning)、mini-batch学习

数据量往往千万到几亿,模型参数达到10~100亿 .

 

并行随机梯度下降(Parallel Stochastic Gradient Descent):

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第4张图片

 

批学习并行逻辑回归:

重点在计算梯度。

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第5张图片

step1 算内积

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第6张图片

step2 按行聚合

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第7张图片

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第8张图片

 

step3 按列聚合(得到每维参数的梯度)

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第9张图片

 

深度学习:DistBelief

深度学习可以使用海量数据做无监督预训练(Pre-training),所以需要分布式架构

浅层结构学习算法:GMM,HMM,CRF,MaxEnt,SVM,LR,单隐层MLP

多层受限玻尔兹曼机(Restricted Boltzmann Machines)逐层叠加形成深度新年网络(Deep Belief Network,DBN)。训练复杂度和NN的规模呈线性关系。 

 

DistBelief同时支持数据并行和模型并行。

1. Downpour SGD

online learning方式。用mini-batch方式异步SGD更新参数

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第10张图片

异步的含义:每个副本模型(Model Replica)各自异步执行;参数服务器的数据分片相互独立,不做同步更新

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第11张图片

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第12张图片

对比同步SGD,异步SGD有更好容错性。实验效果表明,计算精度可达到类似算法相近的结果。

 

2. Sandblaster L-BFGS

batch learning方式。有同步过程。

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第13张图片

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第14张图片

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第15张图片

《大数据日知录》读书笔记-ch16机器学习:分布式算法_第16张图片

 

转载于:https://www.cnblogs.com/yaoyaohust/p/10683291.html

你可能感兴趣的:(《大数据日知录》读书笔记-ch16机器学习:分布式算法)