计算广告学习笔记2.4 合约广告系统-Hadoop

来自于“师徒网” 刘鹏的讲课



规模:用户上亿,网页百万千万的量级




统计机器学习中大多数用的都是以上两种分布。来自于最大熵模型,最大熵模型在满足一定假设上,分布为指数族分布。

指数族分布工业上的好处在于充分统计量大小和参数的空间复杂度成正比,和数据无关,也就是说,在数据上加工出充分统计量后,数据可以放弃,和数据没有联系,运算可以限制到内存中。又提到了(PRML)这本书,看了一点,还是要坚持呀!


反馈是使用EM算法中需要的

如果不是指数或混合的,那么梯度族的方法解决,mapper(收集梯度),reduce(加起来迭代处理)

但是也有问题,比如需要迭代的话,会反复访问数据,速度就会比较慢。所以有些反而使用MPI效果好,但是对于特别大量的数据,为了保护数据的有效性,要减少节点通信

据说这个不好用,据说阿兹卡班用起来效果不错。

你可能感兴趣的:(计算广告)