刘鹏计算广告学听课笔记 第二章:合约广告系统(二)

计算广告学是一门由信息科学、统计学、计算机科学以及微观经济学等学科交叉融合的新兴分支学科。前MediaV

首席科学家、前Yahoo!高级科学家刘鹏开设计算广告学(Computational Advertising)公开课。课程地址:http://study.163.com/course/introduction.htm?courseId=321007#/courseDetail

第二章:合约广告系统


第三节:在线分配问题

广告和推荐系统的异同点:广告是三方博弈(sponsor,medium,audience);推荐系统是两方博弈(媒体和用户)

两者主要不同:广告主通过媒体去reach用户时有量的需求(guaranteed delivery,有一个固定量下限的需求);推荐系统是媒体自己推荐,并无明显量的需求

在线分配问题的基本描述:在量的某种限制之下去完成质的优化

下图为Google做法,是一个二部图匹配的问题(受限优化问题)

bia把具体的impression分给某个广告产生的收益(eCPM)

xia是这次impression是否已分给某个广告商,是一个0或1的变量

两者相乘即为整个系统的收益,

constrain:收益

Display ad problem:uia点击率

两者框架类似,应用对象不同

刘鹏计算广告学听课笔记 第二章:合约广告系统(二)_第1张图片


解决受限优化比较通用的方法:拉格朗日方法

slide for reference

刘鹏计算广告学听课笔记 第二章:合约广告系统(二)_第2张图片


在线分配的算法和离线分配的算法相比,不要相差太远

刘鹏计算广告学听课笔记 第二章:合约广告系统(二)_第3张图片


刘鹏计算广告学听课笔记 第二章:合约广告系统(二)_第4张图片


compact allocation plan:不能存储任何和impression有关的状态变量,只能存储和合约或者广告相关的变量,这样规模会比较小

HWM(High Water Mark)算法(Yahoo),在流量预测的基础上进行allocation

刘鹏计算广告学听课笔记 第二章:合约广告系统(二)_第5张图片


刘鹏计算广告学听课笔记 第二章:合约广告系统(二)_第6张图片



刘鹏计算广告学听课笔记 第二章:合约广告系统(二)_第7张图片


如果有1000个节点,在MPI中,这1000个节点协同来完成这个工作,之间存在各种通信和数据交换,

如果其中1个节点出现错误,会导致整个task的失败。在海量数据中,任务失败的概率会更高,

从这个方面去考虑,Map/Reduce更有优势。用户级的数据,如广告,数据量较大,Map/Reduce更有优势。

在文档级的运算中,Map/Reduce不一定是最合适的。

Storm和Hadoop的区别:storm是在调度数据,不是在调度计算

刘鹏计算广告学听课笔记 第二章:合约广告系统(二)_第8张图片


如果一个机器上Run十个Map,Combine的作用是将这十个Map做一个汇总,使之更小。减少机器之间的通信

刘鹏计算广告学听课笔记 第二章:合约广告系统(二)_第9张图片


Map阶段:将输入的每一个词分割开打印出来

刘鹏计算广告学听课笔记 第二章:合约广告系统(二)_第10张图片


指数族分布:在工程上应用广泛

指数族分布:最大似然估计可以通过充分统计量链接到数据;mapper统计,reducer求解参数
指数族混合分布:一次迭代求解不了参数,使用EM多次迭代

对于高斯分布来说ux即为样本的和与样本的平方和

刘鹏计算广告学听课笔记 第二章:合约广告系统(二)_第11张图片


map的过程是去收集充分统计量

如果实际上不是一个指数族或者混合分布的模型,可以使用梯度族的方法去解决

最大熵,条件分布不是指数族,用梯度族去做

刘鹏计算广告学听课笔记 第二章:合约广告系统(二)_第12张图片


可以让离线的数据变得容易控制和升级

刘鹏计算广告学听课笔记 第二章:合约广告系统(二)_第13张图片


你可能感兴趣的:(Computing,advertising,Ad,Sever,受众定向平台,数据挖掘,流式计算平台,sql)