广告投放引擎:响应前端发来的广告投放请求,结合用户标签、页面标签等生成查询条件,从广告库中检索出满足要求的广告,运用CTR预估模型进行广告排序并投放到用户浏览界面。
数据高速公路:将投放引擎的投放日志实时反馈给离线分布式计算平台和在线流计算平台,此外,还负责从第三方数据源搜集日志便于更加精准地投放。
离线分布式计算平台:如图所示有四个小组件,其中点击率建模即CTR预估,是离线处理当中对提升eCPM非常重要的部分。主要是挖掘用户日志,建模,来准确预估CTR。离线平台通常采用批处理方式进行模型更新。
流计算平台:流计算主要是进行在线实时反馈,对时间效率要求很高。
对于各个组件,有相应的开源系统来方便我们搭建一个完整的广告系统,说明如下:
Web服务器:Nginx服务器进行单一服务器搭建,ZooKeeper进行多服务器的分布式配置和集群管理
广告库:用MySQL进行存储是没啥问题的
广告实时索引:Lucene。
离线分布式计算平台:Hadoop。这个好像不是性能最好的,但是普适性最强,适合进行分布式管理,至于Spark...不知道以后会不会换代
流计算平台:Apache Storm。
数据高速公路:Flume
各种标签和特征缓存:一般来说,特征和标签的量略大,在内存中装不下,需要借助工具进行管理。一般用redis
通信接口:由于不同组件可能使用的语言不太一样,组合起来不能直接用,需要一个跨语言通信接口进行连接。一般用Thrift
二、不同组成部件的关键技术
1.广告检索:在搜索广告中其实是可以拿搜索引擎中普遍采用的倒排索引来进行的。而对于竞价广告领域,需要对传统倒排索引技术进行改进,这是因为竞价广告的关键词并非几个关键词那么简单,需要关联用户的历史搜索关键词来定位广告,因此搜索关键词多达几十甚至几百个。此时,可用布尔表达式检索和相关性检索等。对于文档相似性的比较,可以用向量空间模型进行衡量
2.查询拓展:是搜索广告的关键技术之一。只是直接采用用户搜索关键词进行广告匹配的效果不好,有时甚至匹配不到任何广告,此时需要对用户的关键词进行适当拓展。目前有基于推荐的方法、基于主题模型的方法、基于历史效果的方法三种。其中基于推荐的方法几乎能将所有推荐算法应用进来,但在实际中往往不可行;基于主题模型的方法只是基于文档内容的匹配,并不是基于用户意图的匹配,只能作为用户搜索数据的不足时的补充方法;基于历史效果的方法效果蛮好的,常作为前两种方法的补充方法。
3.广告投放位置:具体放在北区还是东区。北区对用户体验的影响稍明显一点。这实质上是一个带约束优化问题,在不影响用户体验的约束下将利益最大化
4.CTR预估:这是个大领域,比较通用的是采用LR模型作为基础模型,应用于CTR预估领域。日前,百度用DNN算法应用于CTR预估,貌似效果比LR要好一些,这些以后再深入讨论
广告系统术语:
1.点击率:CTR(click-through-rate)
查看率:VTR 转化率CVR
2.按点击收费:CPC charge per click,
策略有:一价计费 FP first-price,出价多少,一次点击计费多少
二价计费 SP second-price 广告按下一位出价来支付点击价格
3.千次展现收费:CPM(cost per mille) 展示千次的固定价格
4.预估点击率(predict CTR,pCTR)广告展现前系统预估可能的点击率
------------------------------------------------------------
二、在线广告类型
1.条幅广告:底层备选素材,需要防天窗。
2.文字链广告:连接到广告主落地页的文字,如搜索广告
3.富媒体广告:弹窗、对联、全屏等。一般不采用受众定向的投放方式
4.视频广告:前插片、后插片、暂停等。前插片贵
5.社交广告:社交网络环境下嵌入的广告,如信息流中的广告。通过用户扩散式传播获取更大影响力。
注:在信息流的交互中挖掘价值前途光明。
6.移动设备广告:嵌套在应用里的广告。
7.邮件营销广告
----3.广告系统的架构:倒排检索加排序。排序规则:搜索以优化相关性为目标,但广告排序以优化投入产出比为目标。
三、在线广告简史
1.合约式广告:合同约定的方式确定某一广告位在某一时间段为某特定广告主所独占。
2.定向广告:targeted Advertising不同受众呈现不同的广告创意。
受众定向:audience targeting,标定某个用户的性别、年龄或其他标签。
广告投放机:Ad server,将广告投送由直接嵌入页面变为实时响应前端请求,并根据用户标签自动决策好返回合适的广告创意。
担保时投送交易:此时仍合约,媒体向广告主保证某个投放量,并在此基础上确定合同的总金额及量未完成情况下的赔偿方案。
3.竞价广告:定向后标签越来越精准,广告主越来越多,难以对细粒度标签组合的流量做准确预估,当一次展示同事满足多个合约时,仅按照在线分配策略决策,会浪费贵的流量。所以,抛弃量的保证,唯利是图。——竞价广告。
供给方只向广告主保证质即单位流量的成本,但不再以合约的方式给出量的保证。
4.上下文广告:付费搜索相当于定向广告,即时兴趣的标签就是关键词,把搜索词换成页面提取的关键词,就产生了上下文广告。
-------
5.广义第二高价:竞价理论。
6.广告网络:批量运营广告位资源,按照标签卖给需求方,需求方冲突时竞价分配流量。
7.实时竞价:RTB real time bidding,让需求方按自己的人群来定义挑选流量。只要把广告展示的上下文页面url,以及访客的cookie等信息传给需求方,就可以定制人群选择和出家。因此单一媒体能达到的reach会很有限,因此出现了很多聚合媒体,即广告交易平台。AD Exchange.
8.需求方平台:DSP(Demand Side Platform),通过实时竞价,按照定制化的人群标签购买广告,与广告交易平台接口的产品。DSP需要尽可能准确的估计每一次展示带来的期望价值。
-----------------------------------------
四、广告效果产生过程(选择、解释、态度)
1.曝光(exposure)
此阶段有效性与广告位的物理属性有关,优化空间不多。如何从算法上消除位置带来的点击率预估偏差,很重要。
2.关注阶段(Attention)
原则:1.尽量不要打断用户任务。明确传达推送广告的原因(受众定向广告创意优化的方向),内容符合用户兴趣或需求。
3.理解阶段(comprehension)
原则:1.广告内容要在用户能理解的具体兴趣方位内
2.注意设定与关注程度相匹配的理解门槛
3.互联网广告,应该集中强调一个主要诉求吸引用户注意力
4.接受阶段(acceptance)
广告的上下文环境对广告的接受程度有很大的影响。
广告安全问题:合适的广告出现在合适的媒体上
5.保持阶段(retention)
广告信息给用户留下长久记忆
6.决策阶段(decision)
越靠前的阶段,效果的改善对转化率的贡献越大。
参考:点击打开链接