计算广告技术概览——计算广告读书笔记

个性化系统框架

广告系统是一个典型的个性化内容系统。一般的个性化系统有四个主体部分构成:用于实时响应请求,完成决策的在线投放引擎;离线的分布式计算数据处理平台;用于在线实时反馈的流计算平台;连接和运转以上三部分数据流的数据高速公路。


个性化系统一般框架

在线投放引擎决策使用高速缓存中的人群标签和模型参数。

离线数据处理平台周期性地以批处理方式加工过去一段时间的数据,得到人群标签和其他模参数,存放在高速缓存中,供在线系统使用。

流计算平台负责处理最近一小段时间的数据,得到准实时的用户标签和其他模型参数,也放到高速缓存中,供在线投放系统决策时使用,对离线处理结果的及时补充和调整。

数据高速公路完成各种数据的高速传输和各个系统的打通。

个性化系统的区别:


Web-Scale技术问题比较

计算广告系统架构

在一个完整的广告系统架构中,数据的记录、交易、流转、建模和使用是关键,因为这些是广告系统最核心的驱动力,也从本质上决定了广告产品的变现能力和利润空间。因此,广告系统被归于大数据产品之列。

最基本的广告产品,需要有广告投放机和相应的日志系统,实现简单的定向投放逻辑。随着对广告效果深入优化的需求,需要建立起完整的广告排序和用户行为反馈模型。而当中小广告主大量增加时,就需要实现广告的倒排索引和相应的检索功能。

广告投放引擎

一般来说,广告系统的投放引擎采用类搜索的架构,即检索加排序的两阶段决策过程。另外,广告投放引擎柴油一个独特模块,就是要从全局优化的角度对整体收益进行管理。


在线广告系统一般性架构示意

广告投放机

广告投放机的主要任务是与其他各个功能模块打交道,并将它们串联起来完成在线广告投放决策。一般来说,为了扩展性的考虑,都采用类搜索的投放机架构,即先通过倒排索引从大量的广告候选中得到少量符合条件的或相关的候选,再在这个小的候选集上应用复杂而精确的排序方法找到综合收益最高的若干个广告。对广告投放机来说,最重要的指标是QPS以及广告决策的延迟。

广告检索

在线根据用户标签与页面标签,从广告索引中查找符合条件的广告候选。广告检索得到的候选将被送入广告排序模块。

广告排序

在线高效地计算广告的eCPM,并进行排序的模块。eCPM的计算主要依赖于点击率估计,这需要用到离线计算得到的CTR模型和特征,有时还会用到流计算得到的实时点击率特征。在需要估计点击价值的广告产品(如按效果结算的DSP)中,还需要一个点击价值估计的模型。

收益管理

统一代表在各个广告系统中将局部广告排序的结果进一步调整,以全局收益最优为目的做调整的功能,如GD系统中的在线分配、DSP中的出价策略等。这部分一般都需要用到离线计算好的某种分配计划来完成在线时的决策。

分布式计算平台

用户行为分析和建模。

流计算平台

对用户行为进行实时判断,过滤作弊流量,实时反馈、更新用户标签、实时计费。

数据高速公路

跟踪用户日志,记录投放日志。

你可能感兴趣的:(计算广告技术概览——计算广告读书笔记)