原文链接:http://cjc.ict.ac.cn/quanwenjiansuo/2011-10/zay.pdf
摘要
涉及学科:数据管理、信息检索、数据挖掘、统计分析、机器学习、分布式系统等.
形式:在线广告投放、移动终端广告投放、社会网络应用广告投放、用户信息分析等.
文章内容:
1. 主要介绍计算广告学的演化过程:
计算广告投放模式的演化(由按合约投放演变为实时竞价投放)、
计价模式的演化(由按展示计价演变为按点击计价、按交易计价等)、
投放目标的演化(由品牌效果展示演变为直接市场营销);
计算广告学的组成部分,包括计算广告产业链(如广告主、网络媒体、联盟网络、广告交换、需求方平台、销售方平台等)、
计算广告的分类(如条幅展示广告、赞助商搜索、联盟广告等).
2. 重点讨论了广告检索、排序投放算法以及广告离线分析、实时投放平台等关键技术和平台.
3. 在移动计算环境下的移动终端的广告投放、基于位置信息的广告投放、基于社会网络的广告投放等新型应用模式对计算广告学发展的影响
2.2 互联网广告计价模式
互联网广告的计价方式经历了从按展示计费(CPM)、按点击计费(CPC)到按交易计费(CPT/CPA)的转变过程
3 检索与投放算法
3.1 条幅广告检索(定向投放)
子任务:用户信息生成、受众选择和性能预测
在投放受众的选择上还存在着两类不同的定向(Targetting)技术:基于规则的定向(rule-based)和基于模型的定向(model-based)
基于规则的定向技术:
1.根据用户的属性信息生成的布尔检索条件
2.利用这些布尔检索条件在广告数据库中进行布尔检索获得符合规则的广告
根据规则中所涉及用户属性信息的不同,基于规则的定向技术又可分为人口统计定向
(demographic targeting)和地址定向(geographic targeting)两大类
人口统计定向主要使用用户的人口统计学属性,例如,年龄、性别、收入、职业和学历等,
这些信息一方面可以通过用户的注册信息获得,另一方面还可以通过机器学习算法来学习获得:
例如,通过支持向量机回归算法可以预测网页浏览用户的性别和年龄;通过支持向量机分析可以预测博客用户的性别;通过潜语义分析可以自动创建用户的属性信
息;通过用户所搜索的关键词可以预测用户的性别等
地址定向主要使用用户的地址信息,例如家庭住址和当前所在位置等,这些信息可以通过分析用户的注册信息、IP地址、浏览器默认语言和搜
索语言等来获取.
基于模型的定向技术:
对用户的行为信息 + 相关的网络环境信息 + 不同的学习算法(确定各种信息的权重) = 广告匹配模型
基于模型的定向技术具体可以分为行为定向(behavior targeting)、重定向(re-targeting)和上下文定向(context targeting)三类
行为定向(behavior targeting):
用户的历史行为信息包括搜索历史、浏览行为、广告点击历史和交易历史等
举例:
针对网页浏览历史
依据TFIDF对用户进行刻画;
针对(用户、效果)矩阵,依据潜语义索引(LSI、概率潜语义(PLSI)和潜Dirichlet分配(LDA)等
方法对用户进行聚类。
针对用户的点击行为历史
依据线性泊松回归算法对类似用户进行聚类,分析用户全局话题的趋势、分布以及数量的变化,用户近期和长期兴趣的变化等等,从而能够更好地对用户建模
重定向实际上是行为定向的一种特例,是利用用户的当前搜索信息或浏览信息来分析用户当前的兴趣,从而选择适合的广告投放给该用户.因为重定向利用的是用户当前的行为信息,因此所投放的广告具有较强的目的性,通常能获得较高的广告点击率。
上下文定向
是指根据网页的上下文内容来选择所投放的广告,所涉及的广告投放技术与联盟广告投放所采用的技术类似.上下文
定向技术通常在无法获取用户信息时被使用.此时,由于无法实现针对用户的个性化投放,因此只能根据网页的内容来投放广告,所投放广告的点击率一般也比采用其他定向方法所投放广告的点击率低,但仍比未使用上下文定向时高出2~3倍.
回应还是预测?
当用户的属性信息过多时通常采用回应方式(reaction)进行处理,即通过类比先前发生过的场景进行条幅广告检索;而当用户的属性信息过少时通常使用预测方式(predictive)进行处理,即通过当前场景的特征以及先前预测时各特征的权重来预测最匹配的广告。
3.2 赞助商广告检索
一种特定的广告投放形式
其广告投放的目标位置是搜索引擎所返回的搜索结果页面
因此赞助商搜索便成为广告主、用户和搜索引擎三方的一个博弈过程:
博弈的目标是要使三方的总收益(payoff)最大.通常可以使用凸线性组合来对博弈的收益进行模拟:
即U = w1* utility ad + w2 * utility of pb + w3 * utility of usr
注意,由于较难衡量广告主的长期效益,因此只强调单次搜索能够产生的效用,即注重用户每次搜索的效用和广告主在每次搜索中的投资回
报率.
可行性:研究表明,用户的搜索行为可以分成三类:导航(navigation)、获取信息(informational)和事务
(transactional),各自所占的比例分别为25%,40%和35%].显然,用户在使用搜索引擎进行搜索
时往往具有较强的目的性,因此可以比较有针对性地在用户搜索的结果页面上投放广告.
如何实现:
查询短语与广告内容的简单匹配
出现问题:由于查询短语的使用频率呈幂率分布,往往会导致部分广告被频繁地检索到。
解决办法:在赞助商搜索的架构中通常都会引入查询重写(query rewriting)机制.
方法:
相关反馈(RelevanceFeedbac)
伪相关反馈(Pseudo RelevanceFeedback)
是使用查询日志(QueryLog)、有效识别的查询会话(QuerySession)或者查询链(Query
Chain)进行替代
潜语义索引(Latent SemanticIndex)是通过矩阵奇异值分解来获取用于替代的相关短语
根据大量的历史点击数据,可以在查询与网页的URL之间构建马尔可夫随机场(MarkovRandomFields)[44],然后通过随
机行走算法来生成新的查询短语,
通过优化后的Simrank算法均能有效实现查询重写.
3.3 联盟文本广告检索
目前,主要有两类服务提供商为广告主提供联盟广告的投放,一类是搜索引擎公司,如谷歌和百度等;另一类是广告联盟网络,如DoubleClick、聚胜
万合和好耶等.虽然这两类服务提供商通常采用不同的广告检索和排序方法,但他们所使用的广告投放架构是一样的.如图5所示,广告服务提供商会在
第三方网络媒体的网页中嵌入Java脚本,当用户访问网络媒体的网页时,Java脚本会将相关的信息发送给广告服务器,并选择相关的广告进行排序投放
网页内容和广告内容的匹配:
(1)基于向量空间模型的算法:
首先根据不同的数据(如标题、主题文本或者分类)构建网页向量和广告向量,
然后通过余弦算法、遗传编程等算法来计算广告向量与网页向量之间的相似度,并按照相似度的大小对广告进行排序.
(2)基于相关反馈的算法:
首先抽取网页和广告中的特征(如标题、全文等),
然后构建广告点击的近似逻辑回归(LogisticRegression)模型,并由此预测和选择与网页最为相关的广告.
(3)基于概率模型的算法:
首先通过广告点击数据构建广告与分类、网页与分类之间的概率模型
然后通过EM算法解决广告与网页关键词不能直接匹配的问题,最终为网页选择最相关的广告.