计算广告:检索与投放算法总结

1.  检索和投放算法

1. 1 条幅广告检索

1.1.1 介绍

条幅广告是指在网络媒体的网页上所投放的条幅图片广告。分为确定投放和不确定投放。

三个子任务:用于信息生成、受众选择和性能预测。

有两种不同的受众定向(Audience Targeting)技术:

(1). 基于规则的定向(Rule-based); 

(2). 基于模型的定向(Model-based);

1.1.2 基于规则定向

所使用的规则是根据用户的属性信息生成的布尔检索条件 -----> 在广告数据库中进行检索 ----> 获得符合规则的广告。

按照用户属性信息可分为 人口统计定向(Demographic Targeting) 和 地址定向(Geographic Targeting)两大类。

人口统计定向主要是使用用户的人口统计学属性,这些信息来自用户注册信息 or ML算法学习获得。目前在这一领域取得的成果:

(1). 通过支持向量机回归算法(Support Vector Machine Regression)可以预测网页浏览用户的性别和年龄

Related paperGoogle AdWords(2010b). Demographic Site Selection. 

(2). 通过支持向量机分析可以预测博客用户的性别;72

(3). 通过潜在语义分析(Latent Semantic Analysis)可以自动创建用户属性信息;73

地址定向主要使用用户的地址信息,注册信息、IP地址、浏览器默认语言和搜索语言.

1.1.3 基于模型定向

是针对用户的行为信息和相关的网络环境信息,通过不同的学习算法来确定各种信息的权重,构建出广告匹配模型,然后依据所创建的模型在广告数据库中为用户选择最匹配的广告。

可以分为:行为定向(Behavior Targeting)、重定向(Re-targeting)和上下文定向(Context Targeting)三类。

(1). 行为定向:又称兴趣定向,是指网络媒体或广告联盟网络根据用户的历史行为信息, 在广告数据库中检索与之匹配的广告, 然后将检索出的广告定向投放给该用户.

用户的历史行为信息包括搜索历史、浏览行为、广告点击历史和交易历史等. 

相关的技术:

1. 针对网页浏览历史, 依据TF-IDF对用户进行刻画; 

2. 针对( 用户、效果) 矩阵, 依据潜语义索引( LSI)、概率潜语义( PLSI) 和潜Dirichlet 分配( LDA)等方法对用户进行聚类; 

3. 针对用户的点击行为历史, 依据线性泊松回归算法对类似用户进行聚类, 分析用户全局话题的趋势、分布以及数量的变化, 用户近期和长期兴趣的变化等等, 从而能够更好地对用户建模.

(2). 重定向:行为定向的一种特例,利用用户当前的行为信息,所投放的广告具有较强的目的性。

(3). 上下文定向:根据网页的上下文来选择所投放的广告,通常在无法获取用户信息时被使用;

1.2 赞助商广告检索

1.2.1 介绍

广告的投放目标位置是搜索引擎所返回的搜索结果页面。搜索引擎既充当了网络媒体也充当了广告网络。三方博弈的结果赢使总收益(Payoff)最大化。

用户的搜索行为分成三类:导航(Navigational)、获取信息(Informational)和事务(Transactional).

用户所提交的查询语句特点:(1). 查询短语较短; (2). 查询短语的使用频率呈幂律分布(Power Law),其中50%的查询语句每小时的使用频率在5次以下。

1.2.2 两类广告检索方法:

(1). 确切匹配(Exact Match), 广告以记录的方式保存在数据库中,依赖于数据库的查询处理机制来实现检索,数据库方法

(2). 高级匹配(Advanced Match),以文档的形式保存在文档库中,信息检索方法

在采用DB方法进行广告检索时,由于查询语句较短,只能够获得部分与查询相匹配的广告;由于查询语句的使用频率呈幂律分布,往往会导致部分广告被检索到,为了解决这些问题,在赞助商搜索的架构中通常都会引入查询重写(Query Rewriting)机制。

通过将各种查询重写机制(如查询日志、查询会话等)可以将查询q重写成新查询q’,然后利用q’ 在广告数据库进行相关广告的检索。查询替代(Query Substitution)是最常用的查询重写方法。

查询替代技术总结:

(1). 使用相关反馈、伪相关反馈或者检索到的文档进行替代,此方法简单,但是容易产生查询漂移(Query Drift).

(2). 使用查询日志、有效识别的查询会话(Query Session)或者查询链(Query Chain)进行替代。效果很好,但是可供选择的替代短语数量有限。

(3). LSI是通过矩阵奇异值分解来获取用于替代的相关短语。效果好,计算量大。

针对分布在长尾上的查询可以通过抽取特征(如单词、短语和所属类别等)以及检索查询日志等方法来进行查询扩展(Query Expansion). 

(4). 根据大量的历史点击数据,可以在查询与网页的URL之间构建马尔可夫随机场(Markov Random Fields), 或者通过优化后的Simrank算法 均能有效实现查询重写。

1. 3 联盟文本广告检索

1.3.1 介绍

在第三方的网络媒体上投放的文本广告。

根据投放精度不同,可分为两类:

(1). 以提供内容为主的传统网络媒体,如New York Times,广告收入作为主要收入来源,要求精度高;

(2). 以提供电子商务服务为主的混合网络媒体,广告作为额外收入,投放精度要求不高。

两类服务提供商:

(1). 搜索引擎公司;

(2). 广告联盟网络,如Double Click、聚胜万合和好耶等。

通常做法:在第三方网络媒体的网页中嵌入Java脚本,当用户访问网络媒体的网页时,Java脚本会将相关信息发送给广告服务器,并选择相关的广告进行排序投放。

1.3.2 关键词抽取技术

谷歌、雅虎和微软都有针对第三方网络媒体尽心广告投放的系统,分别是AdsenseContent match和 Content Ads。在提供联盟广告投放服务时,搜索引擎公司为了能够重用赞助商搜索中所使用的广告投放平台,通常采用基于网页key words abstract 的技术来投放联盟广告,具体包括以下几类:

(1). 关键词抽取

使用参数可调遗传算法的规则关键词抽取系统GenEX比通过C4.5训练的关键词抽取系统更准确;基于朴素贝叶斯学习算法构建的分类器,以及基于ML算法构建的KEA关键词抽取系统;

  (2). 使用语义模板(Semantic Templates)的信息抽取

从无结构文档抽取具有特定结构的信息,所采用的算法:聚类、一组特定整合模式、概念层次、隐马尔可夫模型和符号学习规则;

(3). 新查询抽取

利用领域相关关键词抽取方法从不同的数据源,通过TF*IDF、词根法或语言信息等方法,来抽取代表新查询的关键词;

(4). 关键词扩展

网页关键词与广告关键词不一定匹配,即所谓的关键词阻碍问题(Impedance Coupling),通过贝叶斯网络方法来实现关键词的扩展,以提高匹配效果。

1.3.3 信息检索方法
广告联盟网络一般使用IR方法来实现对广告的检索,即以广告数据构建检索文档库, 以目标网页作为检索条件, 来获取最匹配的广告. 

各类信息检索方法均可以用于广告检索, 具体可以划分为如下几类:  

(1). 基于向量空间模型的算法. 首先根据不同的数据( 如标题、主题文本或者分类) 构建网页向量和广告向量, 然后通过余弦算法、遗传编程等算法来计算广告向量与网页向量之间的相似度, 并按照相似度的大小对广告进行排序.

(2). 基于相关反馈的算法. 首先抽取网页和广告中的特征( 如标题、全文等) , 然后构建广告点击的近似逻辑斯蒂回归( Logistic Regression) 模型, 并由此预测和选择与网页最为相关的广告. 

(3). 基于概率模型的算法. 首先通过广告点击数据构建广告与分类、网页与分类之间的概率模型, 然后通过EM 算法解决广告与网页关键词不能直接匹配的问题。

(以上是基于论文《计算广告:以数据为核心的Web综合应用》(作者:周傲英,周敏奇,宫学庆)的总结)

你可能感兴趣的:(计算广告:检索与投放算法总结)