计算广告的历史、现状及未来

计算广告的历史、现状及未来

本文转载自:http://www.csdn.net/article/a/2013-10-21/15816923


摘要:广告是企业为了一定目标(比如市场占有率、知名度等),通过媒体影响受众行为的营销手段。根据不同的目标,一般可分为品牌类广告和效果类广告。对于现代商业社会和市场经济的形成,广告起到了至关重要的作用。计算广告则是互联网和大数据时代,由工业界驱动下产生的新型广告投放方式和形态。


  1994年10月,互联网广告第一次出现在hotwired网站上,用户点击了该广告之后,就会被引导到AT&T的网站上。从这之后互联广告开始蓬勃发展,可以说广告业务支撑了整个互联网的发展,没有广告业务也就没有今天的互联网。
  
  广告投放是将广告与受众的需求作匹配,这一点线下广告与线上广告并无二致。由于受众需求的多样性,如何准确地细分受众的需求是广告投放的核心命题。线下广告只能通过媒体的不同、版面或频道的区别等方式间接获得细分的受众需求。比如在一本计算机杂志上刊登Andrio开发培训的广告,在一部青春剧前播放健身房的广告等。

  很明显,这样匹配的准确率不会很高且在线下投放模式下无法优化。看同一份杂志的消费者,总是看到同样的广告;电视广告也是这样。线下广告始终无法逾越这个规律:同一媒体的受众,不同的受众面对的广告也是相同的。广告先于互联网产生,不管是在吆喝、报纸、广播和电视时代还是在互联网时代,广告的本质一直没有变——企业传递给受众的信息。既然是信息就有价值,不过该价值取决于信息的场景,当信息不在恰当的场景下,信息就成为了一种骚扰。可以认为传统的线下广告对很多人造成了信息骚扰,这也是很多人不喜欢广告的原因。

  互联网和计算技术的发展使互联网广告具备了突破这一规律的能力,把广告信息投放在恰当的用户和场景下。第一、互联网的用户在网上留下了各种行为数据,广告发布商可以据此利用统计及机器学习方法有效地将用户进行分类,从而实现广告受众需求的细分;第二、广告主或广告发布商可利用这些用户行为数据精准衡量广告的投放效果,从而及时调整广告投放,以达到某种目标(比如提升广告匹配受众的准确率,或者广告发布商的收益等)。这两点就是计算广告的精髓。

  但并不是所有的互联网广告都属于计算广告的范畴。上面提到的互联网发展早期的广告和一些固定位置投放的banner广告,并没有体现出上述两个特点,因此与线下广告投放无异,只不过是广告的载体发生变化而已。

  一般情况下,互联广告有4个参与方:媒体、广告主、广告网络平台、互联网用户。媒体通过内容吸引用户,并且提供广告位;广告网络平台按照某种目标和规则分配广告位给广告主,收取费用并和媒体分成;广告主提供广告内容以及付费;互联网用户访问媒体的网站内容,点击感兴趣的广告并且发生购买或者增加品牌忠诚度等对广告主正面影响的行为。这四个参与方各自有自己的利益诉求,此消彼长,计算广告通过创造性引入各种模型、算法和机制实现广告,场景和受众的优美匹配,实现多方的利益共赢。

这里给出业界对计算广告比较公认的定义(Andrei Broder and Dr. Vanja,2011):
计算广告是为给定场景c下的用户u找到一个合适的广告a,以实现“最优”匹配。(Find the “best match” between a given user u in a given context c and a suitable advertisement a.)。该定义中并没有互联网的概念。也就是说,如果地铁里安装某种装置,可以识别通过的人群信息,然后经过计算切换或滚动出相应的广告,那么这就是线下的计算广告。

  不过,计算广告肇始于互联网,而且至今互联网仍是计算广告的主战场,所以本文仍主要关注互联网中的主要计算广告形态:搜索广告、广告网络、广告交易市场。


搜索广告

  当用户在百度等搜索引擎进行检索时,在搜索结果页面上看到的广告形式,称之为搜索广告。标准的搜索广告样式是文本广告,由标题、描述和URL超链组成,与自然搜索结果类似。一般情况下搜索广告会出现在自然搜索结果的上方或者右侧。

  搜索广告对受众需求的划分是由用户输入的检索词为界限的,搜索引擎通过检索词触发同一类广告展现。这些广告是广告主事先提交关键词和广告创意存贮在广告数据库中的。由于搜索用户的需求意图比较明确,搜索引擎能更好的匹配广告库中的广告,所以成为投放效果最好的一类互联网广告。

  搜索引擎一般根据用户点击广告的次数向广告主收取费用,业界称为按点击付费(Cost Per Click,CPC)。

搜索广告的技术主要体现在以下几个方面:

(1)广告触发

  广告触发,是指从用户搜索的检索词(query)找到广告主所购买的关键词(keyword)集合,进而筛选出可以展现的广告集合。在实践中广告触发面临的技术挑战是在一个动态的广告库集合(广告主可以即时增加、删除和修改关键词和广告创意)上实现在线匹配(不能影响正常检索需求,所以需要在毫秒级内完成)。从触发的目标来看,广告触发匹配的是“人”的需求,而不是静态的文档,所以广告主的体验和用户体验都是必须考虑的因素。同时,还需要结合下面要提到的拍卖机制,最大化搜索引擎的收益。

  推荐技术与检索的思路近似。它们的区别是推荐满足用户的潜在需求,而检索满足用户当下主动表达出的需求。比如当用户搜索“比格自助餐”时,为其推荐“好伦哥”,甚至是“带自助餐的KTV”。当然,推荐技术也常用于广告触发和匹配中,比如基于概率的主题模型(topic model)中的PLSA和LDA。

(2)点击率预估

  因为搜索广告是按点击付费的,且搜索结果页上的广告点击率随着位置的下降迅速减少,所以广告点击率预测的精准性对搜索引擎的收益影响至关重要。点击率预估的基本任务就是给定一个组输入(用户查询词、广告信息、用户信息及其他上下文信息)来预测一个点击是否会发生。

  通常点击率预估使用典型的机器学习技术。选定某个时期展现日志的数据作为训练集,输入一组特征X(包括查询词字面特征,广告账户结构、创意特征及用户的特征等)和样本标注y(广告是否被点击),利用机器学习算法(比如SVM和LR等)输出一个模型f,使得f(X)与y尽可能接近。

  在实际的应用中,用户的点击数据非常稀疏且呈幂律分布的形式。这就导致通常的预估方法方差会很大,即使是充分多的历史展现数据,也总有数据不充分的部分。一般会采用大量细颗粒度特征,精细刻画CTR,像百度和Google这样规模的搜索引擎一般会达到百亿级别的特征。

  除了使用传统的机器学习模型,机器学习领域的新技术也开始应用到ctr预估这个领域,比如目前炙手可热的深度学习模型。

  对于那些历史展现数据不充分的广告,需要利用在线学习的方式,比如探索和利用(Explore-Exploit)的方法让这些广告有充分展现的机会。这种方法本质上是拿当前的短期收益去探索更好的广告以换取更长期的收益。与典型的探索利用模型(多臂赌博机问题multi-arm bandit problem)相比,搜索里面的探索与利用问题更具有挑战性:1、需要探索的广告数量极大;2、每个广告的点击率会随着时间环境的变化而变化。一般情况下,探索与利用的方案会损失平台方的短期收益,而长期收益的影响很难评估。因此虽然这个问题很重要,目前工业界并没有较好的解决方案,通常做法是开启一小部分流量让展示不充分的广告获得展示。

(3)拍卖与机制设计

  广告触发解决如何筛选可展现的广告,点击率预估则对这些广告的质量进行评判,搜索引擎还需要解决如何为这些广告分配广告位的问题。这就是机制设计的内容。

  现在业界通常使用广义二价(GSP: Generalized Second price)拍卖机制。该机制最早由Google于2002年使用。

  什么是GSP机制?搜索引擎根据广告主为每个关键词的出价B和由预估点击率形成的质量分Q来确定广告的排序,具体来讲,根据B×Q的大小依次在搜索结果页面从上至下排列广告。当用户点击某广告i时,广告主按下面的公式向搜索引擎支付:Bi+1×Qi+1/Qi。其中i+1是紧挨着广告i下面的广告。

  这种机制并不是搜索引擎一开始就采用的。搜索广告的先驱Overture采用的是广义一阶价格(GFP)拍卖。在完全信息的情况下,其在理论上没有博弈的均衡,从而价格的波动性很大,搜索引擎的收益和系统的效率都不高。GSP机制存在博弈上的均衡,其在均衡的状态下,是有效率的分配。

  但GSP机制并不是能给搜索引擎带来最大化收益的机制。在机制设计理论上,收益最优的机制是Myerson机制,效率最优(所有广告主产生的价值总和最大)的机制是著名的VCG机制。实际的机制设计中虽然很少有采用这两种机制的,但许多设计和研究都会涉及到它们。比如业界使用的GSP机制,其在博弈上的一组均衡收益不会低于VCG机制产生的收益。

  这些机制设计理论往往有很多假设,比如广告主是理性的,广告主有着完全信息,这在实践中会面临不小的挑战。搜索引擎常常会根据实际的广告主行为,对机制进行相应调整,以适应环境的变化。另外搜索引擎为了提升自己的收益,常常会在现有的机制上加上保留价。例如Yahoo在2008年的时候实验了Myerson的机制,并据此为每个关键词设置了保留价,平均20美分,据持续观测,08年第三季度保留价设置对营收的影响约为13%。

(4)反作弊技术

  搜索广告是按照点击计费的方式,在这种情况下,不可避免的遇到某些点击是无效的、恶意的,这些点击对广告主来说毫无价值,一般情况是竞争对手的恶意策略导致的。虽然恶意点击在短时间内会提升搜索引擎的收益,但是广告主的推广满意度和ROI会随之下降,必然减少推广投入,从而导致长期营收下降。因此把无效和恶意的点击过滤也是搜索广告生态圈里面重要的一个环节。反作弊技术也是通过机器学习或者统计模型识别有规律性的点击攻击行为,然后对这些点击进行过滤。但是随着作弊技术的发展,点击攻击的行为越来越不容易识别,此外有些攻击是通过有组织的团体通过人工发起的,这些都对反作弊的技术提出了更高的要求。


广告网络(Ad Network)

  搜索引擎解决了在线广告市场需求面的问题(中小广告主如何购买广告位),在线广告市场供给面的问题(中小网站如何出售广告位)并没有触及。

  实现聚合中小网站广告位的是广告网络。这种网络联盟集中分散的广告位库存,开发分发广告的投放引擎,使中小网站出售广告位成为可能。

  搜索引擎仍然是此种能力的最佳候选者:一方面搜索引擎是上网的入口,因此吸引了大量中小网站围绕在其周围以获得流量;另一方面搜索广告又带来大量投放广告的客户,本身具有投放广告的技术服务能力和营销能力。搜索引擎天然就是广告主和网站之间的一座桥梁。虽然最早的广告网络并不是搜索引擎首创,但最成功的广告网络毫无疑问应该是搜索引擎创造的。典型的就是Google的广告网络AdSense和百度网盟。

  广告网络不仅可以为中小网站提供广告变现的渠道,同样可以为大型网站的长尾广告位实现合理的收益。一个主流的新闻门户网站包含众多频道,主页或热门频道可以自己出售广告位(比如主页放置可口可乐的广告,汽车频道放某汽车品牌的广告等)。但在一些位置不好,流量较少的频道上,网站并不一定能随时卖出去这些广告位。于是,委托给这种广告网络也是一种不错的选择。

  和搜索广告的query定向不一样,广告网络通过受众定向的方式进行广告匹配。常见的受众定向方式有以下几种:1、用户重定向(也称为再营销)。所谓的重定向是将广告信息再次推送到访问过广告主网站的用户。2、上下文定向。对网站的内容和广告的内容进行匹配,定位受众。3、行为定向。按照用户行为分析用户的兴趣爱好等,投放相关的广告。4、按照人口统计学以及地理位置定向。从效果来看,用户重定向的效果是最好的。目前这几种定向方式普遍应用于Google的adsense和百度网盟。

  受众定向实际上就是对广告主、用户以及上下文进行打标签的过程。这些标签的功能主要有:(1)建立面向广告主的售卖体系;(2)为点击率预估模块提供特征。

广告网络的技术挑战可以用三个词来概括:大数据,低收益率,用户意图不明显。

大数据:广告网络通过cookie技术收集用户的各种历史行为数据,以及网站和广告的各种特征数据,进行广告匹配度计算,整体的数据量在P级别以上。

低收益率:相比搜索广告,广告网络的广告位较差,变现价值较低,因此更需要考虑单次广告检索带来的机器成本等因素。

用户意图不明显:相比搜索广告,用户在广告网络中没有搜索Query来确定用户的意图,为了找到最匹配的广告,需要收集大量用户的历史行为信息来挖掘用户的意图特征。

另外广告网络的出现和发展给网站带来了许多收益管理问题:

− 广告位是自己销售还是通过广告网络卖出去?

− 如果网站与某些广告主有担保合约,即保证给广告主约定的广告展现数,违约会有相应惩罚。所以网站需要保留一定数量的展现机会给这些合约广告主。这就要求网站能预估自己的流量和变现质量。

− 在市场上会有多个广告网络,每一家广告网络的广告主类型和数量都不一样,如果网站都要接入,就要考虑便利的管理和收益优化。这需要广告主了解每个广告网络广告主的支付能力和分成比例。

  解决这些问题是计算广告学的任务。已经有一些公司专门为这些网站提供外包服务,除了收益管理的主要功能外,还为网站提供广告投放管理和广告业务分析等相关服务。


广告交易市场(Ad Exchange)

  广告交易市场是交易广告投放的场所,不过这里交易的不是广告位,因为广告位不是个标准化的交易对象。像股票交易所那样把经营的企业转化成股票去交易,广告交易市场是把广告位转化成“有不同标签的受众”去交易,不同标签的受众如广告网络里面一样。

  假如一家主营家庭清洁护理产品的公司希望面向30-40岁的已婚女性受众推广他们的新产品便捷拖把。他可以在广告交易市场购买标签为“30-40岁,已婚,女性”的受众。当有这样一个受众打开网站W查看天气预报,网站W或者替网站W管理收益的第三方平台首先判断是否通过广告交易市场出售广告位。如果决定通过广告交易市场出售,那么需要把受众和页面信息及最低的价格(通常是CPM)发送给广告交易市场。

  广告交易市场获得这个出售的需求后,确定将这一信息发送给哪些广告主。通常接入广告交易市场的是广告主的委托代理人——需求方平台(Demond Side Platform, 简称DSP)。DSP虽然类似于传统广告代理,但DSP是个技术导向的平台,它的主要职能是为广告主寻找物美价廉的广告展现机会。

  广告主或DSP借助数据管理平台(Data Management Platform,简称DMP)提供受众标签,了解这个受众的基本属性。然后返回广告交易市场两个信息:

  − 我是否需要这次广告展现机会

  − 如果需要,我的最高报价是多少

  广告交易市场会收到多个DSP的报价信息,他通过既定的拍卖规则确定赢家,同时把赢家的广告物料传递给这个网站W,网站则在既定的位置展现这个广告,受众就看到了便捷拖把的广告。

  上述过程经历了网站W、SSP、Ad Exchange、DSP及DMP等多个信息平台,通过精细的计算和拍卖,从用户打开网页开始到她看到广告为止,业界的标准时间是毫秒级。

  整个交易过程是通过实时竞价RTB(Real Time Bidding)的方式进行的,是对每一次展示进行竞价。广告交易市场以DMP为重要依托,整合DSP、SSP进行RTB,从而实现各方资源的最优配置。

  这个过程涉及到广告发布的多方利益,谁获得的信息多,谁计算最准确,谁系统运转良好,谁就能占据优势,这里同样是计算广告学的用武之地。


未来的挑战与发展

  计算广告相关技术的进一步优化。机制层面:“拍卖机制”是计算广告的核心技术,目前的机制并不是激励兼容的,广告主要花很多的时间和精力在出价策略上,如果机制是激励兼容的,广告主直接出自己的心里估计就行,节省大量的人力和物力,因此如何设计一个简单易于理解而且是激励兼容的机制具有很大的挑战性;

  目前移动互联网发展迅猛,越来越多的流量和用户转移到移动设备上。由于移动设备的屏幕较小,合理的出广告,平衡网民、广告主和媒体的收益在产品和技术上都有较大的挑战。当然这里也有更大的机会,因为移动设备上有更多的特征可以定位用户的兴趣和爱好,与LBS结合,如何利用好这些特征,让移动广告发挥更大的价值也是未来有挑战的发展方向。

  计算广告的隐私问题。除了搜索广告之外,基于受众定向的广告匹配都比较依赖用户cookie的收集和使用。目前国内没有法律法规来规定cookie该如何使用,使用到什么程度,因此如何平衡好cookie的使用及隐私问题也是需要应对的一个问题。

  多屏联合投放问题。随着越来越多的设备接入互联网(电视、户外电子显示屏),如何在多个屏幕上统一的投放,优化效果,也是未来的挑战。

你可能感兴趣的:(计算广告,计算广告,业务,互联网)