[转]内容匹配广告投放技术


ps: 本文是百度文库课程《计算广告学之内容匹配广告&展示广告原理、技术和实践》的课程笔记,感谢百度!



内容匹配广告投放技术1:网盟概述&工程架构

课程地址http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d


第一章:内容匹配广告投放技术:网盟概述&工程架构
这章讲述内容匹配广告投放技术的概要,包括基本概念,系统框架,以及应用技术。

四大角色——互联网广告涉及的四大角色,其中网盟是用户看不到的。
[转]内容匹配广告投放技术_第1张图片
[转]内容匹配广告投放技术_第2张图片


网盟广告检索系统——这是一个从子系统角度看的网盟广告检索系统,主要包括页面特征子系统,用户特征子系统,广告特征子系统,检索子系统,CTR预估子系统

[转]内容匹配广告投放技术_第3张图片

网盟广告检索系统所需要用到的技术,从底向上是从基础到高级应用。
[转]内容匹配广告投放技术_第4张图片

应用技术——分层实验框架
广告系统优化是数据驱动,需要实验证明结论。

应用技术——用户识别
以下是应用技术层面的用户识别可以使用的技术,其中广告行业用到的最多的是HTTP COOKIE和FLASH COOKIE
[转]内容匹配广告投放技术_第5张图片
[转]内容匹配广告投放技术_第6张图片

用户识别技术新动向——CookieMatching
[转]内容匹配广告投放技术_第7张图片

应用技术——高性能检索
细分为计算模型,网络模型,索引模型
[转]内容匹配广告投放技术_第8张图片
触发策略将会通过query向量得到一批广告,然后通过交并进行归并(使用归并算法),过滤策略将会过滤一些网站主不允许投放的一些广告,初选策略会选出一些相关性从高到低的已排序广告(一般使用堆排序算法),精选策略将会精选出收益最高的广告。
[转]内容匹配广告投放技术_第9张图片

********************************************************************************************************************
[转]内容匹配广告投放技术_第10张图片
********************************************************************************************************************

[转]内容匹配广告投放技术_第11张图片
********************************************************************************************************************

[转]内容匹配广告投放技术_第12张图片
********************************************************************************************************************
[转]内容匹配广告投放技术_第13张图片
********************************************************************************************************************

[转]内容匹配广告投放技术_第14张图片
********************************************************************************************************************
[转]内容匹配广告投放技术_第15张图片

索引的实现一般使用两种结构:树形结构和hash结构。
使用内存池的好处:1)分配内存的时候不用从用户态切换到系统态而消耗大量时间(操作系统用malloc申请内存的时候需要从用户态切换到系统态);2)内存碎片更少,使管理更加高效。

[转]内容匹配广告投放技术_第16张图片

广告主操作广告的系统会在独立的服务上面,广告检索系统也在独立的服务上面,两者在物理上是隔离的,要将数据从广告主操作广告的系统传输到广告检索系统中,如果保证实时高效?一般采用如下基准加增量的形式,可能每天两次传一个100G的基准过来,然后后面广告主对广告的操作都会通过patch的形式增量的传输过来,最后进行合并形成最新的库。
[转]内容匹配广告投放技术_第17张图片

无锁读写分离:采用COW,如果读的时候又有写操作,那么读的时候是读的旧版本,写的时候会将之前的版本复制出来进行修改变成新版本,这样就是读写分离,写完之后进行版本切换,版本切换就是一个指针的切换,是一个原子操作。延迟销毁:因为在多线程中,老版本的数据不能立即销毁,因此切换后可能使用老版本的线程并未结束,还需要访问这些老版本的数据,所以等待1到2秒等待线程结束后对老版本进行销毁。
[转]内容匹配广告投放技术_第18张图片

需要使用普通的服务器承载大容量的广告库,当一台服务器内存不够用时,加一台机器进来就可以,但此时内存中的索引如何扩展呢?划分partition索引系统,既可以横向划分索引(将词划分成组,不同机器存储不同的组),也可以纵向划分索引(将拉链切开成组,可能一开始有20长度的链,划分成只有5个长度的链)。
[转]内容匹配广告投放技术_第19张图片

partition划分,数据和计算的可扩展是基础,如果数据和计算不是可扩展的,那将不可能能进行划分。拿宽带增长为例,比如在一台机器上做top100的计算,如果数据划分到4台机器上做top100计算,那么每台机器上都要返回top100,将一共要返回400条数据,然后在400中做top100,此时宽带增长为4倍了。


[转]内容匹配广告投放技术_第20张图片

下图是索引扩展的逻辑结构,用户请求过来之后做流量控制,将一个请求拆解成多个请求,分到不同的Cluster里面,每个cluster里面都会有很多的query节点去处理这个请求,每个cluster里面的数据和程序是一模一样的(完全同构),每个cluster里有一个索引节点Index Node,索引节点会定期的把广告的索引下载一个基准出来,当query节点要重启的时候,就可以用这个最新的基准加上最新的增量进行快速的启动。下部分的广告数据传输采用的是分布式的消息队列。整个集群的逻辑分布,哪个集群部署了哪些数据是通过资源定位服务来记录的,通过此服务就知道哪个请求该发到哪个集群里去才是正确的。



内容匹配广告投放技术2:网盟广告匹配(一)



课程地址 http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d
第二章:网盟广告匹配
这章包括 网盟广告投放,广告匹配算法,页面特征提取,用户特征提取,广告特征提取这五个小节。

第一节:网盟广告投放
网盟生态圈,ROI:投资回报率
[转]内容匹配广告投放技术_第21张图片


网盟广告投放
[转]内容匹配广告投放技术_第22张图片

**************************************************************************************************************
[转]内容匹配广告投放技术_第23张图片
**************************************************************************************************************
[转]内容匹配广告投放技术_第24张图片

联合总结起来如下:
[转]内容匹配广告投放技术_第25张图片

第二节:广告匹配算法
低margin的概念:网盟的收入跟他的投入之间的gap很小。比如10w次的展现使用一台机器能赚到100块,这100块比一台机器的价值高不了多少。
[转]内容匹配广告投放技术_第26张图片

广告检索系统为漏斗模型的原因主要还是在算法效果和性能之间寻求一个折中。漏斗模型从上到下,上层的算法是比较简单的,能够处理大批量的广告,越到下层,算法越精细,它将计算一些topK的广告。

片段触发:广告索引中,索引的key是片段(用户或者页面会提供一些片段,比如说代表这个用户或者网页的关键词或者分类,这是用户特征挖掘子系统和网页特征挖掘子系统所做的事),然后倒排拉链中是一些广告(平均一个拉链大概是几千),通过把用户跟网页转化成片段就能够触发一批广告;
相关性排序:由片段触发拿到一批广告候选集,这些广告要和这个用户上下文和页面上下文做一个匹配,低相关性的广告将会被去掉;
业务过滤:比如说广告主没有预算了,地域限制等,过滤剩下的广告大概为100个;
CPM排序:CPM即基于广告显示次数,每千人成本(网盟和网站主的利益最大化),CPM越高的广告会越排在前面;
机制调整:由于用户体验和广告主的一些收益问题而进行机制的调整。

[转]内容匹配广告投放技术_第27张图片
**************************************************************************************************************

[转]内容匹配广告投放技术_第28张图片

匹配度一般包括三类,词项的匹配度,潜在语义的匹配度 ,分类信息的匹配度 。

[转]内容匹配广告投放技术_第29张图片

最后的相关性可能是以上三类匹配度再加上其他的各种各样的因素最后得到的一个模型,这个模型很可能就是一个简单的回归模型,这个回归模型则需要人工标注语料,进行模型训练。另外还有一些行业规则,比如某一类的流量只能出某一类的广告。

[转]内容匹配广告投放技术_第30张图片
**************************************************************************************************************
[转]内容匹配广告投放技术_第31张图片
**************************************************************************************************************
[转]内容匹配广告投放技术_第32张图片

过展现控制:控制某个广告对某个用户的重现率,使用户体验更好。

[转]内容匹配广告投放技术_第33张图片





内容匹配广告投放技术3:网盟广告匹配(二)

课程地址 http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d
第二章:网盟广告匹配
这章包括 网盟广告投放,广告匹配算法,页面特征提取,用户特征提取,广告特征提取这五个小节。

第三节:页面特征提取
三类特征,用户特征来自用户的历史行为,页面特征来自用户当前浏览的页面。
[转]内容匹配广告投放技术_第34张图片
**************************************************************************************************************
[转]内容匹配广告投放技术_第35张图片

第四节:用户特征提取
用户特征提取包括以下5个方面,接下来分别从这5个方面进行阐述
[转]内容匹配广告投放技术_第36张图片

拍卖词要被包含在Query中,切词/专名边界校验,比如词是“满城尽带黄金甲”这是一个电影名,一个完整的词,不能把它切割成包含“黄金”的词。

[转]内容匹配广告投放技术_第37张图片

历史浏览页面的特征提取有些与页面特征提取类似。

[转]内容匹配广告投放技术_第38张图片
***********************************************************

[转]内容匹配广告投放技术_第39张图片
***********************************************************

[转]内容匹配广告投放技术_第40张图片

时效性因素:时效性在广告点击中的作用。横轴是某搜索词发生的时间跟当前广告检索请求发生的时间之间的间隔,单位为分钟,纵轴是点击率,当搜索请求与广告检索请求在相近时间发生时,此广告点击率非常高。

[转]内容匹配广告投放技术_第41张图片
***************************************************************************************

[转]内容匹配广告投放技术_第42张图片

通过对用户session的分析,可以知道用户正在做什么,比如用户搜索魔兽宝宝,如果此时进行关键词提取,那么我们没有足够的信息来判断到底是游戏还是育儿,通过分析用户下来所做的行为session,比如接下来又搜索了游戏的道具等,这样就可以修正关键词的提取,将魔兽宝宝定为一个游戏关键词,而不是宝宝。

[转]内容匹配广告投放技术_第43张图片


第四节:广告特征提取
拍卖词特征是指广告主所指定的有关受众的词语。创意特征是指网页上展现的是什么内容,图片的,文字的或者flash的。到达页特征是指广告主所提供的用户点击广告后跳转的页面特征。

[转]内容匹配广告投放技术_第44张图片
拍卖词特征提取可能涉及自然语言处理的一些东西,比如要确定“空调维修”中主体是空调,维修是意图。
[转]内容匹配广告投放技术_第45张图片
************************************************************************************************
[转]内容匹配广告投放技术_第46张图片
************************************************************************************************
[转]内容匹配广告投放技术_第47张图片

广告特征提取后的应用
[转]内容匹配广告投放技术_第48张图片




内容匹配广告投放技术4:网盟CTR预估


课程地址 http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d
第三章:网盟CTR预估
第三章主要包括三小节:CTR预估背景,CTR预估特点,CTR预估模型
CTR即广告点击率

第一节:CTR预估背景
在点击计费时,用得最多的是广义二阶价格拍卖体系。
b是广告主愿意出价的价格,p是预估CTR概率(即点击的可能性有多少)。那么b*p表示展现一次广告最有可能获得的收益是多少。
最后实际收费是按照折算后的计费方式,广告主自己的广告支出费为后一名的收益比上自己的CTR,意思是价格不能再比这个值低了,再低就不能获得这样的排名了。比如 b1<b2p2/p1 的话,那么则左右同乘以p1,得 b1p1<p2p2,那么1就不是winner了。这样的话,可以鼓励广告主,如果你想每点一次少付钱,那么可以优化分母CTR,p,将CTR,p优化成最大。
[转]内容匹配广告投放技术_第49张图片


第二节:CTR预估特点
本节主要讲述CTR预估在机器学习中有什么特点。
广告请求query(i)表示用户访问某个网站时,网站会对网盟发出一个广告请求,同时这个请求还会传送一些该用户特征,该网站特征等,然后网盟(CTR预估系统)会在很短时间内选出一个广告来填充这个网站的广告位。从这个过程中可以看到CTR预估系统的特点:1)响应快;2)库量大;3)持续学习能力(即如果之前出了一些不好的广告,预估系统能否学习,为后面作出更好的选择)

[转]内容匹配广告投放技术_第50张图片

以下是整个点击率预估-机器学习模型的概要。训练数据就是通过展现日志得到了,一个网站的请求q(i)下展示ad1,ad2...adn个广告,后面的0,1表示是否点击了。得到庞大的广告-检索对集合训练数据后,就可以进行模型训练得到预估模型f(q,ad,w),然后测试数据(adi,?)表示该广告adi在q,w的条件(参数)下的预估模型是多少。
[转]内容匹配广告投放技术_第51张图片
************************************************************************************

[转]内容匹配广告投放技术_第52张图片

Online在线算法:每一个新广告到来的时候模型都更新一次。Batch算法:每一批新广告到来的时候模型都更新一次。一般Batch算法的数据量大较稳定,在线算法的时效性更强,但数据较少稳定性较差。

[转]内容匹配广告投放技术_第53张图片

如果老投放精准的老广告,这些老广告能拿到的收益最大,但新广告也要需要投放,也需要投放后进行精准投放的学习,这就涉及到短期收益和长期收益的问题。

[转]内容匹配广告投放技术_第54张图片


第三节:CTR预估模型

流程概要,然后分细讲解

[转]内容匹配广告投放技术_第55张图片

特征进行数值化表示。
one-host编码:比如站点表示,10w个站点用长度为10w的01串表示,表示某站点时某位为1。
[转]内容匹配广告投放技术_第56张图片
由于特征数巨大,数据稀疏,因此要进行特征选择。
Filter类:只考虑单个特征;
Wrapper类:克服单特征缺点,考虑特征之间的交叉组合关系。缺点是计算量大;
Embedding类:综合Filter类和Wrapper类。
AUC的英文全称为 Area Under Curve,AUC的意思是曲线下面积,AUC经常用于统计ROC曲线的面积,用来量化评估广告的CTR质量。

[转]内容匹配广告投放技术_第57张图片
**************************************************************************************************************

[转]内容匹配广告投放技术_第58张图片

回归模型和参数(β)学习方法。

[转]内容匹配广告投放技术_第59张图片

MPI模型训练的特点是内存都很大,数据和计算是分离的。MPI主要是在计算的角度进行设计,Hadoop主要是在可扩展性的角度进行设计。

[转]内容匹配广告投放技术_第60张图片


线上评估一般会将流量平均分到线上系统和线上评估系统,然后进行比较各个指标。

[转]内容匹配广告投放技术_第61张图片
*************************************************************************************************************

[转]内容匹配广告投放技术_第62张图片




内容匹配广告投放技术5:品牌展示广告(一)



课程地址 http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d
第四章:品牌展示广告
第四章主要讲品牌展示广告,包括品牌展示广告基本概念,售卖,基础技术,精准投放技术以及效果测评。

第一节:品牌展示广告基本概念
展示广告的分类,展示广告不属于搜索广告。
品牌广告和直效广告的区别在于,品牌广告是向大众传递一种消息,给大众留下正面印象,注重长期营销。而直效广告是要直接做出营销。基于中间状态的一种广告叫着互动广告,这些广告的衡量成功与否有很大不同。
[转]内容匹配广告投放技术_第63张图片
**************************************************************************************************************
[转]内容匹配广告投放技术_第64张图片
*******************************************************************************************************************
[转]内容匹配广告投放技术_第65张图片
***************************************************************************************************************
[转]内容匹配广告投放技术_第66张图片
***************************************************************************************************************
[转]内容匹配广告投放技术_第67张图片
******************************************************************************************************************
[转]内容匹配广告投放技术_第68张图片
*************************************************************************
[转]内容匹配广告投放技术_第69张图片


第二节:品牌展示广告卖售
广告代理商就是帮助广告主去做广告的人,他们熟悉广告投放方式,手里有一些合作网站主媒体。
售卖平台把广告代理商或者广告主和媒体联系起来的平台,比如Ad exchange,DSP/SSP。

[转]内容匹配广告投放技术_第70张图片
*************************************************************************
[转]内容匹配广告投放技术_第71张图片
**********************************************************************************************************
[转]内容匹配广告投放技术_第72张图片
独立售卖是左边的图,此时售卖方和媒体是同一个机构。右边图中间N是network,广告联盟的方式。
[转]内容匹配广告投放技术_第73张图片
CPD:cost per day,包段
[转]内容匹配广告投放技术_第74张图片
CPM:每一千次多少钱。GD:guarantee display 确保展现。比如广告主充X元,那么售卖方需要在这段时间内确保展现多少次以确保这些钱消耗完。
[转]内容匹配广告投放技术_第75张图片
***********************************************************************************************************
[转]内容匹配广告投放技术_第76张图片
************************************************************************************************************
[转]内容匹配广告投放技术_第77张图片
***********************************************************************************************************
[转]内容匹配广告投放技术_第78张图片

目前市面上有两类广告平台,一类拥有自身媒体的广告平台,像雅虎自身媒体的广告平台,或者国内的新浪,优酷等,一类比如double click,adsence谷歌网盟。拥有自身媒体的广告平台,有一部分广告来源是由于公司自身有一个良好的网络媒体,他们希望广告在自己的媒体上售卖,卖得好而且有这样的技术;另一类就是网盟形式,由于自己没有好的网络媒体,但有技术,这样的话广告主和网络主都来找网盟。这是两套不同的形式,有不同的渊源和运作逻辑,前者一般是品牌和效果。但是前者这种拥有自身媒体的公司,由于技术的共通性,自身的流量肯定会有一些剩余卖不掉的,要么可能是淡季,要么是销售的原因,要么也可能由于技术的原因等,那么这些剩余的卖不掉的流量就可以以NGD的形式把它放在网盟里或者Ad exchange里卖掉。







内容匹配广告投放技术6:品牌展示广告(二)


课程地址 http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d
第四章:品牌展示广告
第四章主要讲品牌展示广告,包括品牌展示广告基本概念,售卖,基础技术,精准投放技术以及效果测评。

第三节:品牌展示广告的精准投放技术
[转]内容匹配广告投放技术_第79张图片
*************************************************************************************************************
[转]内容匹配广告投放技术_第80张图片
***********************************************************************************************************
[转]内容匹配广告投放技术_第81张图片

户籍信息,地理信息,生活方式心理感受,目标重定位

[转]内容匹配广告投放技术_第82张图片

户籍基本信息,比如职业和收入决定了这个人的购买力,是否有高端产品的购买力。
数据采集,能从什么地方采集到用户的这些信息,我们知道广告平台有两种形式,一种是拥有自己媒体的广告平台,一个是网盟,其实,要采集的这些信息某些网站上不一定有,他们可能通过自己的注册信息或者通过数据整合等得到,其中,DMP数据管理平台一般拥有收集整理这些信息的能力,那么广告平台或者广告商可以通过与DMP合作的方式得到这些信息,或者通过已有的注册信息和特征运用机器学习技术来预测某些属性。

[转]内容匹配广告投放技术_第83张图片
******************************************************************************
[转]内容匹配广告投放技术_第84张图片
*****************************************************************************
[转]内容匹配广告投放技术_第85张图片
*****************************************************************************
[转]内容匹配广告投放技术_第86张图片
*********************************************************************************
[转]内容匹配广告投放技术_第87张图片


其中有一个重要的问题是用户隐私,第一,有关广告平台所用到的用户信息不能包括用户敏感信息,广告呈现给你这么一个人,但与你是哪个人,叫什么名字并不知道,并没有对号入座,使用的这些信息是用来改进自己的产品;第二,所给出的广告需要对用户有好处而不是产生不好的影响。



内容匹配广告投放技术7:品牌展示广告(三)


课程地址 http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d

第四章:品牌展示广告
第四章主要讲品牌展示广告,包括品牌展示广告基本概念,售卖,基础技术,精准投放技术以及效果测评。

第四节:品牌展示广告的基础技术
媒体都可以预测自己的媒体流量。Admission Control:在已有订单的展现情况下,还有没有资源能够接受此订单,或者拿进来后没资源了,但考虑拿进来后是收益更大还是罚款更大等等,具体过程如下图
[转]内容匹配广告投放技术_第88张图片

具体决策如下:
[转]内容匹配广告投放技术_第89张图片
库存分配问题:
[转]内容匹配广告投放技术_第90张图片


具体决策如下,这是一个有限制条件的明确的规划问题。
[转]内容匹配广告投放技术_第91张图片
[转]内容匹配广告投放技术_第92张图片
价格体系:
[转]内容匹配广告投放技术_第93张图片
[转]内容匹配广告投放技术_第94张图片

第五节:品牌展示广告的效果评测
著名的效果评测CTR点击率,但品牌广告对点击率并不感冒,那么怎么衡量呢?
问卷调查:
[转]内容匹配广告投放技术_第95张图片
互动指数(Engagement Index):
[转]内容匹配广告投放技术_第96张图片
*************************************************************************************************************


文章来源:http://blog.csdn.net/suqier1314520



你可能感兴趣的:([转]内容匹配广告投放技术)