《计算广告学(刘鹏)》听课笔记1-3

网址: http://study.163.com/course/courseLearn.htm?courseId=321007#/learn/video?lessonId=435070&courseId=321007

1.1 广告的目的
三个主体:advertiser medium audience
广告是 非人员的、低成本的用户接触 (reach)
品牌(brank)广告 vs 效果(direct)广告:离线转化率 vs 即时转化
1.2 广告有效性模型
三个阶段
选择:曝光-广告位属性;关注-减少干扰、推荐解释、符合需求;
解释:理解-用户能看懂;信息接受-认同(广告位不能只看流量,要高大上);
态度:保持-艺术性带来的记忆效果;购买-价格可接受(价格敏感vs不敏感);
广告创意
传统广告:幽默(+关注,-理解)、性感(+关注、-认同)、艺术(+保持,-理解)、折扣(+关注,+购买)
在线广告:仿背景、大标识、简单
1.3 广告与销售的区别
从偏广告到偏销售
硬广(banner)
SEM(搜索广告)
导航网站
淘宝直通车
返利网(跟广告主签销售协议:CPS)
只看ROI(return on investment)没意义:接近supply(媒体)的渠道(关注潜在用户),ROI低,但对广告主越有价值;接近demand(广告主)的渠道(短期交易)相反
1.4 在线广告的特点
对比
在线广告:技术和产品驱动(精准定向、计算是核心问题、效果可衡量)
离线广告:创业和客户关系驱动
关键点和行业协会
展示广告的标准化:iab
代理商的角色和代理费:4A
广告主的利益:ANA
1.5 在线广告市场
media->ad network;ad exchange; SSP(Supply Side Platform)->DSP;agency;advertiser
各方是博弈关系;有数据的一方占优势
1.6 核心问题和挑战
Max ROI(users;contexts;ads)
特征提取;ctr预测;竞价市场机制;受限优化(量与质:保证受众规模);reinforcement learning(强化学习:explore&exploit);推荐技术
实时索引;nosql存储;离线计算(hadoop);在线学习(流计算);实时竞价
large scale;动态性(用户兴趣);丰富的查询信息(context+user)
1.7 搜索、广告、推荐的比较
搜索 广告 推荐
首要任务 相关性 ROI 用户兴趣
其它需求 垂直领域相互独立 质量;安全性 多样性;新鲜度
索引规模 十亿级 百万级 亿级
个性化 展示和效果ad不同

推荐领域的downstream:把这一次点击跟后续的行为结合起来优化

1.8 投资回报(ROI)分析

eCPM=CTR(a,u,c)*value(a,u)

市场形态
CPM市场:固定eCPM
CPC市场:动态CTR,固定click value
CPS、CPA市场:动态CTR,动态click value
1.9 在线广告系统结构
高并发投送系统
受众定向系统
流式计算平台(日志收集、反馈、反作弊、计价)
信息高速公路(内部、外部数据收集处理)
模块:
ad serving; ad retrieval; ad ranking; billing; anti-spam;session log generation;data warehouse;customized audience segmentation; audience targeting; ad management

2.1 常用广告开源工具
Hadoop: HDFS, MapReduce
ZooKeeper(Yahoo)
Hive(Facebook)
Hbase
Storm(Twitter)
Mahout
Spark
Thrift(Facebook), ProtoBuf(Google)
Scribe(Facebook), Flume: 日志收集工具

2.2 合约广告

Guaranteed Delivery
CTR预测
流量预测(forecasting)
受众定向(audience targeting)
Ad server
Ad retrieval;
Ad ranking; 
Allocation
代表公司
yahoo
sina

2.3 在线分配问题

三方博弈:媒体、广告主、用户;或四方博弈:加上代理商

二部图匹配
ad_list<->(context, user)_list
数学基础:拉格朗日方法、KKT条件、对偶问题
High Water Mark算法:利用历史数据求解serving rate
受众定向:地域、人口属性、行为分类

品牌广告主的曝光有独占性

2.4 Hadoop介绍

Hadoop vs Strom
Hadoop:调度计算而不是调度数据
Strom:调度数据
Hadoop vs MPI
Hadoop:用户级别的计算
MPI:文档级别的计算
Hadoop streaming: 类似UNIX的管道

常用统计模型
指数族分布:最大似然估计可以通过充分统计量链接到数据;mapper统计,reducer求解参数
指数族混合分布:一次迭代求解不了参数,使用EM多次迭代
非指数族分布(梯度分布):mapper收集梯度,reducer更新参数;多次迭代
Oozie工作流引擎:job调度,用XML定义依赖;有向无环图;(vs Azkaban:batch scheduler)

3.1 受众定向

Ad User Context的标签体系
上下文标签是一种即时标签
ad:category, advertiser, campaign, solution, creative
user:gender, age, location, category
context:domain, channel, topic, url
标签体系主要作用
作用1:建立面向广告主的流量售卖体系
作用2:为CTR预估等模块提供原始特征
受众定向方法
重定向:效果好
地域和人口属性:效果差,但广告主容易接受
上下文定向和行为定向:效果中等
网站和频道定向:中等
hyper-local:精确到小区级别,效果好,但要在mobile上做
look-alike:提供种子用户,找相似的。效果中上
代表公司
AudienceScience:第三方数据标签服务+自营ad network

3.2 行为定向

重要行为
Transaction:交易记录,价值最高
Pre-transaction:商品浏览、比价等
Paid search click;ad click
search click; search
share
page view:只代表兴趣,对广告效果影响不大
ad view:负系数,看得越多越疲劳
系统结构
日志  tagger 用户标签 
PV=*Search=*Ad click=*  pv taggersearch taggerad tagger  p(u, t1)=*p(u, t2)=*p(u, t3)=* 

long-term行为定向
滑动窗口方式:对不同类型的标签,窗长或衰减系数不一样
时间衰减方式
Reach/CTR 曲线:reach=100%时,ctr=无定向的ctr;只用supply的标签,曲线肯定不够好

建立标签体系的方法
分类vs聚类:聚类的标签广告主不易接受
demand端标签 vs supply端:supply端量大,但效果不好

3.3 上下文定向
page attributes cache
url
keywords
topics
page fetcher & analysis
3.4 Topic Model
有向图模型
箭头:条件概率
灰的node:可观测的
空心node:需要计算的变量
框:可重复的
pLSI; LDA; Gamma-Poisson
求解:VB EM; Collapsed Gibbs-sampling (MCMC, Markov-chain Monte-Carlo)
并行化:mapper上sampling;reducer上全局update;MPI或者Spark效率胜过hadoop
Supervised and hierarchy: 
Supervised LDA;
Hierarchically supervised LDA
No free lunch thesis
对问题需要先验的假设,否则任何方法平均性能都一样
3.5 数据加工和交易

可以类比石油行业
油田-数据源:搜索、电商、门户、线下数据(例如银联)
原油-用户行为:
炼油厂-定向系统
成品油-用户标签
加油站-广告投放
有价值的数据
用户标识:cookie-mapping
用户行为:去除热点事件的影响;越主动的、机会成本越高的、越靠近demand的价值越大
demand数据:用户retargeting,look-alike
用户属性和地理位置:
社交网络数据:好友关系;实名网络的人口属性数据
Data Management Platform
数据收集和加工-data highway
对外交易能力-data exchange
跨媒体的用户标签-tagging
定制化的用户划分-user segment
统一对外数据接口-tag management
代表公司
Bluekai:
接入中小网站的数据
产生收益跟网站主分成
不运营广告业务
细分类别标签+开放体系的标签
规避风险:用户可看到自己的信息被谁用

你可能感兴趣的:(《计算广告学(刘鹏)》听课笔记1-3)