ctr预估笔记

广告创意特征:

  • 图片,标题文字,价格,销量
  • 推广商品所属类目,包含属性
  • 创意组,推广计划,广告主

Query信息:

  • 包含的Terms
  • Query分析:类目,属性
  • Query扩展:同义词,相似query

环境特征:

  • 用户,时间
  • 如年龄,性别,婚姻状况,职业,兴趣等
  • 用户历史CTR, user组合特征(User-Ad, User-Query)

名义特征

  • 时间,创意ID等
    • 点击反馈特征
  • 计算历史上包含该特征的(query, ad)的点击率
  • E.g., ad所属广告计划的历史点击率

组合特征

  • query与ad标题匹配的term个数

1个月数据训练,接下来的1天数据测试

推荐系统 或 ctr预估中,可以先对用户聚类,对用户进行分组,把cluster_id当作新特征,每个用户有一个cluster_id。
时间特征处理:分段
freq处理:



频次特别低的用one-hot编码 ,浪费维度。
出现频次非常低的样本可以拿出来看一下是不是可以通过规则直接做判定。
可以把频次高的作为一列(high-freq),频次低的作为一列(2,18这种合并作为low-freq)

长尾数据离散化
对每一维度求方差,如果波动大,可能对结果作用大。

广告业务和推荐系统的区别
广告:三方
推荐:两方

Revenue models from online advertising:
CPM(cost per mille)
CPC(cost per click)
CPA(cost per action)


ctr预估笔记_第1张图片

CTR * price

LR:

  • 结果表示点击率
  • 用LR做base_line
  • 模型简单,可解释性高(工业运作中,遇到问题可以找到是哪个特征对应的权重出现问题)
  • 大多公司还在用LR或用LR和其他模型混合

平时用pandas但吃内存
工业界用LIBLINEAR(libsvm),省内存

组合特征非常有用。FFM适合用于组合特征,用矩阵分解减小开销。
one-hot编码数据会非常稀疏,组合特征更会暴增
稀疏性会带来什么问题:

  • 内存压力大
  • 组合特征出现1的次数少,样本不足,结果不准

L1正则项能使大量的无效特征权重为0,起到特征选择作用

模型:LR--FM,FFM--GDBT--RF--DNN

你可能感兴趣的:(ctr预估笔记)