3、CTR预估相关介绍

前言

推荐系统通常分为召回和排序两个步骤

  • 召回:粗排选取合适的内容,可以通过协同过滤,兴趣tag,内容最热等方式
  • 排序(CTR预估):使用一个点击率预估模型(输入用户特征,内容特征,用户内容交叉特征等)对召回出来的内容进行排序

1、CTR预估

CTR预估是推荐中最核心的算法之一。

  • 相关概念:
    • CTR预估:对每次广告的点击情况做出预测,预测用户是点击还是不点击。
    • CTR预估的影响因素:比如历史点击率、广告位置、时间、用户等。
      3、CTR预估相关介绍_第1张图片
    • CTR预估模型:综合考虑各种因素、特征,在大量历史数据上训练得到的模型,用来学习和预测用户的反馈,用户的反馈主要有点击、收藏、购买等。
  • 应用场景
    • 计算广告
    • 推荐系统
    • 信息流排序

2、数据准备

讨论的是数据已经经过预处理。

  • one-hot编码:
    CTR预估模型的特征数据往往包含多个特征,one-hot编码表示这些特征,将多个特征对应的编码向量链接在一起构成特征向量。
    数据特点:

    • 高维度
    • 稀疏
    • 多类别
  • Embedding表示

    • embedding学习一个低维稠密的实数向量,即将位数较多的稀疏数据压缩到位数较少的空间。
    • 将one-hot编码处理成一个固定维度的嵌入向量表示,减少了计算、处理和存储等方面资源。
  • 特征工程:
    特征组合对于效果非常关键。

    • 自动
    • 人工

特征和模型之间的关系图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-P1SWmGeX-1646555782122)(https://note.youdao.com/yws/res/b/WEBRESOURCE6810e02bde9511782a3481baa05adc1b)]

3、CTR预估模型

3.1 传统CTR模型演化关系图

image

  • 向下为了解决特征交叉的问题,演化出PLOY2,FM,FFM等模型;
  • 向右为了使用模型化、自动化的手段解决之前特征工程的难题,Facebook将LR与GBDT进行结合,提出了GBDT+LR组合模型;
  • 向左Google从online learning的角度解决模型时效性的问题,提出了FTRL;
  • 向上阿里基于样本分组的思路增加模型的非线性,提出了LS-PLM(MLR)模型

3.2 深度学习CTR模型演化关系图

3.3 算法比对与总结

出现的变量定义:

  • n: 特征个数,所有特征one-hot后 连接起来的整体规模大小
  • f: 特征field个数,表示特征类别有多少个
  • k: embedding层维度,在FM中是隐向量维度
  • H1: 深度网络中第一个隐层节点个数,第二层H2,以此类推。

各种CTR深度模型看似结构各异,其实大多数可以用如下的通用范式来表达,

  • input->embedding:
    把大规模的稀疏特征ID用embedding操作映射为低维稠密的embedding向量

  • embedding层向量
    concat, sum, average pooling等操作,大部分CTR模型在该层做改造

  • embedding->output:
    通用的DNN全连接框架,输入规模从n维降为k*f维度甚至更低。

4、CTR预估的评价指标

4.1 线下评价指标

  • LogLoss对数损失
    主要用于评估模型输出概率与训练数据的概率的一致程度,可以理解为logloss越小模型预估的ctr越准。
    • KL散度
    • 交叉熵
  • 二分类的常用评价指标
    • FP rate
    • TP rate
    • 精确率precision
    • 召回率recall
    • 准确率accuracy
    • ROC
    • AUC :主要评估的是模型对于整体样本的排序能力
  • pCTR bias(mean(pctr) - CTR):平均预估CTR偏差

离线主要看这三个:AUC, LogLoss,pCTR bias

4.2 在线评价指标

  • 在线使用AB Test来验证点击率预估模型的有效性
  • 分桶平均预估CTR(pCTR)和实际CTR(aCTR),对比关系画出来就行了,理想状态下应该是一条斜率为1的线。

5、总结

  • ctr预估中的大多数输入都是离散而且高维的,特征也分散在少量不同的field上。要解决这样的一个深度学习模型,面临的第一个问题是怎么把输入向量用一个embedding层降维成稠密连续的向量
  • ctr预估领域方法变化层出不穷,但万变不离其宗,各种模型本质上还是基础组件的组合,如何结合自己的业务、数据、应用场景去挑选合适的模型应用,可能才是真正的难点所在。

参考信息:
1、 深度学习在CTR预估中的应用
https://zhuanlan.zhihu.com/p/35484389

2、推荐算法之4——CTR预估模型
https://zhuanlan.zhihu.com/p/76897076

3、推荐算法—ctr预估
https://blog.csdn.net/qq_34219959/article/details/103822973

你可能感兴趣的:(流量&搜广推,python)