【读书笔记->推荐系统】02-06 LS-PLM

02-06 LS-PLM

思维导图纲要

【读书笔记->推荐系统】02-06 LS-PLM_第1张图片


LS-PLM(Large Scale Piece-wise Linear Model,大规模分段线性模型)。这个是本书的最后一例机器学习模型。原因有二:该模型在2012年已经是阿里巴巴主流的推荐模型,2017年才被公之于众;其结构与三层神经网络极其相似。

LS-PLM模型的主要结构

LS-PLM, 又被称为 MLR( Mixed Logistic Regression, 混合逻辑回归)模型。本质上,LS-PLM 可以看作对逻辑回归的自然推广,它在逻辑回归的基础上采用分而治之的思路,先对样本进行分片,再在样本分片中应用逻辑回归进行 CTR预估。

文中给了一个例子:如果CTR(点击率)模型要预估的是女性受众点击女装广告的 CTR;那么显然,我们不希望把男性用户点击数码类产品的样本数据也考虑进来,因为这样的样本(指男性数码类产品)不仅与女性购买女装的广告场景毫无相关性,甚至会在模型训练过程中扰乱相关特征的权重

为了让 CTR 模型对不同用户群体、不同使用场景更有针对性,其采用的方法是先对全量样本进行聚类,再对每个分类施以逻辑回归模型进行 CTR 预估。

LS-PLM 的数学形式如(式 2-23 )所示,首先用聚类函数π 对样本进行分类(这里的π采用了softmax 函数对样本进行多分类),再用 LR 模型计算样本在分片中具体的 CTR 然后将二者相乘后求和。

在这里插入图片描述

softmax:一句话概括,是将多分类的结果以概率的形式展现出来,比如下图中三个值转换为概率0.88, 0.12, 0。文末有参考文献[1]。而公式中π(x)或 e μ i x ∑ e μ j x \frac{e^{\mu_i x}}{\sum e^{\mu_j x}} eμjxeμix就是softmax函数。

后面的公式 η ( x ) \eta(x) η(x) 1 1 + e − w i x \frac{1}{1+e^{-w_i x}} 1+ewix1是LR(逻辑回归模型), w ∗ x w*x wx是所有的特征*权重之和, 1 1 + e 空 \frac{1}{1+e^{空}} 1+e1是sigmoid函数。

其中的超参数“分片数”m可以较好地平衡模型的拟合与推广能力。当 m=1时,LS-PLM 就退化为普通的逻辑回归。w 越大,模型的拟合能力越强,需要的训练样本也越多。

LS-PLM模型的优点

( 1 ) 端到端的非线性学习能力:LS-PLM 具有样本分片的能力,因此能够挖掘出数据中蕴藏的非线性模式省去了大量的人工样本处理和特征工程的过程,使 LS-PLM 算法可以端到端地完成训练,便于用一个全局模型对不同应用领域、业务场景进行统一建模

( 2 ) 模型的稀疏性强:LS-PLM 在建模时引人了 L1 和 L2,1范数,可以使最终训练出来的模型具有较高的稀疏度,使模型的部署更加轻量级。模型服务过程仅需使用权重非零特征,因此稀疏模型也使其在线推断的效率更高。

基础知识一为什么L1 范数比 L2 范数更容易产生稀疏解?见文末参考文献[2,3]

从深度学习的角度重新审视 LS-PLM 模型

LS-PLM 可以看作一个加人了注意力 Attention )机制的三层神经网络模型,其中输人层是样本的特征向量中间层是由 m 个神经元组成的隐层,其中m是分片的个数,对于一个 CTR 预估问题,LS-PLM 的最后一层自然是由单一神经元组成的输出层

那么,注意力机制又是在哪里应用的呢?其实是在隐层和输出层之间,神经元之间的权重是由分片函数得出的注意力得分来确定的。也就是说,样本属于哪个分片的概率就是其注意力得分

参考文献

  1. 一分钟理解softmax函数(超简单)
  2. L1正则为什么更容易获得稀疏解
  3. L1为什么具有稀疏性

你可能感兴趣的:(#,《深度学习推荐系统》,机器学习,人工智能,推荐系统)