LS-PLM

LS-PLM是阿里巴巴曾经的主流推荐模型 “大规模分段线性模型”(Large Scale Piece-wise Linear Model,以下 简称LS-PLM)。早在2012年,它就是阿里巴巴主流的推荐模型,并在深度学习模型提出之前长时间应用于阿里巴巴的各类广告场景。

模型主要思想

本质上,LS-PLM可以看作对逻辑回归的自然推广,它在逻辑回归的基础上采用分而治之的思路,先对样本进行分片,再在样本分片中应用逻辑回归进行CTR 预估。 在逻辑回归的基础上加入聚类的思想,其灵感来自对广告推荐领域样本特点的观察。举例来说,如果CTR模型要预估的是女性受众点击女装广告的CTR, 那么显然,我们不希望把男性用户点击数码类产品的样本数据也考虑进来,会在模型训练过程 中扰乱相关特征的权重。为了让CTR模型对不同用户群体、不同使用场景更有针对性,其采用的方法是先对全量样本进行聚类,再对每个分类施以逻辑回归模型进行CTR预估。LS-PLM的实现思路就是由该灵感产生的。
LS-PLM的数学形式如下所示,首先用聚类函数对样本进行分类 (这里的聚合函数采用了softmax函数对样本进行多分类),再用LR模型计算样本在分片中具体的CTR,然后将二者相乘后求和。
在这里插入图片描述
其中的超参数“分片数”m可以较好地平衡模型的拟合与推广能力。当m=1时,LS-PLM就退化为普通的逻辑回归。m越大,模型的拟合能力越强。与此 时,模型参数规模也随m的增大而线性增长,模型收敛所需的训练样本也随之增长。在实践中,阿里巴巴给出的m的经验值为12。

LS-PLM的优点

LS-PLM模型适用于工业级的推荐、广告等大规模稀疏数据的场景,主要是因为其具有以下两个优势。
(1) 端到端的非线性学习能力:LS-PLM具有样本分片的能力,因此能够挖掘出数据中蕴藏的非线性模式,省去了大量的人工样本处理和特征工程的过程, 使LS-PLM算法可以端到端地完成训练,便于用一个全局模型对不同应用领域、 业务场景进行统一建模。
(2) 模型的稀疏性强:LS-PLM在建模时引人了 L1和L2,l范数,可以使最终训练出来的模型具有较高的稀疏度,使模型的部署更加轻量级。模型服务过程 仅需使用权重非零特征,因此稀疏模型也使其在线推断的效率更高。

从深度学习的角度解释LS-PLM模型

LS-PLM可以看作一个加入了注意力(Attention )机制的三层神经网络模型, 其中输入层是样本的特征向量,中间层是由m个神经元组成的隐层,其中m是分片的个数,对于一个CTR预估问题,LS-PLM的最后一层自然是由单一神经元组成的输出层。
那么,注意力机制又是在哪里应用的呢?其实是在隐层和输出层之间,神经元之间的权重是由分片函数得出的注意力得分来确定的。也就是说,样本属于哪个分片的概率就是其注意力得分。

你可能感兴趣的:(深度学习推荐系统,聚类,逻辑回归)