各位小伙伴们中秋快乐吖!今天给大家带来一篇美团在DLP-KDD 2021上中稿的一篇论文,主要的出发点是解决双塔模型中两塔之间缺乏信息交互,以及在美团首页推荐中,面临多场景、多业务融合且不同业务类别分布不均衡的特定业务问题。一起来学习一下。
1、背景
在大规模工业界推荐系统的召回阶段,大都采用的是双塔模型,即通过query tower(user tower)和item tower分别得到query(user)和item的向量表示,并通过cosine距离计算二者的相似度,进而选择相似度高的item进入到排序阶段。传统的双塔模型面临以下两方面的问题:
1)两个塔之间缺乏信息交互,影响模型的收益空间
2)在美团首页推荐或其他的推荐场景下,item的种类是十分丰富的且非常不平衡的,那么模型的训练由主要的种类所主导,对于数量较小的种类的item效果会受到影响。
为了解决以上两方面的问题,论文提出了双重增强双塔模型(Dual Augmented Two-tower Model,简称DAT)。论文设计了Adaptive-Mimic Mechanism,来为每一个query和item学习一个增强向量,增强向量代表了来自另一个塔的有用信息;同时,论文还在训练阶段引入了Category Alignment Loss来缓解类别不平衡的问题,一起来看一下。
2、DAT模型介绍
模型的整体结构如下图所示:
接下来,根据如上的模型结构图,我们进行详细的介绍:
2.1 Embedding layer
Embedding层无需进行过多的介绍,将query和item对应的离散特征转换为对应的Embedding。
2.2 Dual Augmented layer
对于每一个query和候选item,赋予一个对应的增强向量au和av,并与Embedding层得到的Embedding进行拼接,作为两个塔的输入。如对于uid=253,city=SH,gender=male的用户,以及iid=149,price=10,class=cate的item,对应的模型输入为:
随后,两个输入向量输入到各自的塔中,经过多层全连接网络,以及最后的L2标准化层,得到输出Embedding表示,计作pu和pv:
那么增强向量代表什么信息呢?同时如何对增强向量进行训练呢?论文设计了Adaptive-Mimic Mechanism (AMM),其中最主要的是设计了mimic loss,该loss的主要作用是让增强向量来拟合相应query或着item在另一个塔中所有正样本的输出向量表示。感觉比较绕,但通过下面的公式可以更加清楚的理解:
以lossu为例,如果label即y=0,则不产生损失,若y=1,则增强向量与另一个塔的输出向量越接近,则损失越小。也就是说,增强向量是对该query或item所有可能匹配的正样本信息的综合表示。而在训练增强向量的过程中,需要使用stop gradient策略来冻结pu和pv。
2.3 Category Alignment
在工业场景下,不同item的类型多种多样,而且分布十分不均匀,双塔模型对于数量较少的类别的效果会较差。为了解决这个问题,论文在训练阶段引入了Category Alignment Loss (CAL),将从数量较多的类别中学习到的信息迁移到数量较小的类别中。CAL计算主类别和其他类别的协方差矩阵二阶矩,降低类别间的差距:
其中,C()代表协方差矩阵,Smajor代表batch中主要类别的输出向量集合。S2,S3,..,Sn代表剩余类别的输出向量集合。
Alignment Loss在迁移学习中应用较多,来自论文《Deep CORAL: Correlation Alignment for Deep Domain Adaptation》。感兴趣的可以阅读论文
2.4 Model Training
对于任意正样本对,采样S个负样本对,那么双塔模型的主loss计算如下:
加入上述的mimic loss和Category Alignment Loss后,总的loss计算如下:
3、实验结果
离线和在线实验都证明了DAT模型的有效性,实验结果如下:
好了,本文就介绍到这里,感兴趣的同学可以阅读原文~