Privileged Features Distillation at Taobao Recommendations
Chen Xu, Quan Li, Junfeng Ge, Jinyang Gao, Xiaoyong Yang, Changhua Pei, Fei Sun, Jian Wu, Hanxiao Sun, and Wenwu Ou
Alibaba Group
https://dl.acm.org/doi/pdf/10.1145/3394486.3403309
特征在电商推荐预测中的作用非常重要。为了保证离线训练和线上服务的一致性,通常利用离在线都可以获取到的相同的特征。但是,这种一致性忽略了一些判别性特征。比如,预估转化率,即用户点击某个商品的前提下,该用户购买该商品的可能性时,商品详情页的停留时长特征比较重要。
但是,线上排序时,转化率预估需要在点击发生之前产出。因此,线上服务时,无法获取这种事后特征。作者们将判别性特征,但是只有训练的时候可以获取的特征定义为特权特征。
受蒸馏技巧的启发,这种技巧可以缩小训练和线上推理的差距,这篇文章提出特权特征蒸馏,PFD。这种方法训练两个模型,即学生模型跟原始模型一致,老师模型会额外利用特权特征。从更加精准的老师模型蒸馏得到的知识迁移到学生模型中,这有助于提升预测精度。线上推理时,只提取学生模型,这种模型不依赖特权特征。
作者们在两个淘宝推荐中的基础预测任务进行了实验,即粗排点击率预估以及精排中的转化率预估。通过将交互特征进行蒸馏,针对点击率预估,蒸馏特征是线上服务无法获取的特征,针对转化率预估,蒸馏特征是事后特征,作者们相对基础版本取得了显著提升的效果。
线上ab实验中,点击率指标提升了5%,转化率指标提升了2.3%。另外,通过解决训练PFD中的若干问题,其训练速度跟没有蒸馏的基础版本基本相当。
模型蒸馏跟作者们所提模型的区别图示如下
这篇文章的贡献包含以下几点
淘宝推荐流程概览如下
模型训练及线上服务流程图示如下
所谓特权特征,图示如下
算法伪代码如下
粗排和精排特征及网络结构图示如下
参数设置如下
点击率预估数据集信息统计如下
粗排任务中,几种方法的效果对比如下
精排中转化率预估数据集信息统计如下
精排转化率预估几种方法的效果对比如下
超参数lambda对模型效果影响如下
不同的训练方式,效果对比如下
您可能感兴趣
KDD2020|阿里联合香港理工大学提出多任务多视角图表示学习框架M2GRL(已开源)
KDD2020|字节联合密歇根州立大学提出推荐广告联合训练框架RAM(已开源)
KDD2020|阿里联合清华提出多兴趣框架ComiRec用于序列推荐(已开源)
KDD2020|京东提出图像类别卷积神经网络CSCNN用于视觉感知CTR预估
亚马逊联合纽约州立大学提出元学习算法MetaBridge用于电商有限标注数据情况下自动验证文本属性
KDD2020|腾讯基于app使用行为提出AETN用于构建通用型user-embedding(已开源)
KDD2020|阿里联合武大提出对偶异构图注意力网络DHGAT用于提升长尾商铺搜索效果
KDD2020|蚂蚁金服提出人群扩展算法Hubble用于智能营销
实时注意力lookalike模型RALM在推荐系统中的应用
召回--联合训练树的索引和深层模型在推荐系统中的应用
深度神经网络在Youtube推荐中的应用--开篇作之一--含部分实用技巧
BERT深层双向Transformers预训练在语言理解中的应用