KDD2020|淘宝推荐中的特权特征蒸馏算法PFD

Privileged Features Distillation at Taobao Recommendations

Chen Xu, Quan Li, Junfeng Ge, Jinyang Gao, Xiaoyong Yang, Changhua Pei, Fei Sun, Jian Wu, Hanxiao Sun, and Wenwu Ou

Alibaba Group

https://dl.acm.org/doi/pdf/10.1145/3394486.3403309

特征在电商推荐预测中的作用非常重要。为了保证离线训练和线上服务的一致性,通常利用离在线都可以获取到的相同的特征。但是,这种一致性忽略了一些判别性特征。比如,预估转化率,即用户点击某个商品的前提下,该用户购买该商品的可能性时,商品详情页的停留时长特征比较重要。

但是,线上排序时,转化率预估需要在点击发生之前产出。因此,线上服务时,无法获取这种事后特征。作者们将判别性特征,但是只有训练的时候可以获取的特征定义为特权特征。

受蒸馏技巧的启发,这种技巧可以缩小训练和线上推理的差距,这篇文章提出特权特征蒸馏,PFD。这种方法训练两个模型,即学生模型跟原始模型一致,老师模型会额外利用特权特征。从更加精准的老师模型蒸馏得到的知识迁移到学生模型中,这有助于提升预测精度。线上推理时,只提取学生模型,这种模型不依赖特权特征。

作者们在两个淘宝推荐中的基础预测任务进行了实验,即粗排点击率预估以及精排中的转化率预估。通过将交互特征进行蒸馏,针对点击率预估,蒸馏特征是线上服务无法获取的特征,针对转化率预估,蒸馏特征是事后特征,作者们相对基础版本取得了显著提升的效果。

线上ab实验中,点击率指标提升了5%,转化率指标提升了2.3%。另外,通过解决训练PFD中的若干问题,其训练速度跟没有蒸馏的基础版本基本相当。

模型蒸馏跟作者们所提模型的区别图示如下

KDD2020|淘宝推荐中的特权特征蒸馏算法PFD_第1张图片

这篇文章的贡献包含以下几点

KDD2020|淘宝推荐中的特权特征蒸馏算法PFD_第2张图片

淘宝推荐流程概览如下

KDD2020|淘宝推荐中的特权特征蒸馏算法PFD_第3张图片

模型训练及线上服务流程图示如下

KDD2020|淘宝推荐中的特权特征蒸馏算法PFD_第4张图片

所谓特权特征,图示如下

KDD2020|淘宝推荐中的特权特征蒸馏算法PFD_第5张图片

算法伪代码如下

KDD2020|淘宝推荐中的特权特征蒸馏算法PFD_第6张图片

粗排和精排特征及网络结构图示如下

KDD2020|淘宝推荐中的特权特征蒸馏算法PFD_第7张图片

参数设置如下

KDD2020|淘宝推荐中的特权特征蒸馏算法PFD_第8张图片

点击率预估数据集信息统计如下

KDD2020|淘宝推荐中的特权特征蒸馏算法PFD_第9张图片

粗排任务中,几种方法的效果对比如下

KDD2020|淘宝推荐中的特权特征蒸馏算法PFD_第10张图片

精排中转化率预估数据集信息统计如下

KDD2020|淘宝推荐中的特权特征蒸馏算法PFD_第11张图片

精排转化率预估几种方法的效果对比如下

KDD2020|淘宝推荐中的特权特征蒸馏算法PFD_第12张图片

超参数lambda对模型效果影响如下

KDD2020|淘宝推荐中的特权特征蒸馏算法PFD_第13张图片

不同的训练方式,效果对比如下

KDD2020|淘宝推荐中的特权特征蒸馏算法PFD_第14张图片


              844417fffc9d0753760ab789e600cbcb.png我是分割线ac9145e4fee3ee6178b6861b8b842625.png


您可能感兴趣

KDD2020|阿里联合香港理工大学提出多任务多视角图表示学习框架M2GRL(已开源)

KDD2020|字节联合密歇根州立大学提出推荐广告联合训练框架RAM(已开源)

KDD2020|阿里联合清华提出多兴趣框架ComiRec用于序列推荐(已开源)

KDD2020|京东提出图像类别卷积神经网络CSCNN用于视觉感知CTR预估

亚马逊联合纽约州立大学提出元学习算法MetaBridge用于电商有限标注数据情况下自动验证文本属性

KDD2020|腾讯基于app使用行为提出AETN用于构建通用型user-embedding(已开源)

KDD2020|阿里联合武大提出对偶异构图注意力网络DHGAT用于提升长尾商铺搜索效果

KDD2020|蚂蚁金服提出人群扩展算法Hubble用于智能营销

实时注意力lookalike模型RALM在推荐系统中的应用

召回--联合训练树的索引和深层模型在推荐系统中的应用

深度神经网络在Youtube推荐中的应用--开篇作之一--含部分实用技巧

BERT深层双向Transformers预训练在语言理解中的应用

你可能感兴趣的:(算法,机器学习,人工智能,深度学习,神经网络)