KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)

Deep Interest Network for Click-Through Rate Prediction

Guorui Zhou, Chengru Song, Xiaoqiang Zhu Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, Kun Gai

Alibaba Group

KDD 2018

https://arxiv.org/pdf/1706.06978.pdf

点击率预估在工业界应用(比如在线广告)中是一项非常重要的任务。最近,研究人员提出了若干基于深度学习的模型,这些模型基本都遵循了嵌入+MLP这种范式。这些方法的流程基本都是首先将大规模稀疏输入特征映射到低维嵌入向量,然后以分组方式转换为固定长度的矢量,最后将这些特征串联在一起,传入多层感知器 (MLP) 中,进而学习特征之间的非线性关系。

如此一来,无论候选广告是什么,用户特征都被压缩成固定长度的表示向量。使用固定长度的向量是一个瓶颈,这给嵌入&MLP方法从丰富的历史行为中有效地捕捉用户的多种兴趣带来困难。本文提出了一种新的模型:深度兴趣网络(DIN),通过一个局部激活单元来自适应地从用户的历史行为中学习该用户对某一广告的兴趣,并得到一种表示向量,进而解决了上述难题。

该表示向量因广告不同而不同,这就大大提高了模型的表达能力。此外,作者们还提出了两种技巧:微型批量感知正则化和数据自适应激活函数,这两种技巧有助于训练具有数亿个参数的工业界深度网络。

作者们在两个公共数据集以及包含超过 20 亿个样本的阿里巴巴真实生产数据集上的进行了实验,结果表明了本文方法的有效性,与最先进的方法相比,该方法的性能更优。DIN现已成功部署在阿里巴巴的在线展示广告系统中。

DIN的主要特性在于局部激活单元以及加权sum pooling

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第1张图片

现有方法存在一些缺陷,比如SGD只对当前mini-batch的稀疏特征进行更新;传统的l2正则计算量太大等

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第2张图片

本文主要贡献如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第3张图片

现有方法有些缺陷,比如都映射到固定长度的表示向量

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第4张图片

DIN的思想借鉴了DeepIntent,采用了局部激活单元,加权sum pooling等技巧。

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第5张图片

阿里的广告展示系统图示如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第6张图片

其中主要包含两部分

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第7张图片

特征表示方式如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第8张图片

具体示例如下

几类(用户画像 用户行为 广告特征 上下文特征)特征情况统计如下,其中包括维度,编码类型等

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第9张图片

针对嵌入层,one-hot编码跟multi-hot编码嵌入层的区别在于

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第10张图片

为了得到相同长度的表示向量,可以借助pooling操作来完成

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第11张图片

目标函数形式如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第12张图片

网络结构图示如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第13张图片

本文针对训练提出了两种技巧,其一即为微小批自适应的正则

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第14张图片

其二即为引入新的激活函数

该激活函数基于PReLU

PReLU函数定义如下

新的激活函数为Dice,两种激活函数的控制函数图示如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第15张图片

Dice函数定义如下

其中参数解释及注意的点如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第16张图片

关于亚马逊数据集,描述及参数设置如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第17张图片

MovieLens数据集描述,处理方式及参数设置如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第18张图片

阿里数据集分割策略及网络结构等描述如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第19张图片

数据集信息统计如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第20张图片

几种对比的算法描述如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第21张图片

衡量指标如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第22张图片

几种方法在Amazon以及MovieLens两个数据集上的效果对比如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第23张图片

为了应对过拟合,作者们采用了以下策略

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第24张图片

不同正则化方法的效果对比如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第25张图片

不同正则方法的auc对比如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第26张图片

几种方法在阿里数据集上的效果对比如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第27张图片

a/b测试的结果如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第28张图片

工程上的优化如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第29张图片

本文的激活函数所起作用图示如下

KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源)_第30张图片

代码地址

https://github.com/zhougr1993/DeepInterestNetwork


              我是分割线


您可能感兴趣

RecSys2019|优于DeepFM和XDeepFM的CTR模型FiBiNET

SIGIR2018|选择性GBDT(SelGB)用于排序学习(已开源)

AAAI2018|斯坦福大学提出并开源增强生成式模型

ijcai2017|CTR经典模型DeepFM,FNN,PNN,W&D,LR,FM对比(哈工大诺亚方舟提出CTR模型)

ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)

ICML2018|GBDT中如何寻找影响较大样本(普林斯顿大学联合Yandex提出并开源)

IJCAI2019|基于对抗变分自编码的协同过滤框架VAEGAN

聊聊CatBoost

聊聊XGBoost CatBoost LightGBM RF GBDT

IJCAI2019|新型特征增广GBDT--AugBoost(已开源)

IJCAI2019|清华大学提出并开源新型梯度提升决策树(梯度提升分段线性回归树)

新型梯度提升决策树GBDT-SPARSE(谷歌微软FaceBook加州大学联合提出)

ICML2019|深度学习鼻祖之一Bengio提出并开源图马尔科夫神经网络

GBDT,LR,深度学习如何联合发力(以推荐系统和游戏为例)

大规模GBDT系统应用场景及效果对比(LightGBM,XgBoost,DimBoost等)

新型在线预测模型DeepGBM(基于GBDT扩展的深度学习框架)

顶会中深度学习用于CTR预估的论文及代码集锦 (3)

NIPS2018深度学习(9)|亮点:多元卷积稀疏编码、循环关系网络

ICML 2018 深度学习论文及代码集锦(5)

深度学习用于文本摘要的论文及代码集锦

深度学习用于机器翻译的论文及代码集锦

深度学习用于序列标注中的论文及代码集锦

深度学习在推荐系统中的应用及代码集锦(4)

深度学习在OCR中的应用论文及代码集锦 (2)

你可能感兴趣的:(KDD2018|超越deepfm的CTR预估模型深层兴趣网络DIN(已开源))