推荐相关问题和解决方案整理

【双塔】

  • 经典工业界方案

  • YouTubeDNN

  • 王喆:重读Youtube深度学习推荐系统论文,字字珠玑,惊为神文

  • 王喆:YouTube深度学习推荐系统的十大工程问题

  • 看Youtube怎么利用深度学习做推荐

  • serving问题

  • 揭开YouTube深度推荐系统模型Serving之谜

  • 经典推荐算法学习(十)| Youtube DNN serving目标解析 | 从odds到Logit 、Logistic Regression

  • Facebook

  • EBR

  • 负样本为王:评Facebook的向量化召回算法

  • 微软DSSM

  • Google双塔

  • 谷歌最新双塔DNN召回模型——应用于YouTube大规模视频推荐场景

  • 常见问题

  • 网络最后加L2归一化

  • 双塔召回需要ANN,点积不保序一般使用欧式距离,双塔最上层归一化能将输入映射到欧式空间,保证了训练检索的一致性,提高了效果

  • 双塔模型最后一层为什么都进行L2 Norm?

  • 温度系数

  • 双塔召回模型的前世今生(上篇)4.0节,temperature的作用其实就是放大logit,让模型容易学习

  • 双塔模型相较于单塔有什么优缺点?

  • 优化

  • 知识蒸馏

  • 双塔模型与交互模型并行训练,利用交互模型蕴含的丰富信息指导双塔模型学习。训练结束后仅使用双塔模型进行线上服务

  • 引入交叉信息或特征

  • 美团"对偶增强双塔"

  • 解决问题:双塔之间缺少交叉信息,限制了模型效果;数据存在类别(categories)不均衡,对类别占比小的item效果相对较差

  • 推荐系统遇上深度学习(一二四)-[美团]面向大规模推荐系统的双重增强双塔模型

  • 久别重逢话双塔 后面介绍

  • 腾讯 MVKE

  • 一桥飞架双塔:腾讯“虚拟内核”双塔

  • 推荐系统遇上深度学习(一一六)-[腾讯]用于多目标用户建模的MVKE模型

  • 阿里COLD

  • 减少特征信息确实

  • SENet双塔模型

  • 张俊林:SENet双塔模型在推荐领域召回粗排的应用及其它

  • “并联”双塔模型 | 你还不知道怎么玩吗!

  • Facebook Que2Search

  • 参考

  • 久别重逢话双塔

  • 双塔召回模型的前世今生(上篇)

  • 做向量召回 All You Need is 双塔

  • 双塔篇,是塔,是塔,就是塔

  • 推荐系统(十八) 大厂实践经验学习:双塔模型

  • 涨点利器:推荐系统中对双塔模型的各种改造升级

  • 对比学习视角:重新审视推荐系统的召回粗排模型

【负样本】

  • 常用的负采样方法

  • 曝光未点击作负样本

  • 一般不能作为召回的负样本使用,可作为精排的负样本

  • Sample Selection Bias:召回模型在预测阶段,理论上面对的是全库的待预测样本,用曝光未点击与召回模型线上面对的候选待预测样本空间不一致

  • 召回更需要开眼界,区别用户明显不感兴趣的样本。从线上日志获得的曝光未点击样本,已经是上一版本的召回、粗排、精排替用户筛选过的,即已经是对用户比较匹配的样本了。拿这样的样本训练出来的模型做召回, 会局限在很小的item空间内,不能学习到全量的item池

  • 推荐系统中召回模型为什么不直接使用曝光点击样本作为训练模型?

  • 实践

  • 史塔西:曝光未点击作为hard negative增强训练集,和easy negative一起训练出一个模型,亲测线上没有提升

  • Facebook:拿曝光未点击训练出来的hard model,与easy model无论是串行融合还是并行融合(粗排),都没有效果

  • 全局随机负采样

  • 线上召回时,候选库里大多数的物料是与用户八杆子打不着的,随机抽样能够很好地模拟这一分布

  • in-batch负采样

  • 为什么要in-batch负采样?

  • 占用资源少,样本pipline简单,降低模型的训练复杂度,提高模型训练的速度

  • 正负样本比例高,每条样本有batch_size-1条负样本,模型见过足够多的负样本。而相同的负样本规模,全库采样的话会让样本规模扩张百倍千倍

  • batch内热门样本多,因此热门负样本多,天然可以缓解热度效应

  • 参考:batch内负采样有什么作用?

  • 为什么要in-batch softmax?

  • 为什么batch内负采样以后,只对正样本算CEloss?

  • 如何解决热度降权和SSB问题?

  • 双塔模型Batch内负采样如何解决热度降权和SSB的问题

  • in-batch负采样+全局随机负样本

  • 优点:冷门负样本是可以很大程度上缓解SSB问题的,在不改变原有架构的基础上,这样做改动很小,性价比很高

  • hard负样本

  • 静态策略:根据同城、同类目、同价格区间等条件筛选负样本

  • Airbnb增加与正样本同城和被房主拒绝作为负样本,增加模型训练难度

  • 动态策略:根据召回模型自身的打分能力进行针对性优化

  • 百度mobius引入相关性判别器选出模型容易误判(模型打分高但相关性低)的样本

  • Facebook的EBR根据上一轮训练结果选择排名相对靠前样本作为强负样本

  • 基于GAN的生成对抗思路产出hard负样本

  • 基于流行度的负采样

  • 流行度越高的物品,被当做负样本的概率就越大。其背后的想法是,越流行的物品,越容易被推荐给用户,但用户还没有与它发生交互,那么用户有更大的概率不喜欢该物品

  • 工业界方案

  • YouTubeDNN

  • 使用随机负采样,loss采用softmax

  • DSSM

  • 针对每个正样本对(query,doc+)随机选择未点击4个文档doc-构成负样本

  • 尝试了不同的负样本采样策略对结果没有什么影响

  • loss采用softmax

  • Facebook EBR

  • easy负样本使用随机采样方式,hard负样本选择召回位置在101~500上的物料,easy:hard比例为100:1,loss采用Pairwise Hinge Loss,

  • 论文指出,拿曝光未点击训练出来的hard model,与easy model无论是串行融合还是并行融合(粗排),都没有效果

  • Google双塔

  • 全局随机负采样和batch内负采样混合采样

  • 全局长尾item作负样本

  • Airbnb

  • 根据业务逻辑来选取hard negative

  • 增加与正样本同城的房间作为负样本,增强了正负样本在地域上的相似性,加大了模型的学习难度

  • 增加“被房主拒绝”作为负样本,增强了正负样本在“匹配用户兴趣爱好”上的相似性,加大了模型的学习难度

  • 百度MOBIUS

  • 将与用户查询相关性低但是CTR高的ad标记为bad case。利用相关性召回模型 ( teacher ) 来“教”会CTR模型 ( student ) 哪些样本是badcase。首先利用相关性模型对构造的query-ad pair进行相关性打分,并从中筛选出来相关性较低的样本交给CTR模型进行预测,根据预测的PCTR值从中选出低相关性高PCTR的样本作为badcase

  • 参考

  • DOTA:负样本修正:既然数据是模型的上限,就不要破坏这个上限

  • 史塔西:负样本为王:评Facebook的向量化召回算法

  • 负采样总结:推荐系统(四)—— 负采样

  • 推荐系统正负样本的划分和采样,如何做更合理?

【Loss结构】

  • Pointwise Loss

  • 【辩难】DSSM 损失函数是 Pointwise Loss 吗?

  • Ranking Loss

  • pointwise虽然有足够的准度,有物理意义,但是排序能力弱,评估目标和auc存在差距,而ranking loss解决排序能力

  • pairwise loss

  • 必须得在大量的样本中反复震荡才能得到最终的位置

  • pairwise 的排序算法用于推荐系统的排序任务中为什么效果差于pointwise的ctr?

  • triplet loss

  • 采样Loss

  • 史塔西:一文搞懂Approximate Softmax:从公式到代码

  • 一文讲懂召回中的 NCE & NEG & sampled softmax loss

  • NCE

  • [译] Noise Contrastive Estimation

  • Softmax

  • Sampled Softmax训练方法数学原理思考以及代码实现

  • 参考

  • Learning to Rank: pointwise 、 pairwise 、 listwise

  • 为什么推荐系统召回阶段常建模为多分类,而排序阶段多建模为二分类?

  • 深度度量学习中的损失函数

【兴趣召回】

  • 模型

  • mind和comirec的区别

  • ComiRec-DR和MIND中Dynamic Routing的差异

  • 长短兴趣

  • 在推荐系统中,用户的长短期兴趣:长期兴趣是多“长”;短期兴趣是多“短”,如何衡量其长短?

  • 参考

  • 水哥:从千到万的用户长期兴趣建模

  • 水哥:用户多峰兴趣建模

  • 史塔西:日久见人心:论建模用户长期兴趣的几种姿势

  • 史塔西:再见Attention:建模用户长期兴趣的新范式

  • 渣渣辉:推荐系统 模型解读-SDM DFN XDM

  • 渣渣辉:推荐系统 多兴趣召回论文解读

【召回多目标】

  • 参考:Microstrong:涨点利器:推荐系统中对双塔模型的各种改造升级 3.2部分

  • 互动目标不拆分

  • item塔使用MMoE结构,item embedding进行融合,目标不作拆分

  • Soul采用的item MoE结构

  • 互动目标拆分

  • 共享底层参数的多塔结构

  • MMoE的双塔结构

  • User侧和Item侧均用MMoE结构

  • 所有目标共用User Embedding

  • 陌陌采用多互动目标进行了拆分,进行多目标的用户表征学习

  • 采用蒸馏学习方式

  • 推荐系统论文阅读(五十三)-基于多任务模型的蒸馏召回模型

【向量检索】

  • 向量检索的几种方式?

  • 乘积量化&倒排乘积量化

【关系扩散召回】

  • 总结

  • 水哥:u2i话事人,双塔进击史

  • 水哥:i2i及u2u2i召回方案

  • PDN模型

  • 融合I2I和向量内积

  • 淘宝新一代召回范式? PDN: Path-based Deep Network for Candidate Item Matching in Recommenders

【树召回】

  • 史塔西:三问阿里的TDM召回

你可能感兴趣的:(数据挖掘,深度学习)