阿里妈妈技术团队5篇论文入选 KDD 2022

近日,第 28 届国际知识发现和数据挖掘大会(The 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining,KDD 2022)论文接收结果公布,阿里妈妈技术团队有5篇论文被录用。

KDD 2022 是中国计算机学会(CCF)推荐的A类国际学术会议,也是数据挖掘领域的顶级会议,今年将于8月14-18日在美国华盛顿召开。据了解,本次会议 Research track 共收到 1695 篇投稿,其中 254 篇被接收,接收率为 14.9%。

阿里妈妈论文概述

接下来为大家介绍阿里妈妈技术团队入选论文,后续我们将邀请论文作者详细解析论文思路和技术成果,欢迎关注~

▐ ROI-Constrained Bidding via Curriculum-Guided Bayesian Reinforcement Learning

面向ROI约束下广告竞价问题的由课程引导的贝叶斯强化学习框架

摘要:实时广告竞价(Real-Time Bidding, RTB)是在线广告售卖的重要形式之一。在RTB广告竞买中,广告主期望通过调整广告竞价策略来在满足投产比(return-on-investment,ROI)等广告收益等约束条件下最大化广告投放量。在序列竞价过程中,ROI是非单调变化的,加上竞价环境的不稳定性,导致设计保证这种约束的投放策略非常困难。已有研究工作中,对于这种带约束条件的优化问题,通常会假设市场环境是静态的或者变化比较平滑的,因此在高度非稳态变化的市场中不能有效地达成约束与目标之间的权衡。本文的目标是学习ROI约束下广告竞价问题的最优竞价策略。我们将问题形式化表示成为一个不完全信息可见的有约束的马尔科夫过程(Partially Observable Constrained MDP,POCMDP),通过示性函数(latent function)来处理约束条件,而不引入额外的超参数来调整约束与目标的权衡。在POCMDP下,我们提出了一个由课程引导的贝叶斯强化学习框架(Curriculum-Guided Bayesian Reinforcement Learning,CBRL)。我们的学习框架利用一系列近似问题引导策略在稀疏奖赏下学习,并让竞价策略学会推测市场的动态,能根据市场状态动态调整约束与目标的权衡。在两个大规模数据集上,我们的实验不仅验证了CBRL的优越性能,也反映了其出色的收敛稳定性,以及未知环境下的离群泛化能力。

▐ Adversarial Gradient Driven Exploration for Deep Click-Through Rate Prediction

基于对抗梯度的探索模型及其在点击预估中的应用

摘要: 探索与利用(Exploration-Exploitation)方法通常用于处理大规模在线推荐系统中的数据循环问题。过去的研究通常认为模型预估不确定度高意味着潜在收益也较高,因此大部分聚焦到对不确定度的估计上。对于在线推荐系统而言,探索策略还会影响到训练样本的收集,进而影响模型的学习。然而,当前大多数探索策略并不能建模被探索的样本对后续模型学习的影响。因此,我们设计了一个预探索(Pseudo-Exploration) 模块来模拟样本被成功探索并展现后对推荐模型后续学习的影响。该预探索过程通过在模型的输入中添加对抗扰动实现,对此我们给出了相应的理论分析以及证明。我们将该预探索方法命名为基于对抗梯度的探索策略(Adversarial Gradient driven Exploration,AGE)。为了提高探索的效率,我们还提出了一个动态门控单元用来过滤低价值样本,避免将资源浪费在低价值的探索上。为了验证AGE算法的有效性,我们在公开学术数据集上进行了大量的实验。同时,AGE也已经被部署到了阿里巴巴展示广告平台上并取得良好的线上收益。

▐ EXTR: Click-Through Rate Prediction with Externalities in E-Commerce Sponsored Search

EXTR: 电商搜索广告中考虑外部性的点击率预估模型

摘要: 点击率预估用于衡量用户对商品的点击概率,在电商平台中扮演着重要的角色。电商平台通常以混合展现的方式为广大消费者提供自然结果和广告。事实上,围绕在目标广告周围的其他商品会影响用户对目标广告的点击率。本文将“除目标广告的其他展现商品”统称为外部商品(External Items)。外部商品既包括自然结果,也包括其他被展示的广告。外部商品对目标广告的影响称为外部性影响(Externality Effects)。大多数点击率预估模型假设用户的点击率仅依赖于商品本身,而忽略了外部商品对目标商品的影响。本文主要关注广告系统中点击率预估的外部性。在广告预估阶段,自然结果列表已经由自然引擎返回,广告槽位的展示结果还未确定,由此引出两个重要挑战:1)正在被预测的目标广告可能在任意广告位胜出,环绕在不同广告位周围的外部商品可能完全不同,从而形成多样的外部性(Various Externalities); 2) 所有候选广告同时进行点击率预估,环绕在目标广告周围的外部广告未知,导致不完整的外部性(Incomplete Externalities)。面临以上挑战,我们受Transformer高并行性的启发,提出Externality Transformer(EXTR)。EXTR将目标广告所有可能的展示情形当作Query,对应的外部商品作为Key&Value以同时建模多样的外部性。进一步地,我们提出PAG模块学习潜在的外部广告排列以克服不完整外部性的问题。我们在真实电商平台Alibaba上进行实验,实验结果表明EXTR模型能够有效的建模外部性影响,提升广告平台收益。

▐ Pretraining Representations of Multi-modal Multi-query E-commerce Search

电商搜索中多模态多查询会话的预训练表达

摘要: 在搜索会话中对上下文信息进行建模是非常必要的。然而,用户在使用手机淘宝的过程中,会交替通过搜索框使用文本关键词查询、通过拍照搜索使用实拍图进行查询、通过相似搜索使用商品图片和标题查询。在以往的电商搜索工作中,只对搜索会话中的文本查询进行建模,无法捕捉到多个不同模态查询之间的关联性。针对以上问题,本文提出了一种用异质图神经网络来学习用户多模态多查询(简称MM)会话的方法。我们提出了一种多视图对比学习框架来预训练异质图神经网络,用两种视图来建模MM搜索会话中不同查询内、查询间和模态间的信息传播。大量实验表明,预训练的会话表征可以使最先进的基线模型在各种下游任务中获得提升,比如个性化的点击预测、查询推荐和意图分类。

▐ Streaming Graph Neural Networks with Generative Replay

基于生成式回放的流式图神经网络模型

摘要: 近些年来图神经网络模型在图数据的不同任务上取得了很大进展。然而真实世界的图数据往往是以流式形式存在的,已有一些方法对图神经网络模型进行更新,比如说在每个时间片上对全图进行重新训练,但是会导致很高的计算复杂度;而传统在线学习方法则会导致灾难性遗忘的发生,使得模型无法在全图上有无损的效果。在本文中,我们提出了一种全新的框架在流式场景下高效地训练图神经网络模型,通过一个额外的图生成模型来保存完整的历史分布,使得在图不断变化时,模型可以同时学习图中出现的新模式并且巩固已有知识。我们在多个真实网络上进行实验,证明了该模型能在保持高效的情况下实现优异的表现。

END

阿里妈妈技术团队5篇论文入选 KDD 2022_第1张图片

也许你还想看

阿里妈妈技术团队5篇论文入选 SIGIR 2022

阿里妈妈技术团队4篇论文入选WSDM 2022

阿里妈妈技术团队 5 篇论文入选 TheWebConf 2022

欢迎关注「阿里妈妈技术」,了解更多~

你可能感兴趣的:(神经网络,数据挖掘,大数据,机器学习,人工智能)