多触点归因(MTA: Multi Touch Attribution)是一种基于数据驱动(Data-driven)的归因技术,着重还原用户触点轨迹并公平分配贡献,帮助商家优化广告资源投放,从而优化提升整体营销收益。多触点归因是预算分配与智能广告投放的基础,现有方法多采用历史数据训练一个模型以预测广告触点路径的转化概率,然后根据合作博弈理论Shapley Value基于反事实预测结果公正分配每个触点的贡献。这类方法的一大假设是转化预测模型需是无偏的,假定在计算Shapley Value枚举的浏览路径上做到精准预测,这些浏览路径包含真实存在与非真实存在两种情况。然而广告系统的投放与用户的转化行为都受到用户偏好的影响,不同广告触点背后的人群画像存在明显的差异,导致上述假设并不成立,即混淆偏差问题与反事实预测中的OOD(out of distribution)问题。本文提出了基于因果推断技术的无偏广告多渠道归因模型 MTA,消除了用户静态与动态混淆偏差的影响,从而训练无偏的转化预测模型,通过理论分析论证了CausalMTA在给定充足广告路径下的有效性。在仿真数据集、Criteo公开数据集以及阿里妈妈真实数据集的大量实验结果表明,CausalMTA不仅在预测转化率上超过其他SOTA方法,同时还能为不同广告渠道产生有意义的归因值。
该项工作由阿里妈妈SDS团队和中科院计算所毕经平研究员与姚迪博士团队合作完成,基于该项工作整理的论文已被KDD 2022接收,欢迎阅读交流。
论文:CausalMTA: Eliminating the User Confounding Bias for Causal Multi-touch Attribution
下载:https://arxiv.org/abs/2201.00689
阿里妈妈目前已有丰富的广告产品,包含搜索、展示、信息流、直播、视频、互动等多种形态。用户转化视角的Customer Journey往往经历以上多个广告触点,广告主希望能够精准评估每个触点的贡献,对每个触点在营销中所扮演的角色有清晰的认知,从而形成对渠道投入的优化方案。
图一:转化视角下的用户旅程示意图归因的目标是用来评估各广告触点对最终用户转化的贡献,广告效果报表中的的投入产出比(ROI指标)就是基于归因模型计算出来的。传统的基于规则的广告归因方式(如first touch,last touch,linear,position based,time decay等)忽略了广告对用户转化的真实效果,势必会高估或低估某些渠道的真实作用,难以指导广告主在各渠道间进行精准合理的预算分配。近年来,基于数据驱动的广告多触点归因成为数字营销领域的热门方向。已有许多工作将数据驱动的方法应用于多触点归因,利用大量数据训练转化率预估模型,并结合反事实预测结果和Shapley Value将转化贡献分配到各渠道。MTA可评估各广告对最终用户转化的贡献率从而为后续广告投放方案提供指导,是在线广告系统运行过程中一个重要的提效手段。
然而,现有工作均未充分考虑混淆变量对用户转化率预测这一反事实预测问题的影响,从而损害归因分析的准确性。用户偏好作为广告投放与用户转化之间的共因,因果图[1]如图二(a)所示。具体而言,决定广告投放的推荐机制取决于用户偏好,同时用户偏好的不同也会导致转化结果的差异,这就使得用户偏好这一共因成为了MTA中的混淆变量,从而带来观测数据当中的虚假关联,也使得基于观测数据学得的转化率预估模型是有偏的。以上观测数据与反事实数据间的差异导致了反事实预测中的OOD问题。
图二:混淆变量对转化率反事实预测的影响然而消除MTA任务中用户偏好的混淆效应并非易事,存在以下挑战:
挑战一:多类别混淆变量干扰
混淆偏差有两大来源:时不变用户属性所对应的静态混淆变量,与时变用户偏好所对应的动态混淆变量,如上图(b)所示。其中,如何缓解性别、年龄、教育背景等混淆变量影响涉及到静态设定下的纠偏。而诸如广告浏览记录、添加购物车记录、最近购买记录等具有时序数据特点的动态混淆变量在为模型引入更多信息的同时也因推荐与投放机制而引入了动态混淆偏差。现有的因果推断与因果表示学习的技术大多要求满足无隐藏混淆变量的假设,若片面地只针对其中一类混淆变量纠偏将不满足这一假设并导致结果的可信度受到损害。因此,如何在MTA中系统性地同时消除静态与动态用户偏好的混淆效应是本文需要解决的问题。
挑战二:转化结果的延迟反馈
数字广告营销属于典型的延迟反馈场景,广告是一个长周期作用的过程,而分析者只能在用户浏览路径的最后观测到广告转化结果。目前已有的序列纠偏工作只能作用在即时反馈数据,而针对营销这类延迟反馈场景,目前还未有相关研究,因此,针对转化效果的延迟反馈纠偏也是CausalMTA需要解决的问题。
本文提出了名为CausalMTA的model-agnostic框架,如图三。该框架有两大关键模块:用户浏览路径重加权(journey reweighting)、因果转化预测(causal conversion prediction),两大模块分别消除静态与动态特征的影响。在用户浏览路径重加权中,本文使用变分循环自编码器学习广告序列的生成概率,然后采用密度比估计方式计算每条样本的权重,基于IPTW的方式对观测数据集重加权得到消除静态混淆变量影响的数据分布。在因果转化预测中,本文采用RNN来建模用户路径的动态特征,并采用梯度反转层得到解耦动态特征与广告曝光的均衡表征。从而得到无偏的转化预估模型。经过两个模块消除静态与动态特征的偏差后,得到无偏的预测模型,最后采用Shapley Values的计算方式完成触点权重的分配。
图三:CausalMTA模型框架为纠除静态用户属性导致的偏差[2],Journey Reweighting模块以广告频道序列为输入,以度量广告曝光是否随机的权重作为输出,包含两个步骤:广告频道序列的生成模型、样本IPTW权重估计。首先,采用变分循环自编码器建模广告频道序列的生成过程,当训练数据足够时,若忽视用户特征的影响则广告序列的分布倾向于随机的。在此设定下,变分循环自编码器倾向于产生无偏的广告序列。对于数据集中的用户路径而言,当前模块关注广告频道序列,以channel embedding与LSTM作为编码器产生潜在表征的分布,具体如下:
采用重参数化技巧,从分布中采样作为对解码器的初始化:
损失函数由广告序列的重建损失与KL损失两部分组成:
其中,代表先验分布,通常被假定为标准正态分布;代表趋近于的后验分布。
随机化投放的广告序列相较于受用户偏好影响的样本有着更高的权重值,权重值可由逆概率加权的方式得到,学得的样本权重应当服从于,结合变分循环自编码器的结果
采用领域分类器的方式估计,具体而言,以用户特征与变分循环自编码器的中间表征, 作为正样本,以用户特征与从正态分布中的采样 ,作为负样本,训练一个领域分类器来估计:
模型整体示意图如图四。
图四:Journey Reweighting方法整体框架为消除动态用户偏好导致的偏差,本文采用反事实循环网络以引入梯度反转层的形式学习一个平衡的表征。已有的研究CRN[3]可以应用在即时反馈数据的纠偏工作,Causal Conversion Prediction 模块在CRN结构的基础上进行改造,使得其适应MTA任务延迟反馈的特点。
具体而言,对于每条用户路径,对于广告频道序列进行重新组织。CausalMTA以与其他动态特征为输入,然后采用带注意力机制的LSTM得到输出向量:
在两个平行的过程中使用上面产生的输出向量,分别进行动态偏差的消除与转化率预测:
该模块的损失函数由两个模块组成,反转频道预测损失与用户转化预测损失:
以此完成了延迟反馈序列的纠偏工作,Journey Reweighting模块与Causal Conversion Prediction 模块的结合,完成了CausalMTA对动静态属性偏差的消偏工作,训练无偏的转化预测模型。最后通过Shapley Value计算每个触点的贡献,得到客观公正的分配结果。
根据独立性假设,可以把总体混淆偏差分解为由静态用户属性引入的偏差以及由动态用户偏好引入的偏差,即。CausalMTA的目标是得到无偏的预测模型,即。
本文在文中证明了静态混淆偏差可以通过用样本权重对用户路径重加权的方式加以消除。无偏预测模型的优化目标是反事实预测误差,然而无法在观测数据中被度量。但静态混淆偏差与反事实预测误差的上界都可以通过以下方式确定:
其中,代表在重加权的数据集上的预测误差,IPM即Integral Probability Metric。特别地,当时,等式成立,有。
在动态混淆偏差的影响下,若能证明预测模型学得的表征解耦了动态特征与广告曝光,则,具体而言:由于
本文分别在可控混淆偏差强弱的仿真数据集、Criteo公开数据集和主流的数据驱动的MTA方法进行了实验对比。并且在阿里妈妈某几个店铺的真实数据集上实验。
本文对比了CausalMTA模型与8个基准模型的实验情况,基准模型可以分为3类:基于统计学习的方法(Logistic Regression [4] (LR), Simple Probabilistic [5] (SP), and Additive Haz- ard [6] (AH)),基于深度学习的方法(DNAMTA [7], DARNN [8], and DeepMTA [9]),以及基于因果推断的方法(JDMTA [10] and CAMTA [11])。此外,本文还对比了两个消融的方法(CM-RW and CM-causal) 图五是不同模型在动态偏差、静态偏差以及混合动静态偏差仿真数据集下的实验,CausalMTA在这3类数据集都有更好的表现,尤其在混合偏差的数据集。
图五:各模型在仿真数据的预估效果,MTA-UB是理论的上限值
图六是CausalMTA以及基准模型在Criteo公开数据集的表现,相比其他3类基准模型,CausalMTA在Criteo数据集上的AUC表现更优。图七采用data replay数据回放评估各模型分配的合理性,data replay采用模拟抽样的方法评估相同预算下的投资回报率,控制1/2, 1/4, 1/8, 1/16的总预算消耗,CausalMTA能够得到更有的CPA与更高的CVR,意味着基于CausalMTA的分配结果进行预算调整,能够得到更高的ROI。
图六: 基于统计学习(SL)、深度学习(DL)、Causal(CL)与CausalMTA在Criteo数据的预估效果图七:各模型在Criteo数据集data replay的评估结果,CPA越低越好,CVR越高越好
图八是CausalMTA在阿里妈妈真实数据集上的表现情况,相较于直接建立LSTM预测模型,CausalMTA在展示、内容、互动等渠道能够得到更公正的分配结果,更能体现出这些早期心智培养类渠道的助攻价值。
图八:CausalMTA与LSTM在阿里妈妈真实数据集上渠道分配的表现多触点归因MTA为客户还原用户触点轨迹并公平分配贡献,能够帮助商家更好的优化广告资源投放,从而提升整体营销收益,是营销数字领域热门的研究方向。针对现有方法中广告多触点归因受混淆偏差影响的问题,本文定义了基于因果推断的无偏多触点归因任务,并提出了CausalMTA模型。通过用户浏览路径重加权与因果转化率预测,本文系统性地消除了静态与动态混淆偏差的影响,能够得到更客观公正的分配结果。理论分析与实验结果表明,本文提出的方法不仅在预测转化率上超过其他SOTA方法,同时还能为不同广告渠道产生有意义的归因值。
阿里妈妈SDS(Strategic Data Solutions)团队致力于用数据让商家和平台的增长战略更加科学有效。我们为阿里妈妈全线广告客户提供营销洞察、营销策略、价值量化及效果归因的技术服务。我们将持续在数字营销领域MTA、MMM等方向进行探索和落地,欢迎各业务方关注与合作。同时,真诚欢迎感兴趣的同学和我们取得联系、互相交流。联系邮箱:[email protected]
CausalMTA是阿里妈妈SDS和中科院计算所毕经平、姚迪老师团队多年合作的共同成果。双方不仅在MTA学术领域做出了创新成果,也根据阿里独特的电商业务场景做了针对性的适配和优化,最终在学术研究与实际业务都取得满意的结果。毕老师的课题组围绕时序数据智能、网络智能、AI算法安全等领域开展研究,面向国家权益保障、国家网络与信息安全等国家重大战略需求,承担了多项国家科技重大专项、国家自然科学基金、国防预研项目和研制项目等重大项目。近三年来,课题组在KDD、WWW、ICDE、TKDE、TON等期刊会议上累计发表CCF A类论文十余篇。欢迎感兴趣的同学合作交流。联系邮箱:[email protected]
[1] Judea Pearl. 2009. Causality. Cambridge university press.
[2] Hao Zou, Peng Cui, Bo Li, Zheyan Shen, Jianxin Ma, Hongxia Yang, and Yue He. 2020. Counterfactual Prediction for Bundle Treatment. NeurIPS’20 33 (2020).
[3] Ioana Bica, Ahmed M. Alaa, James Jordon, and Mihaela van der Schaar. 2020. Estimating counterfactual treatment outcomes over time through adversarially balanced representations. In ICLR’20. OpenReview.net.
[4] Xuhui Shao and Lexin Li. 2011. Data-driven multi-touch attribution models. In KDD’11. ACM, 258–264.
[5] Brian Dalessandro, Claudia Perlich, Ori Stitelman, and Foster Provost. 2012. Causally motivated attribution for online advertising. In Proceedings of the sixth international workshop on data mining for online advertising and internet economy. 1–9.
[6] Ya Zhang, Yi Wei, and Jianbiao Ren. 2014. Multi-touch attribution in online advertising with survival theory. In ICDM’14. IEEE, 687–696.
[7] Sai Kumar Arava, Chen Dong, Zhenyu Yan, Abhishek Pani, et al. 2018. Deep neu- ral net with attention for multi-channel multi-touch attribution. arXiv:1809.02230 (2018).
[8] Kan Ren and etc. 2018. Learning Multi-touch Conversion Attribution with Dual- attention Mechanisms for Online Advertising. In CIKM 2018. ACM, 1433–1442.
[9] Dongdong Yang, Kevin Dyer, and Senzhang Wang. 2020. Interpretable Deep Learning Model for Online Multi-touch Attribution. arXiv:2004.00384 (2020). arXiv:2004.00384
[10] Ruihuan Du and etc. 2019. Causally driven incremental multi touch attribution using a recurrent neural network. arXiv:1902.00215 (2019).
[11] Sachin Kumar, Garima Gupta, Ranjitha Prasad, Arnab Chatterjee, Lovekesh Vig, and Gautam Shroff. 2020. CAMTA: Causal Attention Model for Multi-touch Attribution. In ICDM’20. IEEE, 79–86.
END
也许你还想看
丨KDD2022 | MUVCOG:多模态搜索会话下的用户意图刻画
丨开放下载 | 阿里妈妈营销科学系列上线啦!
丨【阿里妈妈营销科学系列】第八篇:增强分析在营销分析场景下的实现和应用
丨【阿里妈妈营销科学系列】第四篇:营销渠道效果评估与归因
丨FAE:阿里妈妈归因分析与用户增长分析引擎
喜欢要“分享”,好看要“点赞”哦ღ~
↓欢迎留言参与讨论↓