归因分析 | 学习笔记

在产品迭代和公司决策中,我们常常关心A如何影响B

例如,设置上下滑的功能如何影响用户的视频消费,直播消费,生产等体验,以及用户对于平台的长期留存?

  • 评估产品/策略的收益/损失
  • 迭代更新产品设计
  • 理解用户的消费习惯
  • 预测产品/策略对平台的长期影响

解决问题的工具

  • AB测试
  • 因果分析的计量经济学,机器学习方法

常用的因果分析计量经济学方法

  • 工具变量法
  • 匹配法
  • 双重差分法
  • 合成控制法

将机器学习与因果分析结合

  • 矩阵补全法
  • 基于决策树/随机森林的异质性的因果效应估计

工具变量法

原理归因分析 | 学习笔记_第1张图片

案例:用户转化为视频作者价值

问题:新用户转化为视频作者后的收益是多少?

利用一个通过给新用户发消息来显著改变用户发布视频意愿的实验,将新用户是否在实验组(即是否被发消息)作为工具变量

  • 外生性:实验分组(是否被发消息)是随机的
  • 相关性:发消息可以激励用户进行视频创作发布

分析方法

  • 检验工具变量相关性
  • IV-2SLS估计对未来用户行为的影响

双重差分法 + 匹配法

原理

归因分析 | 学习笔记_第2张图片

案例:连麦

上线连麦功能之后,想了解连麦对主播的影响

由于开启连麦功能开关的主播渗透率很低,因此直接DID分析也不能得到显著性结论,需要通过匹配解决渗透率低的问题

通过分类算法训练实验组开启开关概率,在控制组中找到与实验组打开开关用户的概率相近的用户

对比的是开放功能且使用功能的主播,与未开放功能的类似的主播之间的影响

PSM:使用XGBoost预测开启连麦开关的概率

合成控制法

原理归因分析 | 学习笔记_第3张图片

案例:直播小时榜单

在部分地区进行了实验

  • 按主播测放量,在开启功能的地区开播的主播会进入该地区小时榜

合成控制法检测功能的收益

  • 控制组地区:找到一批和初始城市相似但是无小时榜的地区
  • 求解各城市权重的最优解
  • 开通小时榜的地区,人均推流时长显著提升

矩阵补全法

原理

合成控制法的局限性

  • 只有一个实验干预组
  • 政策干预开始时间是在某个统一的时间段

矩阵补全法适用于干预时间不一致,多个实验干预组的情况

  • 一个AB实验下的策略是逐渐放量的过程(5% → 20% → 50% → 95%)该策略对于用户的影响?
  • 在新版本上更新了UI界面,但是用户更新版本的时间不一致,新界面对用户在更新版本后的APP使用时长的影响?

矩阵补全算法:将一个含有缺失值的矩阵通过一定的方法将其恢复为一个完全的矩阵,通过解一个凸优化问题实现将一个低秩矩阵恢复,从而估计因果效应

案例:K歌功能

K歌功能在上线前没有做实验

基于决策树/随机森林的HTE

原理

归因分析 | 学习笔记_第4张图片案例

某个产品改版实验对实验整体用户造成了负向影响

  • 留存下降,直播时长下降,短视频时长下降

以APP时长为例,我们用HTE决策树找出一些有正向收益的用户 

AB实验综合指标体系

1.如何评价AB实验对于平台生态的长期影响?

在产品迭代时常常遇到的两个问题

  • 在快速迭代的环境下,怎么能够通过短期的变化预知长期的影响?
  • 正向的收益和负向的损失往往同时存在,要如何决策?

解决方案:综合分指标体系

  • 综合分 = A*行为指标1 + B*行为指标2 + ...
  • 通过实验中实验组相对对照组的综合分变化辅助判断实验的长期收益

设计原则和方法

  • 测算系数:通过逻辑回归使用短期行为指标数据预测长期关键指标
  • 长期关键指标:用户长期留存
  • 短期行为指标:视频和直播观看,社交行为
  • 通过AB实验校验预测准确性

2.综合分指标体系的设计原则和方法

使用逻辑回归通过关键指标预测长期留存

  • 抽样一部分用户的数据,用户在T=0~N之间的视频直播数据预测T=N+M~M+M+t天是否APP活跃
  • 经过反复尝试找到N,M,t
  • 逻辑回归结果转化为指标
  • Prob(留存)= 常数 + A*短视频时长 + B*直播时长 + C*新增关注数 + D*分享数
  • 对系数进行转换,方便解释:综合分 = 短视频时长 + B/A*直播时长 + C/A*新增关注数 + D/A*分享数

通过实验检验准确度和敏感度

  • 准确度:比较实验中长期留存和综合分是否变化同向
  • 综合分在预测长期留存上表现要好于平均次留
  • 在不考虑留存变化置信度的情况下,综合分对用户长期留存预测的准确率达到70%;在考虑留存变化的置信度的情况下,在90%置信度的留存变化的预测准确率接近100%
  • 敏感度:比较实验中长期留存和综合分的变化范围
  • 和平均次留指标相比,平台综合分的变化区间更大,说明相较于平台次留指标,平台综合分灵敏度更高

复杂实验设计:双边网络实验

直播:直播和观众

短视频:作者和读者

电商:卖家和买家

在双边网络下,产品和分析团队常常面临着如何设计实验才能准确估算出试验效果的难题

我们结合一个具体的实验案例讲解双边实验设计的潜在价值

  • 同时检测两端的效果
  • 检测组间溢出和干扰
  • 更准确地测算处理效应
  • 帮助归因

优势:以挂件实验为例

同时检测实验对于两端的效果

  • 观众端:挂件对于观众的整体直播观看,点赞均没有显著影响。另外,挂件对于观众APP时长没有显著影响
  • 主播端:挂件对主播推流时长仍然没有显著影响,但是使得挂件使得直播观看时长,点赞显著增加

监测组间溢出和干扰

  • 观众端溢出N2 vs N3:并没有发现显著差异,即我们没有证据表明挂件导致实验组观众在有挂件和没挂件的主播间转移了消费/互动
  • 主播端溢出N1 vs N3:N1比N3直播观看时长,点赞显著增加a%,这说明存在主播端的正向溢出

更准确地测算处理效应 Y vs N3

  • 个体处理稳定性假设(SUTVA):任意一个个体的潜在结果不随其它个体是否接受处理而改变
  • 我们发现主播配置挂件 - 观众能看到挂件的情况下(Y),观众的直播观看时长,点赞显著增加,相较于主播不配置挂件 - 观众看不见挂件的情况下(N3)

帮助归因

  • 主播端分析看到实验组的主播比控制组的主播有更高的观流时长和点赞次数,有两种解释:
  • 挂件导致实验组的主播提高了推流的质量(因为他们发现有一些观众会跳离自己的直播间,于是做出了更多的努力来挽留观众)
  • 观众觉得挂件让他们能够跳到运营活动的直播间去,挺有意思的,所以也会多来有挂件的主播直播间

常见的归因分析模型

1.末次归因模型

也称最后点击模型,这种归因模型将功劳100%分配给转化前的最后一个渠道,即不管用户发生了啥行为,只关注最后一次。这是最简单、直接,也是应用最为广泛的归因模型

优点

  • 首先它是最容易测量的归因模型,在分析方面不容易发生错误。另外由于大部分追踪的cookie存活期只有30-90天,对于顾客的行为路径、周期比较长的场景,在做归因分析的时候可能就会发生数据的丢失,而对于末次互动模型,这个数据跟踪周期就不是那么特别重要了

缺点

  • 这种模型的弊端也是比较明显,比如客户是从收藏夹进入商品详情页然后形成了成交的,按照末次归因模型就会把100%的功劳都归功于收藏夹(直接流量)。但是真实的用户行为路径更接近于产生兴趣、信任、购买意向、信息对比等各种环节,这些都是其他渠道的功劳,在这个模型中则无法统计进来,而末次渠道的功劳评估会被大幅高估

适用场景

  • 短期的投放,转化路径少、周期短的业务快速提升效果,按照末次归因模型,能比较好了解到底是哪个渠道对于最终的转化有比较好的促进作用

2.末次渠道互动模型

末次渠道互动模型会将100%的功劳归于客户在转化前,最后一次点击的广告渠道。需要注意这里的”末次互动”是指任何你要测量的转化目标之前的最后一次互动,转化目标可能是销售线索、销售机会建立或者其他你可以自定义的目标

优点

  • 这种模式的优点是通常跟各渠道的标准一致,如Facebook Insight使用末次Facebook互动模型,谷歌广告分析用的是末次谷歌广告互动模型等等

缺点

  • 很明显当你在多渠道同时投放的时候,会发生一个客户在第一天点了Facebook的广告,然后在第二天又点击了谷歌广告,最后并发生了转化,那么在末次渠道模型中,Facebook和谷歌都会把这次转化的100%功劳分别归到自己的渠道上。这就导致各个部门的数据都看起来挺好的,各个渠道都高估了自己影响力,而实际效果则可能是折半,如果单独使用这些归因模型并且把他们整合到一个报告中,你可能会得到”翻倍甚至三倍”的转化数据

适用场景

  • 单一渠道,或者已知某个渠道的价值特别大

3.首次归因模型

也称首次点击模型,这种归因模型将功劳100%分配给第一个触达渠道,即不管用户发生了啥行为,只关注第一次。如果,末次互动是认为,不管你之前有多少次互动,没有最后一次就没有成交。那么首次互动就是认为,没有我第一次的互动,你们剩下的渠道连互动都不会产生。换句话说,首次互动模型更加强调的是驱动用户认知的、位于转化漏斗最顶端的渠道

优点

  • 是一种容易实施的单触点模型,初次点击的归因会让你明确潜在消费者是怎样找到你的,且和最后点击一样,不需要大量的数据

缺点

  • 受限于数据跟踪周期,对于用户路径长、周期长的用户行为可能无法采集真正的首次行为,且初次点击归因并不能够解释所有后续所发生的用户行为,对于后续的用户行为没有关注

适用场景

  • 一般是需要进行拉新的时候,公司处于市场开拓的时候,这个时候我们关心把更多的用户先圈过来,那么用首次互动模型可以看出来哪些渠道对于业务拉新最有效。所以首次归因模型对于没什么品牌知名度、且重点在市场拓展,渠道优化的公司,比较适用

4.线性归因模型

线性归因是多触点归因模型中的一种,也是最简单的一种,他将功劳平均分配给用户路径中的每一个触点

优点

  • 它是一个多触点归因模型,可以将功劳划分给业务路径中每个不同阶段的营销渠道,不用考虑不同渠道的价值权重,大家一视同仁,计算也不复杂。另外,它的计算方法比较简单,计算过程中的价值系数调整也比较方便

缺点

  • 很明显,线性平均划分的方法不适用于某些渠道价值特别突出的业务,对于价值比价高的渠道,可能会“被平均”,因为这种渠道是靠质量而不是数量赢得结果的。比如,一个客户在线下某处看到了你的广告,然后回家再用百度搜索,连续三天都通过百度进入了官网,并在第四天成交。那么按照线性归因模型,百度会分配到75%的权重,而线下某处的广告得到了25%的权重,这很显然并没有给到线下广告足够的权重

适用场景

  • 根据线性归因模型的特点,它更适用于企业期望在整个销售周期内保持与客户的联系,并维持品牌认知度的公司。在这种情况下,各个渠道在客户的考虑过程中,都起到相同的促进作用

5.时间衰减归因模型

对于路径上的渠道,距离转化的时间越短的渠道,可以获得越多的功劳权重。时间衰减归因模型基于一种假设,他认为触点越接近转化,对转化的影响力就越大。这种模型基于一个指数衰减的概念,一般默认周期是7天。也就是说,以转化当天相比,转化前7天的渠道,能分配50%权重,前14天的渠道分25%的权重,以此类推

优点

  • 这个模型考虑了时间的作用,因为一般情况下也是时间越久对于用户的转化作用是越弱。相比线性归因模型的平均分权重的方式,时间衰减模型让不同渠道得到了不同的权重分配,当然前提是基于"触点离转化越近,对转化影响力就越大"的前提是准确的情况下,这种模型是相对较合理的

缺点

  • 如果有的渠道天然处于转化链路的起点,那么对于这些渠道是不公正的,因为它们总是距离转化最远的那个,永远不会得到一个公平的权重

适用场景

  • 和末次归因比较类似,适用于客户决策周期短、销售周期短、引导用户完成转化的场景的情况。比如,做短期的促销,就打了两天的广告,那么这两天的广告理应获得较高的权重

6.位置归因模型

基于位置的归因模型,也叫U型归因模型,它综合了首次归因、末次归因、线性归因,将第一次和最后一次触点各贡献40%,中间的所有触点平均剩下的20%贡献

U型归因模型也是一种多触点归因模型,实质上是一种重视最初带来线索和最终促成成交渠道的模型,一般它会给首次和末次互动渠道各分配40%的权重,给中间的渠道分配20%的权重,也可以根据实际情况来调整这里的比例

U型归因模型非常适合那些十分重视线索来源和促成销售渠道的公司。该模型的缺点则是它不会考虑线索转化之后的触点的营销效果,而这也使得它成为销售线索报告或者只有销售线索阶段目标的营销组织的理想归因模型

7.自定义模型

你可以根据自己对于业务的理解,创建你自己的模型,让其具有更具体的业务性和目的性,并可将其来和其他默认模型做对比

优点

  • 在这种模式下,你可以使用线性归因、首次归因、末次归因、时间衰减归因,以及位置归因模型作为基准线,通过不断地测试,调整各个渠道的权重,最好的效果是,它可以个性化地评估当前的业务,并可以随着时间的推移进行优化

缺点

  • 在没有先做一些测试之前不要直接使用自定义模型,不要仅靠经验判断哪些渠道的贡献可能更大,实际数据上的表现可能会有所差异,需要基于数据的测试来进行判断

8.如何选择归因模型?

上面这么多种归因模型大概可以分成2类:

基于规则

  • 预先为渠道设置了固定的权重值,好处是计算简单、数据容易合并、渠道之间互不影响,当然你也可以根据实际需要去调整他们的权重配比

基于算法

  • 每个渠道的权重值不一样,会根据算法和时间,不同渠道的权重值会发生变化(数据驱动)

在选择用何种归因模型之前,应该先想清楚业务模式:

  • 如果是新品牌、新产品推广,企业应该给予能给我们带来更多新用户的渠道足够的权重,那么我们应该选择首次互动模型
  • 如果是投放了单一的竞价渠道,那么我们应该选取末次互动归因模型或者渠道互动归因模型;
  • 如果公司很在乎线索来源和促成销售渠道,那么我们应该选择U型归因模型
  • 如果公司的渠道多、数据量大,并且由永久用户标识,基于算法的归因模型能够为营销分析提供巨大的帮助

总的来说,没有完美的归因模型。任何模型都存在他的局限性和不足,如何有效地结合客观数据与主观推测,是用好归因模型的重要能力前提

参考

4个方面解析:归因分析模型 | 人人都是产品经理

【数据分析思维】多因素影响下如何归因? | 人人都是产品经理

你可能感兴趣的:(业务,学习,数据分析,数据挖掘)