[TOCE] 37 P5-C21-S1 采样率不匹配和其他与信任相关的护栏指标

Trustworthy Online Controlled Experiments Part 5 Chap 21


可能出错的事物和不可能出错的事物之间的主要区别是,当不可能出错的事物出错时,通常你会发现它无法修理。 – Douglas Adams

为什么重要

*护栏指标是旨在提醒实验人员有关违反假设的关键指标。护栏指标有两种类

型:组织指标和与信任相关的指标。第7章讨论了用于保护业务的组织护栏,本章详细介绍了样本比率不匹配(SRM),这是与信任相关的护栏指标。每个实验都应包括SRM护栏,因为它可以确保实验结果的内部有效性和可信赖性。这里还介绍了其他一些与信任相关的护栏指标。*

正如道格拉斯·亚当斯(Douglas Adams)的语录所表明的那样,许多人认为实验将按照设计进行。如果该假设失败了,(实际上失败的次数比人们预期的要多),那么分析通常会带有严重的偏见,并且会导致某些结论无效。许多公司通过SRM发现了实验中的问题,他们因此强调护栏指标的价值(Kohavi和Longbotham,2017年; Zhao等,2016年; Chen,Liu和Xu,2019年; Fabijan等,2019年)。

不匹配的样本比率(Sample Ratio Mismatch, SRM)

不匹配的样本比率 (SRM)关注两个变量(通常是干预变量和对照变量)之间的用户(或其他单位,请参阅第14章)之间的比率。如果实验设计要求将一定比例的用户(例如1:1)暴露给这两个版本,那么结果应与设计紧密匹配。与指标不同,将用户暴露于不同版本的决定必须独立于“干预”。 不同版本中用户的比例应与实验设计相匹配。例如,如果掷出10枚正常的硬币,有4个正面,6个反面(比率为0.67),这是正常的。但是,大数定律指出着随着样本量的增加,该比率很有可能会接近于1。

当“样本比率”的p值较低,则会出现样本比率不匹配(SRM),这种情况下,已经测得的指标均可能无效。可以使用标准的t检验或卡方检验来计算p值。可从http://bit.ly/srmCheck获得Excel电子表格示例。

场景1

在此实验中,控制和治疗分别分配了50%的用户。设计时希望每个组分配到相等的用户,但结果是:

  • 控制组:821,588
  • 干预组:815,482
    两者之间的比率为0.993,而对于每个设计,比率应为1.0。

上面的.993样本比率的p值为1.8E-6,这意味着: 在“控制与治疗”用户数量应该相等的设计中,看到该比率或更极端的比例可能性为1.8E-6或更小超过50万分之一!这是一个极不可能的事件。因此,实验可能出现了错误,因此不应该信任该实验中任何其他指标。

场景2

此实验中每个“控制组和治疗组”都分配了50%的用户,该比率最终为0.994。p值2E-5,这仍然不太可能。这是一个很小的百分比,真的必须舍弃结果吗?

图21.1显示了来自Bing的实际数据。


image.png

Bing的指标。左列显示元数据或度量标准名称。中间一栏显示了整个实验中每个指标的统计信息。右列显示了一部分人群的每个指标的统计数据。

中间一栏显示了“治疗”,“控制”,“增量”,“增量百分比”,“ P值”和“ P移动”(贝叶斯概率与该示例无关)。为了保密,这里隐藏了“处理和控制”的值,但是对于本例而言,它们并没有多大关系。可以看到,从会话/ UU(UU =唯一用户)开始,所有五个成功指标都得到了改善,并且p值从很小(所有值都低于0.05)到极小值(最后四个指标都低于0.0001)。

右列代表略高于96%的用户;排除的用户是使用旧版Chrome浏览器的用户,这是SRM的原因。此外,由于处理中的某些更改,机器没有正确分类,从而导致SRM。如果没有该细分受众群,则其余96%的用户将得到适当的平衡,并且该指标在五个指标均没有统计上的显着变化。

SRM原因

实践中发现了许多导致不正确结果的SRM实例(Zhao等人2016,Chen等人2019,Fabijan等人2019),在Microsoft大约6%的实验中出现了SRM。

以下造成SRM的一些原因:

  • 错误的用户随机分配机制。虽然根据伯努利随机化设计出来的方法非常简单,但是由于第15章讨论的加速程序(例如,以1%的速度开始实验并逐步加速到50% ),排除(实验X中的用户不应在实验Y中),并尝试通过查看历史数据来平衡协变量(请参见第19章中的哈希种子)。

    在一个真实的例子中,实验把所有Microsoft内部员工都分到干预组,然后以10%/ 10%的比例平均暴露外部用户。在Treatment中,占比小的 Microsoft内部员工对结果产生了很大的偏误(因为他们都是重度用户)。 SRM为结果的可信赖性提供了有效的保障。当这些内部用户被删除以后,之前看起来很强劲的干预效果就消失了。

  • 数据管道问题,例如上面场景2中提到的网络爬虫筛选。

  • 残留效应。修复错误后,有时会重新启动实验。当实验对用户可见时,一般不希望对用户进行重新随机化。 开始分析日期一般设置为错误修复后的时间。如果该错误严重到足以让用户放弃,那么这种处理会导致SRM(Kohavi等,2012)。

  • 错误的触发条件。触发条件应包括任何可能受到影响的用户。一个常见的示例是重定向:网站A将一定比例的用户重定向到网站A。由于重定向会产生一些性能损失,因此,如果只有Aꞌ 的用户被重定向,就会导致SRM。请参阅第20章。

  • 根据实验影响的属性进行触发。例如,假设基于存储在用户配置文件数据库中的休眠属性在休眠用户上运行活动。如果“处理方法”足够有效,可以使某些休眠用户变得更加活跃,则在实验结束时基于此属性识别用户将导致SRM:触发条件将排除早期处于休眠状态且现在处于活动状态的用户。在实验开始之前(或分配每个用户之前),应将分析触发到休眠属性的状态。基于机器学习算法的触发条件尤其令人怀疑,因为模型可能会在实验运行期间进行更新,并受到干预效果的影响。

调试 SRM

如上所述,当“采样率”护栏度量的p值很低时,应该拒绝实验是正确假设,并假设系统中存在某个错误,甚至抛弃任何其他指标。调试SRM很难,一般企业都会构建内部工具来帮助调试SRM,例如通过实施以下一些建议。

以下是我们发现有用的常见调查方向:

  • 验证随机化点或触发点的上游没有差异。例如,如果由于更改了Check out 功能而要分析从Check out点开始的用户,确保在该点上游的版本之间没有差异。如果要在结帐时评估50%的折扣(一对一的折扣),则不应该在首页上提及其中的任何一个选项;否则,必须从主页开始分析用户。
    Bing Image团队对使用Bing Image搜索的用户进行实验。他们发现,有时实验会通过内联提供图像搜索结果来影响常规的Bing Web搜索结果,这通常会导致SRM。

  • 验证版本分配是否正确。用户在数据管道的顶部是否适当地随机分配了?虽然大多数版本分配系统从基于散列用户ID的简单随机方案开始,但随着时间的推移分配机制会变得复杂,以支持并发实验和隔离组,保证不同的实验不会暴露给相同的用户(Kohavi et al.2013)。
    例如,假设一个实验将字体颜色从黑色更改为深蓝色,然后开始一个并发实验以更改背景颜色,但是该实验过滤了将字体设置为黑色的用户。由于代码的运行方式,第二个实验会从第一个“窃取”用户,当然,这会导致SRM。

  • 遵循数据处理管道的各个阶段的规范,以查看是否有任何原因导致SRM。例如,SRM的一个非常常见的来源是网络爬虫筛选。启发式方法通常是删除网络爬虫,因为它们会增加噪音并降低分析的敏感性。在必应(Bing),超过50%的美国流量作为网络爬虫被过滤掉,而中国和俄罗斯的90%流量都是由网络爬虫生成的!在MSN的一个极端情况下,实验表明一个改动很好的增加了使用率,效果好到超过了警戒线。 再清除了网络爬虫以后, 干预效果的表现就大大下降了(Kohavi 2016)。

  • 排除初始时间的实验。控制组和干预组会一起开始实验吗?在某些系统中,控制组在多个实验之间共享。即使分析时间段在干预组开始以后,也可能导致多个问题。例如,缓存需要花费很多时间,应用程序需要花费更多时间才能推送,手机可能处于离线状态,从而导致延迟。

  • 分区段检查样本比率

    • 分别看每一天;某天有什么异常的事件吗?例如,是否有人在某天提高了“干预”的实验百分比?还是另一个实验在“窃取”流量?

    • 如上面的场景2所示,是否有一个突出的浏览器细分市场?

    • 新用户和回头用户的比例不同吗?

看看与其他实验的交集。干预和对照应的比例应该和其他版本类似。

在某些情况下,如果了解了SRM,则可以在分析阶段修复原因(例如,网络爬虫)。但是,在其他情况下,流量的删除(例如,由于该浏览器的错误而导致的浏览器删除)则意味着某些细分受众群未正确接受“干预”版本,因此最好重新运行实验。

其他与信任相关的护栏指标

除了SRM之外,还有其他指标可以表明哪里出了问题(Dmitriev et al.2017)。有时,这些内容需要进行深入的调查,并且与软件错误有关,如以下示例所示。

  • 遥测保真度。点击跟踪通常是使用网络信标来完成的,已知这是有损的,也就是说,不到100%的点击被正确记录(Kohavi,Messner等,2010)。如果干预方式会影响丢失率,则结果可能会比实际用户体验更好或更糟。如果有一个评估损失的度量标准,例如通过网站的内部引荐来源网站或通过使用双重日志记录的点击(有时在广告点击中使用,这需要高保真度),可能会发现保真度问题。

  • 缓存命中率。如第3章所述,共享资源可能违反SUTVA(Kohavi和Longbotham,2010年)。拥有共享资源的指标(例如缓存命中率)可能有助于确定影响实验可信赖性的意外因素。

  • Cookie写入速率:不同版本写入永久(非会话)cookie的速率。这种被称为Cookie破坏的现象(Dmitriev et al.2016),可能会由于浏览器错误而导致其他指标的严重失真。 Bing的一项实验编写了一个cookie,该cookie并未在任何地方使用,并在每个搜索响应页面中将其设置为随机数。结果显示,在所有关键指标(包括每用户会话数,每用户查询数和每用户收入)上,用户的数量都大大下降。

  • 快速查询, 这是指两个或多个搜索查询,它们在同一秒钟之内从同一用户到达搜索引擎。 Google和Bing都已经观察到了这种现象,但是迄今为止还无法解释其原因。我们知道的是,某些处理增加或减少了快速查询的比例,这些结果往往被认为是不可信的。

你可能感兴趣的:([TOCE] 37 P5-C21-S1 采样率不匹配和其他与信任相关的护栏指标)