[TOCE] 10 P1-C3-S2 Twyman 定律与实验的可信性

Trustworthy Online Controlled Experiments Part 1 Chap 3


可能影响实验内部有效的因素

内部有效性指的是实验本身正确与否, 并不涉及到将实验结论外推到其他情况。

违反 SUTVA

Stable Unit Treatment Value Assumption (SUTVA) : 实验对象的行为必须独立, 实验对象之间不能互相影响。

在以下情况下, SUTVA 可能会被违反:

  • 社交网络, 在这种环境中, 一个用户的行为会很容易影响到另外一个人。
  • 即时通讯工具(微信), 一对一的交流中, 用户也会互相影响。
  • 多人在线编辑工具(Google doc)
  • 双向市场环境 (淘宝,滴滴,京东,ebay,Airbnb) 一个产品降价会影响到另外一个产品。
  • 共享资源: CPU, Memory。 另外,如果 Control group 和 Treatment group 在一个机器上, 一个软件崩溃造成机器瘫痪也会影响到另外一台机器。

幸存者偏误

分析活跃一段时间(例如两个月)的用户的实验会引入生存偏差。一个著名的例子来自第二次世界大战,当时美国决定增加装甲轰炸机。美军记录了飞机遭受最大伤害的部位,军方自然想在飞机受伤最厉害的部位增加装甲。亚伯拉罕·瓦尔德(Abraham Wald)指出,这是添加装甲的最糟糕的方案。由于子弹孔几乎均匀分布,因此应在没有子弹孔的地方添加装甲,因为那些部位被击中的飞机很少能飞回来, 也就不会被检查到。( Denrell 2005,Dmitriev等人2016)。

意向性治疗(Intention-to-Treat)

在某些实验中,变体存在非随机损耗。例如,在医疗环境中,如果“治疗”中的患者有副作用,则可能会停止服用该药物。在在线世界中,你可能会为所有广告客户提供优化其广告的机会,但是只有一些广告客户选择进行建议的优化。如果仅分析那些实验参加者,会导致选择偏见,从而会夸大治疗效果。Intention-to-Treat 问题指的是:如果我们不去考察实验对象到底是否采用了Treatment ,那么我们比较的可能只是 “想要参与实验” 或者 “被安排参与实验” 的参实验者之间的差异。 我们需要确保, 在 治疗组中的人切切实实的获得了“治疗”。

Sample Ratio Mismatch (SRM) 实验样本不平衡

如果用户比例(或任何随机单位)不接近设计比例,则该实验将遭受“样本比例不匹配”(SRM)。例如,如果实验设计是一对一的比例(均等的控制和治疗),那么实验中用户实际比例的偏差可能预示着需要调试(请参阅第21章)。下面的例子。

如果实验设计的 Control 和 Treament 组的比率是 1, 那么如果当实际样本比例在 (0.99 , 1.01) 以外时,就要小心。 同时, 如果比例的 p-value 低于0.001 时, 就要停止实验。

"注释" 这里作者主要指的是实验人数无法预先设定的实验, 这里说的 “实验设计的 Control 和 Treament 组的比率是 1” 只是按照理论推导出来的。 如果是医药实验, Control 和 Treatment 都预先选好了就不会有这样的问题。 对于在线实验, 比如A , B两个网页, 研究者只能说预期两个页面访问量是 1:1 , 这个可能是从过往经验中得到的。

如先前所定义,p值意味者如果 Null 假设为真时,观察和当前情况一样极端或者更加极端的情况。如果实验设计是对两个变量均等地分配,那么通过设计,应该获得接近1.0的比率,即Null假设应该是正确的。因此,p值表示我们观察到的比率(或更极端的比率)与我们的实验系统的设计一致的概率。这项简单的测试可以确定实验中的许多问题,其中许多问题一开始看起来就很糟糕, 符合Twyman定律。以下是一些例子:

  • 网页重定向
    -实施A / Btest的一种非常常见且实用的办法是将“Treament” 组重定向到另一个页面。像许多想法一样,它简单,优雅且错误;几种不同的尝试表明,这始终会导致SRM。有几个原因:

    • 延时: 重定向过程可能需要数百毫秒, 这段延时将对用户体验造成巨大影响。
    • 爬虫: 不同的爬虫对重定向解释不同, 一些爬虫会以为重定向网页是新网页,然后进行重度爬取, 从而导致虚假访问上升。
    • 非对称: 有时候用户会把重定向网页直接收入收藏夹,或者推荐给朋友,这回造成非Treatment 用户也会产生影响(本来只有被重定向进入新网页的用户才会被统计), 从而污染实验。
      重定向会造成一些列问题, 需要从服务器端来对访问进行控制。如果做不到的花, 那么就需要让Control 和 Treatment 都使用重定向,以平衡影响。
  • 受损的实验工具
    点击跟踪通常是使用网络信标(1像素的GIF图片)来完成的,已知该信息是有损的(即不会记录用户所有的点击行为)。这通常不是问题,因为所有的损失都是相似的,但是有时候Treatment 会影响损失率,导致用户看起来并不是很活跃并导致SRM。另外,将网络信标放置在页面的其他区域时,会导致计时偏差。

  • 残留效应
    新的实验通常涉及新的代码,并且错误率往往更高。新实验通常会引起一些意想不到的严重问题,并为了快速修复错误而中止或继续运行。修复错误后,实验继续进行,但是一些用户已经受到影响。在某些情况下,这种残留效应可能会很严重并持续数月(Kohavi等,2012; Lu和Liu,2014)。这就是为什么要运行A / A测试(请参阅第19章), 并主动重新随机化用户很重要的原因,同时也要认识到在某些情况下重新随机化会破坏用户的一致性,因为某些用户一开始在Control 组,之后被分配到 Treatment 组,反之亦然。在LinkedIn上,对新版本的“您可能认识的人”算法进行了评估,结果证明该算法非常有用,可以增加用户访问量。当实验停止并重新开始时,先前实验产生了显着的残留效应,该效应足以创建SRM并使结果无效(Chen,Liu和Xu 2019)。
    浏览器cookie中的残留信息也可能会影响实验。以一个教育活动为例,该活动向“治疗”中的用户显示一条消息,但是为了避免给用户造成麻烦,该消息仅显示三次。这个方案使用浏览器cookie,该cookie计算消息显示的次数。如果实验重新开始,那么某些Treatment用户的cookie计数> 0,因此会看到消息,或者根本看不到消息,从而稀释了Treatment效果或造成了SRM(Chen et al.2019)。

  • 坏的哈希函数,或者随机化机制
    Zhao et al. (2016)描述了Yahoo!的 Treatment 任务是如何完成的!该实验使用Fowler-Noll-Vo散列函数,该函数可用于单层随机化,但是当将系统推广到重叠实验时, 该函数却无法在多个并发实验中正确分配用户. MD5等加密散列函数很好(Kohavi et al.2009), 但是比较慢; Microsoft使用 Jenkins Spooky Hash 这个非加密函数。

  • 治疗组的触发机制
    通常只选一部分用户进入实验。例如,只在某个国家(例如美国)触发用户。然后将这些用户随机分为多个组。如果根据随时间变化的属性进行触发,则必须确 Treatment 不会影响用于触发的属性。例如,假设一个电子邮件活动,该活动触发了三个月不活动的用户。如果活动有效,则这些用户将变为活动状态, 那么紧接着的实验就会被影响(一些潜在用户都已经被激活了)。

  • 时间因素
    这里用发送电子邮件的 A/B 测试举例。 比如一个实验, 使用不同的电子邮件正文, 然后希望看到人们的打开率如何。 一个长期跟踪发现邮件打开率会出现“聚团” 的情况, 后来发现, 为了实现的方便, 系统先发送 Control group 的邮件, 然后发送 Treatment group 的邮件。 这样就导致 Control group 的邮件在工作时间被发送, 而 Treatment group 的邮件在下班以后才被发现。

  • Data pipeline (数据管道)被 Treatment 影响
    MSN门户(www.msn.com)的“信息窗格”区域具有多个旋转的“幻灯片”和一个指示每个的点的页面滑动。MSN OEC的关键指标是每个用户的点击次数,表示用户参与度。团队进行了一项实验: 增加了信息窗格中的幻灯片数量,从12至16。

    image.png

初始结果显示该治疗的用户参与度显着降低,但该实验具有SRM:该比率为0.992而不是1.0。在每个组中有超过800,000个用户,这种比例的p值为0.0000007,这意味着,即使设计是针对相等的分组,这种分组的概率也是偶然发生的。调查发现,由于“治疗”中的用户参与度增加,因此,一些参与度最高的用户被归类为机器人(系统日常的Pipeline 中对机器人的过滤机制被触发),并从分析中删除。纠正此机器人过滤条件后,结果显示了相反的“治疗效果”:“治疗”中的用户参与度提高了3.3%!

机器人过滤是一个很严重的问题, 在美国50% 的访问量来自于机器人, 而在中国和俄罗斯,这一比例高达 90%。

SRM检查至关重要。如最后一个示例所示,即使很小的不平衡也会导致治疗效果的逆转。 SRM通常是由于极端用户而造成的,这些用户要么非常好(例如重度使用用户),要么非常糟糕(这些用户没有点击计数)。这表明即使人口差异看起来很小,也可能导致结果显着偏斜。

你可能感兴趣的:([TOCE] 10 P1-C3-S2 Twyman 定律与实验的可信性)