全文共3166字,预计学习时长8分钟
图源:thomasnaet
A/B测试,简而言之就是通过创建可信的克隆来研究因果关系,即两个相同的项目(或者更典型的是两个统计上完全相同的组),然后观察不同处理它们的效果。
两个相同的项目不是仅仅相似的就可以了,我的意思是比下面图片上的两只猫还要相同,关键是找到“可信的克隆体”,或者让随机化和大样本量为你创建出来。
科学的、受控的实验是极佳的工具:它允许人们讨论原理和成因。如果没有它们,那么人们了解的只是相关性,这通常对决策没有什么帮助。可以说,实验是在文明对话中使用“因为”一词的许可证。
但令人痛心的是,贪恋结果而不愿付出、对推理的质量自欺欺人、在没有做适当实验就声称自己是科学实验的情况是很普遍的。如果出现不确定的情况,除非存在以下所有三个原因,否则你所做的将不算实验:
· 运用了不同的方法
· 方法随机分配
· 经过科学检验的假设(查看我的解释:http://bit.ly/quaesita_damnedlies)
想要知道为什么实验被用作推断因果关系的工具,请看最简单的实验之一——A/B测试——背后的逻辑。
简要说明
如果不想阅读详细的示例,请查看此GIF,然后跳到最后一部分(“秘密在于随机性”)。
详细说明
想象一下,你的公司有灰色徽标已经用了好几年了。现在,你的所有竞争对手也都使用了灰色徽标(模仿是最真诚的奉承),你的高管坚持要求将品牌重塑为更明亮的颜色……但是,换成什么颜色的呢?
虽然你的用户看到的徽标是灰色的,但这即将改变。
在仔细评估了贵公司网站配色方案的实用性之后,你的设计团队确定了仅有的两个可行的候选颜色:蓝色和橙色。
CEO最喜欢的颜色是蓝色,因此她选择批准蓝色作为默认方案。换句话说,她认为如果没有其他原因的话,她很乐意偏向选择蓝色。但幸运的是,她是一位由数据驱动的强大领导者,并且愿意在数据驱动下将她的想法变为橙色。
但CEO要看到切实的数据才愿意妥协,她要求提供证据表明橙色徽标在当前的用户群体中,可以使网站的特定部分产生更多的点击量(相对于蓝色)。
你是公司的高级数据科学家,到你搬砖的时刻了,你立即确定CEO的决策方法符合频率统计中的框架。在仔细听了她的话之后,你确定了她的零假设和备择假设与因果关系有关,这意味着需要做个实验。总结一下她告诉你的内容:
· 默认方案:批准蓝色徽标。
· 替代方案:批准橙色徽标。
· 零假设:橙色徽标不会比蓝色徽标多点击至少10%。
· 备择假设:橙色徽标的点击率至少比蓝色徽标高10%。
对于这样的设置,A/ B测试是理想的实验设计。(对于其他因果决策,可能需要其他设计。尽管在这里我仅介绍A/B测试,但更复杂的设计背后的逻辑是相似的。)
实时交通实验
图源:unsplash
有多种方法可以运行A/B测试。在心理学实验室(和焦点小组研究)中,我们看到的往往是邀请人们走到街上,向不同的人随机展示不同的刺激因素,然后向他们提问。
但是CEO想要的东西难度更大。她的问题只能通过实时流量实验来回答:当不同的用户在你网站上进行日常业务时,为他们提供不同版本的徽标。
实验基础架构
如果想进行实时流量实验,那么你需要一些特殊的基础架构。与工程师合作,建立为不同用户随机提供不同待遇的能力,以及根据待遇条件跟踪CEO期望指标(某些网站元素的点击率)的能力。
为什么人们不常做实时流量实验,答案通常与高昂前期成本有关。就像Google甚至在我们不知道要进行哪些实验之前,就和在我们的大多数系统中构建实验基础架构一样,传统公司可能一开始会忘记添加此功能,进而会发现自己落后于更懂技术的竞争对手。但要注意,如果你想进入应用的ML /AI游戏,那么就必须具备实验基础架构。
示例
你非常谨慎,不想因为突然出现新徽标而吓到用户。更明智的做法是对一部分用户进行实验抽样,然后进行逐步部署(如果更改造成无法预料的坏结果,那么可以选择将其还原为灰色)。
控制
如果想了解用户对新奇事物的反应(他们是否会因为徽标的更改而点击更多)可以将灰色徽标处理用作对照组。但这不是的CEO想要回答的答案,她的关注点在于单独的橙色相对于蓝色的因果影响,因此,考虑到她制定决策的方式,对照组应该是显示蓝色徽标的用户。
首先,你的系统尝试将蓝色徽标基准应用于样本中的所有用户。
但是,在系统实际向用户显示蓝色徽标之前,实验基础架构会翻转虚拟硬币,以随机将一些用户重新分配给橙色处理,向他们显示橙色。
然后随机向某一些户显示橙色版本,而不向其他用户显示。
如果随后观察到橙色版本的平均点击率较高,则可以说是橙色方案导致了行为上的差异。如果统计上的差异高于10%,那么CEO会很乐意按照她的承诺改成橙色。如果没有,那么她会选择蓝色。
为什么是10%?因为这是CEO愿意接受的最小效应量。如果决策者关心效应量,那么应该将其纳入假设检验中。检验“无差异”的零假设是一个明确的陈述,即你不会对效果大小有所怀疑。
如果处于橙色处理状态的用户对控制条件的反应不同,那么可以说显示橙色版本导致点击次数多于蓝色版本。
秘密在于随机性
如果不是随机执行此操作,例如,如果向所有登录用户提供了橙色方案,同时向其他所有人(游客)显示蓝色方案,那么就不能说是橙色方案导致了区别。因为不管使用哪种颜色的徽标,也许登录的用户对你们公司的忠诚度更高也更喜欢你们的产品。无论以何种颜色显示,登录的用户都可能有较高的点击倾向。
随机化是关键,是让你得出因果关系的结论,这就是为什么随机性如此重要的原因。样本量大(没有大量统计能力的情况下无法进行实验),随机选择会创建差异较大的组。从统计学上讲,两组是彼此可信的克隆体。
决策标准越直接,样本量越大,实验设计就越不需要复杂。A/B测试很棒,但是更多的高级实验设计使你可以明确控制一些混杂因素(例如2x2设计,可以将已登录的用户与未登录的用户分开,并在每个组中运行微型A/B测试,以让随机性为你处理其余的工作)。当你很想知道橙色徽标对登录用户的影响有何不同,并且希望将其纳入决策时,这个功能特别有用。无论哪种方式,随机选择都是必须的。
依靠随机选择,A/B测试的蓝色和橙色条件下的用户组在所有方面都一直相似(总体而言),传统上人们会考虑挑选参与者以平衡他们的研究:如性别、种族、年龄、受教育程度、政治观点、宗教信仰等。
但我们通常难以控制的其他方面,随机选择会使它们也保持相似:如喜欢猫的人、喝茶的人、游戏玩家、哥特人,高尔夫球手、拥有尤克里里的人、慷慨给予的人、游泳好的人、暗中讨厌配偶的人、几天没有洗澡的人、对橙子过敏而又没有意识到的人,等等。
这就是大样本量加上随机选择的优点,不必依靠自己的聪明才智来考虑要控制的正确混杂因素。当使用随机数创建两个大组时,你将获得一个统计空白的画布——两个组在统计上都是相同的,唯一的不同是将要对它们进行的操作。
如果观察到两组结果之间存在实质性差异,那么你就可以说发生的差异正是由于你的操作造成的,这就是实验的惊人力量!
探究因果关系是一场挑剔的游戏——这是科学家们也会做的事,如果提出两个伪劣的“克隆体”,并试图将不同的结果归咎于不同的方案方法,如果没有大样本,你怎么知道影响结果的不是它们鼻子下方(这两只小猫咪)的小斑点呢?
推荐阅读专题
留言点赞发个朋友圈
我们一起分享AI学习与发展的干货
编译组:高淳子、钟惠
相关链接:
https://towardsdatascience.com/how-do-a-b-tests-work-996842ce6fc0
如转载,请后台留言,遵守转载规范
推荐文章阅读
ACL2018论文集50篇解读
EMNLP2017论文集28篇论文解读
2018年AI三大顶会中国学术成果全链接
ACL2017论文集:34篇解读干货全在这里
10篇AAAI2017经典论文回顾
长按识别二维码可添加关注
读芯君爱你