关于A/B测试的思考

产品经理同事在做实验的过程中遇到了两个典型问题:
一是发现对于某些A方案和B方案,可能会在不同方面产生影响,A方案在X方面的表现优于B,而B方案在Y方面的表现优于A。于是就陷入了迷茫;
二是发现对于一些实验,在实验上线后前几天发现某指标的表现A优于B,但是多看几天后又发现B优于A。于是又一次陷入了迷茫。
存在这样一些迷茫,本质上的是因为对业务的理解不够深刻。但与此同时,行业里面对A/B测试的追捧和简单化宣传,导致一些创业公司在跟随使用这一方法时,对其背后的方法论并没有充分的理解,这种现象也广泛存在。由于存在这样一些问题,通常出现的情况是,通过大量研发投入而实现的实验无法给出预期的结论,进而对这一套本来比较科学的方法产生怀疑,又回到基于经验和直觉展开决策的老路上。
我们简单解读一下这两种问题背后的原因和解决方案。

第一个问题的核心是产品价值本身很可能是多维度的。一个实际的实验例子是:通过将短视频的展现模式从默认全屏模式转换为瀑布流模式,降低了信息分发的信噪比,结果是一方面降低了用户的观看时长,另一方面增加了用户与内容之间的互动,包括喜欢、评论、关注内容发布者等行为。在这个例子里面,两个不同维度表现的此消彼长,是非常自然的结果,但是对产品决策却造成了不小的障碍。
解决思路是,首先还是梳理清产品逻辑。如果产品价值的最核心归依是获取更多的用户观看时长,那么全屏模式获得的是当前的用户观看时长,而瀑布流增加用户与内容互动的模式通过投资用户对平台的黏性,尝试获取的是未来的观看时长。因此,我们可以通过用户历史数据展开探索新分析,尝试回答一个问题:那就是当前的用户互动可以带来多少未来的观看时长?如果能够回答清楚这个问题,那么在不同的产品方案之间的比较就可以从多维度回到单维度,直接关注当前播放时长的减少和未来播放时长的增加的综合结果是正还是负,就可以做出决策。

第二个问题的核心是对不确定性的处理。我们尝试通过大样本解决随机性的问题,这样确保A方案和B方案的对比结论是稳健且显著的。但是问题是随机性存在于两个不同的维度:一个维度是用户属性的多样化,这一点可以通过大规模用户引入和随机分组得到解决;另一个维度是两个方案的表现在时间维度上的随机波动,当该波动的标准差高于A方案和B方案的差异时,对方案效果的识别就会失败。第二个维度问题的存在导致我们希望在短时间内获取实验结论的方案落空。
对此,也许只有一种不是办法的办法可以解决问题,那就是延长实验时间,降低时间维度上的随机性。

你可能感兴趣的:(关于A/B测试的思考)