如何简单粗暴地构思一次有效的数据分析实验

这周为部分读者写一些回答。另外为一个长期的系列文章做铺垫。

「大本，我入行以后一直在做算数相关的工作，想做一些真正的数据分析，但是又不知从何下手。」

如果你想要进行一次分析工作，可以按照我下面提供的步骤来做。这些步骤简单粗暴，不太讲究细节，但可以为你建立一个分析框架。

我们以某电商产品，提高用户将商品加入购物车的转化率为例。

1. 你的问题是什么？

与其说是问题，不如说是目的。知道了目的是什么，就知道应该如何调查。在我们的案例中，我们的目的是想要提高用户将商品加入购物车的转化率。

2. 调查现状

现在用户将商品加入购物车的转化率是多少？在加入购物车前，用户还会经历哪些动作？他会访问多少次网站？看多少商品？所看商品类别的重复程度？对于一个商品，他有没有获取更深层次的信息量，比如查看大图或者查看评论？

调查现状，一是要理清用户的行为链条，行为链条分先后，这样你才能找到在加入购物车的结果前面有什么因素可以进行干预。

二是要了解分布，在不同转化率的用户中，各个关键行为的分布如何，以便你接下来选择需要干预的因素。

3. 提出因果假设

在调查好行为链条后，选择一个你认为最可疑的关键行为，假设它与用户将商品加入购物车存在因果关系，即这个关键行为直接导致了用户将商品加入购物车。

判断可疑的方法有很多，如果想通过数据对比，最简单的方法就是直接将用户的关键行为数据和用户的转化率画出折线图，看看两者是否有相似或者背离的趋势。

如果你比较讲究，也可以计算两者的相关系数。

4. 控制干预实验

在你假设了某个关键行为对转化率有因果关系以后，便是进行控制实验的时候了。

控制实验，即是对这个你假设存在因果关系的关键行为进行干预，让它在两组一模一样的用户组中，只有这个关键行为被人为改变了。用户分组相当重要，这决定你能否证伪关键行为的因果关系。

干预有很多方式，可以直接干预，也可以间接干预。

何为直接干预？比方说你觉得用户看相同种类的商品越多越可能将商品加入购物车，那你可以对用户进行一次推送，将通过算法或者人工选择的商品组推送给他，或者将他首页的推荐模块换成同样的商品组，直接增加他看过的商品。

比方说你认为用户看过商品图片了更容易将商品加入购物车，你可以简单粗暴一点，让技术将商品页面的图片大小放大一点，让用户无法忽视这些图片的存在，如果有视频的话，直接将视频放在图片的前面而不是后面。

5. 计算复盘，检查假设

实验持续一段时间后，计算你的干预是否对两组一模一样的用户造成了转化率的影响。如果有，看看还能通过什么方法对这个关键行为进行干预，如果没有，总结一下是什么原因，如果是因为没有控制好其他因素，重新设计实验。如果总结不出来，换一个假设。

「提出问题，进行因果假设，干预实验，修改假设。」。

这一套分析框架简单粗暴，其核心要点在于干预。

能否对关键行为进行干预，或者能否在数据中计算到关键行为受到了干预，是你是否做出了有效的数据分析的关键点。

如果想做出有效的数据分析，那必然是要改变客观世界的。坦白说，如果无法干预，意味着你工作的对象是一堆死数据，它的存在与你的存在构不成任何互动，那你和这个对象在客观世界上就不存在关系，为什么要为它工作呢？

这时候就换一个你可以干预的对象吧，没有观点的数据分析师不是好数据分析师。没有分析的思路，想想我们可以干预什么，实验和分析的思路自然就来了。

寻找实验灵感的思路虽然简单粗暴，但做实验本身是一件细致活，也是数据分析最有技术含量的地方。

如果你所在的位置有话语权，能够调动开发资源，那就可以在线上对流量进行分割，分离出「两组一模一样的用户」去进行干预，对干扰因素的控制可以做得很好。

但往往很多数据分析师所在的部门并不具备进行进行完美实验的能力，有时候是因为线上权限不够，有时候是因为实验对象涉及到线下。

时代在进步，就算用户无法完美分割，也可以通过技术手段进行弥补，进行自然实验。断点回归（Discontinuity Regression）、双重差分（Difference in Differences）和倾向得分匹配（Propensity Score Matching）都可以弥补无法人工实验的缺陷。

我们之后再来介绍这些技术。