day39 比较

day39 7月8日 周日 阴

当我们买一个手机时,我们通过往往会多维度对比,如价格、功能、外观、品牌偏好等等来选择一个手机,这就是一个决策过程。

同样,当我们想做数据分析或决策,第一步找到数据有了抽样或者全量数据后,下一步要做的事就是对比数据,找到差异,第三步再分析差异找出因果关系或者相关性。

第一步的数据获取中,引入我们目前说的大数据来减少抽样带来的误差,大数据的特点是数据量大、维度多样性、价值偏低、处理难,在互联网行业中用户操作均会留下记录,通过一段时间的收集,一些大公司如BATJ结合全网可以收集足够分析的用户数据,或者良好的分层抽样数据。
在生活中很多时候没法做到全量数据,那么这时会用到随机取样、多维分层取样。

在第二步做数据对比的时候,在科学实验里会做实验组与对照组,一般通过控制单一变量,也有多变量试验同时进时,不过这时的实验组会比较多,在目前互联网行业中常规做的是控制单一变量来做数据统计,如单功能/页面灰度测试、abtest,我们可以通过纵向对比(如时间深度),横向对比(同一时间的不同维度)出不同的差异:新功能会不会比老功能更好用被接受,新设计的页面会不会更能引流提高转化?但是在很多互联网公司,我们上了很多新功能、新页面并没有对功能/页面的使用率、转化率/留存率进行统计。没有对比,不知道差异,就无法得到理性的改进方向证据。

第三步,当我们发现差异后,会思考、挖掘展生差异的原因,但也有可能是数据的偏见引起。
接下来讲几点数据偏见。

你可能感兴趣的:(day39 比较)