产品新手的打怪练级之路（2：数据的分析①）

“上帝既然是万能的，那他是否可以制造出一块自己无法搬动的石头？”

这是著名的“上帝悖论”，今天想来讨论的也是一个关于数据分析悖论，数据以它纯理性纯客观易测评的特质，在我们的生活中所扮演的角色越来越重要，诸如“大数据”，“数据智能决策”，“数据云”等声音近年更是不绝于耳，对于产品经理而言，自家产品的数据分析更是贯穿了产品运营和产品方向策略的制定，在产品经理和运营的技能点上占据的重要程度越来越高，这也就要求对数据代表的含义能更精确的把握，从而制定出相对应的产品功能改进和方向。然而不幸的是，数据的分析和使用中充满了坑，下面用几个栗子来解释，为什么说数据也具有欺骗性。

数据的“欺骗性”

例一：若有一个病人需要救治，在两个医院中进行选择，他尝试通过数据的力量来帮助自己选择医院，于是他在两个医院中分别抽样出了1000位病人进行对比，情况如下表：

两医院接受病人后治愈情况对比

由图中的数据，能很轻易的发现，A医院的治愈率大于B医院，于是我们可能得出的第一个结论：

A医院的总体治疗水平比B医院的总体治疗水平要高。

那么，A医院的治疗水平真的就比B医院的治疗水平高吗？我们再将这个样本细化一下，要知道，每个病人去医院时，自己的身体状况是各有不同的，假设我们将进医院时的身体状况分为重症和普通病症，我们再看一下这个样本情况：

两医院接受重症病人治愈情况对比

由图中的数据，又能很轻易的发现，B医院的重症治愈率大于A医院，于是我们得出了第二个结论：

B医院的重症治疗水平比A医院的重症治疗水平要高。

到这里，我们可能会根据结论一和结论二，自然的推导出A医院治疗普通病症水平会远高于B医院。事实如此吗？我们可以在列一个表来观察一下数据：

两医院接受普通病人治愈情况对比

耐人寻味的是，我们从表中发现，即使是对于普通病症的治疗而言，B医院的治疗水平也是高于A医院的。

我们再把表格中得到的三个结论和结论的前提复述一遍，大家就能明显的看出悖论的地方了

结论一：针对样本全体而言，A医院的总体治疗水平比B医院的总体治疗水平要高。

结论二：针对样本中重症病人而言，B医院的重症治疗水平比A医院的重症治疗水平要高。

结论三：针对样本中普通病人而言，B医院的普通病症治疗水平比A医院的普通病症治疗水平要高。

这就是“辛普森悖论”，意指在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方，会在总评中反而是失势的一方。如例一中的B医院一样，

我们能学到什么？

一. 从例一中，我们知道了想要去避免这样的“悖论”，就要求我们，需要仔细斟酌个别分组的权重，以一定的系数去消除以分组资料基数差异所造成的影响，同时必需了解该情境是否存在其他潜在要因而综合考虑。就如上述例子中，我们需要去寻找到的系数，就是“病症分轻重”。归纳一下，即为：由上至下分析数据时，不能仅凭单一维度的数据判断走向，找到数据背后的事件的特质，站在各个角度去评判数据结果。

二. 由下向上汇总成果时，需要考虑各个分类的具体情况，这里再举一个栗子：

例二：某公司有两款游戏的研发营收工作，接下去半年的工作中一项是提高自己游戏中的男女玩家比例，于是他们分别针对两款游戏开始进行推广，提高女性用户的留存，后取得的效果如下图：

游戏留存详细值

于是，该公司由此认为成功提高了自己游戏的男女玩家比例，可汇总后，发现，数据的情况却并不像自己想象的那样，女性玩家的留存比例依旧不高，如下图：

游戏总留存详细值

于是问题又来了，为什么公司的每一款游戏都提高了女性玩家的留存率，可汇总之后的值还是远远不如男性玩家的留存呢？

仔细分析一下注册数据就能发现，女性玩家集中在了游戏B里注册，但仅仅留下了10%的用户，相较游戏A高达75%的留存来说是低了很多，但反而实际留存的人数仅仅差了50个人，从这其实可以看出来游戏运营的思路了，对于游戏A，可能更适合男性玩家，选择游戏A的女性玩家，不论再做活动，留下的始终会留下，流失的还是会流失，因此花了很大力气去游戏A运营女性玩家，反而是收效甚微的，而对于游戏B而言，女性玩家的注册数量就有1000人，远大于男性玩家的200人，将运营游戏A的精力，转而大力运营游戏B中的女性玩家留存值，才是能显著提高公司整体留存玩家性别比例的最佳方式。归纳一下，即为：由下向上考虑实施方案时，需要结合具体事件的特定条件后再制定如何实施，并为调整留有余地

三. 量与质是不等价的，“辛普森悖论”的核心要点，其实就是在于单纯量上的对比不能反映出实际事件的走势，如以下栗子：用比赛100场lol游戏以总胜率评价好坏，于是有人专找王者级的玩家挑战20 场而胜1场，另外80场找黄铜的小学僧挑战而胜40场，结果胜率41%，另一人则专挑王者挑战80场而胜8场，而剩下20场与黄铜的小学僧比赛打个全胜，结果胜率为28%，比 41%小很多，但仔细观察挑战对象就能发现，后者明显更有实力。

四.怀才不遇的科学解释，如果我们在人生的抉择上选择了一条比较难走的路，就得要有可能不被赏识的领悟，这点其实是类似上述三点的，同样可以用于解释人生的境遇，这点对于我们的产品日常工作不大，就不展开详说了，

对于数据的分析，其实里面的学问真的太多了，下周会试着讨论一下，如何通过选取数据的样本来推荐可能认识的好友OR喜欢的歌曲，欢迎大家一起讨论并能指正我疏漏或者错误的地方。

产品新手的打怪练级之路（2：数据的分析①）

数据的“欺骗性”

我们能学到什么？

你可能感兴趣的:(产品新手的打怪练级之路（2：数据的分析①）)