辛普森悖论:一个反直觉的统计现象

今天逛虎扑论坛碰到的一个有趣问题:查看雷阿伦和科比的职业生涯统计,发现无论两分球命中率还是三分球命中率,雷阿伦都高于科比,但总命中率科比却高于雷阿伦。这是一个很经典的统计现象,叫辛普森悖论。我原来还看过一个类似的例子:两所机构进行招聘,A机构的两个部门相比B机构相同部门,招入的女性比例都更高,但总体上A机构招入的女性比例却低于B机构。


这个结果是比较反直觉的,一般人会认为既然雷阿伦的两分球和三分球都更准,那么总体也应该更准才对。但问题的关键在于:两分球和三分球在两人出手中所占的比重不同,所以不能进行直接的比较。举一个极端的例子:科比和雷阿伦都出手1000次,其中科比出手999个两分球命中460个,出手1个三分球命中0个,雷阿伦出手500个两分球命中250个,出手500个三分球命中200个。那么科比的两分球、三分球以及总命中率分别是46%、0%、46%,而雷阿伦的则是50%、40%、45%。由此可以看出,这个问题实际上是不具有贪心特性的,局部最优并不一定能保证全局最优。


再扯远一点,比赛中为了追求成功率当然应该多投两分,但不要忘了每个三分球比两分球多出50%的分数。假设一个球员三分球命中率是40%,两分命中率是50%,那么他每次三分出手得分的期望值为1.2分,每次两分出手则只有1分。这时再考虑前面的例子,科比以46%的命中率每回合得分期望为0.92分,而雷阿伦以45%的命中率每回合得分期望为1.1分,这又是一个有点反直觉的例子。


从这里就可以看出,简单的统计数据并不一定能反映出真实情况。就NBA来说,ESPN等外媒早早引入真实命中率、PER等高阶统计数据不是没有道理的。据说火箭总经理莫雷(MIT数学系的高才生)屡屡淘宝成功跟他强大的数据分析团队不无关系,以后这样聪明的总经理肯定会越来越多。

你可能感兴趣的:(辛普森悖论:一个反直觉的统计现象)