问题一:已知A先生有2个孩子,有一个孩子是女孩,求另一个孩子是女孩的概率。
问题二:你看见A先生带着一个女孩散步,且A先生告诉你他家里还有一个孩子,求另一个孩子是女孩的概率(原题:一个叫史密斯的男人正在和他的女儿散步。史密斯说她家还有一个孩子。这个不在身边的孩子是女孩的概率是多少?)。
解题:孩子的性别是相互独立的,一个孩子的性别不会影响另一个孩子的性别,所以另一个孩子是女孩的概率是1/2。如果你也是这么理解的,那恭喜你你错了。
问题一是列纳德·蒙洛迪诺在《醉汉的脚步》提出的问题,蒙洛迪诺是与史蒂芬·霍金合著《时间简史》的大神级人物,他给出的答案是1/3。
解答(穷举法):
一个家庭有两个孩子只有四种可能(按老大老二的顺序):(男,男)、(女,女)、(男,女)、(女,男)。那么已知有一个女孩,就排除了“男男”这种可能性,只剩下三种可能,另一个孩子是女孩的概率就为P=(女,女)/((男,女)+(女,女)+(女,男))=1/3。
问题二是加里·史密斯对蒙洛迪诺关于“两孩问题”进行反驳提出来的,并在《简单统计学》一书中指名道姓地批评了蒙洛迪诺的“谬误”。同样加里·史密斯也非等闲之辈,曾在耶鲁大学任教7年间两度获得教学奖。
解答:
这个问题所依据的假设是,在400个二孩家庭中,BB、GG、BG、GB四种情况均匀分布(BB表示老大老二都是男孩;GG表示老大老二都是女孩;BG表示老大是男孩,老二是女孩;GB表示老大是女孩,老二是男孩)。在A有两个男孩的100个情况中,他总和一个男孩散步。在A有两个女孩的100个情况中,他总和一个女孩散步。在A拥有一儿一女的情况中,一个合理的假设,他与男孩和女孩散步的概率相等。
现在观察第一行,即A和女孩散步的200种情况。在100种情况中(GG),不在场的孩子是女孩,在另外100种情况下(BG或GB),不在场的孩子是男孩。在第二行,即和男孩散步的200种情况中,在100种情况中(BB),不在场的孩子是男孩,另外100种情况中(BG或GB),在场的孩子是女孩。不管和A散步的孩子是男孩还是女孩,他的另一个孩子是男孩或女孩的概率都是相等的,结果应该为1/2.
同时史密斯还是用的辩证法对蒙洛迪诺的“谬误”进行了反驳。史密斯认为如果接受另一个孩子是女孩的概率是1/3的概率算法,意味着A先生儿女双全的概率是2/3。
同样的推理也适用于已知一个孩子是男孩的情况。即已知A先生有一个男孩的情况下,另一个孩子是男孩的概率是1/3,他儿女双全的概率同样是2/3。那么无论已知孩子的性别如何,只要知道A先生有2个孩子,他儿女双全的概率都是2/3。显然与儿女双全的概率为1/2的推论矛盾(P=(男,女)+(女,男)/((男,男)(男,女)+(女,女)+(女,男))=1/2)。
看到这里可能很多人都会产生疑问,明明蒙洛迪诺和史密斯的算法都没有问题,为什么会有不同的计算结果呢?
然而问题一和问题二根本就不是同一个问题,所以必然会有不同的结果。蒙洛迪诺对于问题一的算法和史密斯对于问题二的算法都是对的。但是史密斯对蒙洛迪诺批判所使用的辩证法是错的,因为史密斯推论过程中的样本空间变了。在已知有一个男孩时样本空间为(BB、BG、GB),已知有一个女孩时样本空间为(GG、GB、BG)。虽然在假设不同的情况下,儿女双全的概率相等,都为2/3,并不等于只要知道A有两个孩子,儿女双全的概率为2/3,因为这种情况下,样本空间为(BB、BG、GG、GB),应该为1/2。
最近在网上看到一位名为“孤独的大脑”的知乎大V对这两个问题的差别进行比较清晰的分析和比较,本人也比较认同。
大V分析如下:
你可以由“看见一个女孩”推理出“至少有一个女孩”,但是,你不能由“有一个女孩”推理出“看见一个女孩”。所以这两个问题不是对等关系而是包含关系。
如上图所示,“看见一个女孩”被包含于“有一个女孩”。也可以说,“看见一个女孩”是比“至少有一个女孩”信息更多的概率描述。
当你看到这个解答时是不是有点豁然开朗的感觉,不由得再掉过头去重新计算一回。 等你计算完看下一段。
然而还可以更深层次的进行挖掘:
不管是史密斯的问题二“你看见A先生带着一个女孩散步,且A先生告诉你他家里还有一个孩子,求另一个孩子是女孩的概率。”还是知乎大V转换的命题“看见一个女孩”。这个“看见”是有问题的,可以分为两个层次。
(1)、看见A先生的同时看见与A先生一块散步的女孩并且可以辨识出女孩或看见一个女孩并且可以辨识这个女孩;
(2)、看见一个女孩,但无法辨识(大老远看见女孩的轮廓,看见女孩的侧面或看见女孩背面等看见是一个女孩却无法辨识的情况)。
当是第一种情况时两个孩子是相互独立的概率问题,答案是1/2,这种情况时加里·史密斯的计算对的。
当是第二种情况时就完全可以将问题二归为问题一了,即为“已知A先生有2个孩子,有一个孩子是女孩,求另一个孩子是女孩的概率。”所以这种情况下,答案是1/3。
如果我们知道“已知有一女孩”或“和A散步的女孩”的这个女孩比另一个孩子年长,那么另一个孩子是女孩的概率将会从1/3提升至1/2;同样,当我们知道“已知有一女孩”或“和A散步的女孩”的这个女孩比另一个孩子年长幼,那么另一个孩子是女孩的概率将会从1/3提升至1/2。 “知道这个女孩是年长或年幼”的问题可以归结为“辨识”,只要能辨识出这个女孩,也就是“确定”这个女孩,就可将概率提升为1/2。
总结一下,问题一和问题二是两个问题,问题一包含问题二,只要确定住其中的一个因子就可以问题一转换为问题二了。