11.1 p值的意义

11.1 如何看待 Nature《科学家们起来反对统计显著性》一文,对统计意义的误解源头真的是 p 值吗?

标签:机器学习与数据挖掘
作者:孟浩巍
原文链接:https://www.zhihu.com/question/317252051/answer/633033538?utm_oi=50144498155520
是知乎上面的答案 写的很好啊
198 人赞同了该回答

不必过度解读,几乎每过两年就会出现一篇类似的文章来告诉大家:你的统计学方法错啦;Pvalue不重要啦;反对统计显著性啦;加强统计学教育啦等等。

其实,要领会精神,内核是:告诉大家不要一刀切地下科学结论。

(2019年3月26日)今晚稍微有点时间,简单更一点。

其实要解释“统计显著”这个概念,那得先给大家讲讲历史故事。所谓的统计pvalue其实是做假设检验的一个产物,那假设检验主要是Pearson,Fisher,Neyman以及小Pearson 这4位大神建立起来的。

最早的时候Pearson提出了一个显著性水平 α \alpha α 这个概念,当时主要是为了做拟合优度检验,简单来说,就是一个抽样分布和已知分布是否相同,现在应用非常广泛的二联表检验里的 χ 2 \chi^{2} χ2 检验就是基于这个原理。

而Fisher当时是在Pearson手下的一个农场里做一些统计分析的工作,他最早比较明确地提出来显著性检验这个概念的人,一个比较著名的例子就是“女士品茶”,就是当时有一个Young lady非常喜欢喝茶,然后还喜欢在茶(T)里加牛奶(M),还号称能够尝出来是这两者先后加入的顺序,即能够通过品尝知道是TM(先加茶再加奶)还是MT(先加奶再加茶)。Fisher觉得,有必要通过一定的统计学方法来确定这个事情是不是真实客观的。那怎么来做这件事情呢?他先准备好MT,TM各4杯,然后让妹子盲喝,最后妹子答对了8杯里的7杯。那么Fisher老爷子就开始计算概率了,假设妹子纯靠猜8杯答对7杯的概率应该按二项分布计算:

P { 8 杯 猜 对 7 杯 } = C 8 7 × ( 0.5 ) 7 × ( 0.5 ) 1 = 0.03125 P\left\{ 8杯猜对7杯 \right\} = C_{8}^{7} \times (0.5)^{7} \times (0.5)^{1} = 0.03125 P{87}=C87×(0.5)7×(0.5)1=0.03125

P { 8 杯 猜 对 8 杯 } = C 8 8 × ( 0.5 ) 8 = 0.00390625 P\left\{ 8杯猜对8杯 \right\} = C_{8}^{8} \times (0.5)^{8} = 0.00390625 P{88}=C88×(0.5)8=0.00390625

那么这个时候:

P { 8 杯 猜 对 7 杯 以 上 } = 0.03515625 P\left\{ 8杯猜对7杯以上 \right\} = 0.03515625 P{87}=0.03515625

Fisher老爷子一看,这瞎猜出现这种情况的概率平均每20次还不到1次(0.05),那我就索性信了这个妹子吧,认为妹子不是瞎猜,而是真的有这个分辨TM、MT的能力。这个就是最早的统计检验,这里的

P { 8 杯 猜 对 7 杯 以 上 } P\left\{ 8杯猜对7杯以上 \right\} P{87}

就是我们现在所谓的 P − v a l u e P-value Pvalue,不要问我为什么 P − v a l u e < 0.05 P-value < 0.05 Pvalue<0.05 就是能否定原假设,就是统计显著,这特么是Fisher老爷子一拍脑门想出来的啊!没有什么为什么 233333!

(2019年3月29日)继续写一点。

Fisher老爷子这个检验很好,也给出了 P − V a l u e P-Value PValue这个概念,告诉我们当 P − v a l u e P-value Pvalue 小于一定的cutoff就需要否定我们的假设。但是还不完善,后来Neyman和小Pearson(K Pearson的儿子,Pearson相关系数的提出者)完善了统计检验的步骤:一个统计检验应该包括假设 H 0 H_{0} H0 和备择假设 H 1 , H 0 H_{1},H_{0} H1H0 H 1 H_{1} H1是两个互斥的集合,同时二者的合集构成全集;当不能够接受 H 0 H_{0} H0的时候,就一定需要接受 H 1 H_{1} H1;同时明确了两类错误,分别称为第一类错误,第二类错误及功效函数。

其中,第一类错误,也叫“去真”错误;第二类错误也叫“纳伪”错误。这两个错误在不同的检验问题下,重要程度往往不同且通过数学可以证明,这两者不能同时减小。压下葫芦起了瓢,当一个减少以后,另外一个一定增加。

怎么理解这个“去真”错误呢?就是真的发生了一个小概率事件,恰巧被我们观测到了,结果由于 P − v a l u e < 0.05 P-value < 0.05 Pvalue<0.05的原因,我们否定了不应该否定的 H 0 H_{0} H0 造成了错误。去真往往会带来问题,因此现在习惯上喜欢在统计检验的时候,首先关注的是 H 0 H_{0} H0的第一类错误。

那么 P − v a l u e P-value Pvalue有什么问题呢?常见的大概有下面几种:

P − v a l u e P-value Pvalue不能完全代表总体的情况,只能够代表样本的情况;比如你要检验的是A城市与B城市的平均身高有无显著差距;如果你只抽样了20个人,那么很可能就会得到Pvalue极小的情况,但这并不能代表你的 H 0 H_{0} H0真实的情况!
P V a l u e PValue PValue的多重检验的假阳性问题;当你有1000个检验问题的时候,使用相同的检验方法,就很可能出现几十个 P − v a l u e P-value Pvalue带来的假阳性问题。
PValue临界值附近的经常存在争议;比如我有一个药物A,进行了20个人的配对实验,结果发现 P V a l u e = 0.04 PValue = 0.04 PValue=0.04;同时有个药物B也进行了同样的实验发现 P − V a l u e = 0.06 P-Value = 0.06 PValue=0.06. 那么我能不能说药物B对这个病没有效果?我能不能说药物A对这个病有疗效?我能不能说A与B的药效有显著差异?这种问题经常在 P v a l u e Pvalue Pvalue的临界值附近出现,所以一定要小心!
PValue的计算选择错了统计方法;这个问题很有趣,很多时候,你可能计算出了一个 P − v a l u e < 2.2 e − 16 P-value < 2.2e-16 Pvalue<2.2e16的一个超显著的 P V a l u e PValue PValue结果,但是你忘记你的 $H_{0} . 举 个 例 子 , 比 如 你 想 比 较 的 是 两 个 总 体 的 均 值 是 否 相 同 ; 结 果 你 用 错 了 统 计 学 方 法 , 搞 了 个 . 举个例子,比如你想比较的是两个总体的均值是否相同;结果你用错了统计学方法,搞了个 .KS,, test , 殊 不 知 ,殊不知 KS test 是 用 来 检 验 两 者 分 布 是 否 相 同 的 检 验 , 结 果 得 到 了 超 显 著 的 是用来检验两者分布是否相同的检验,结果得到了超显著的 P-value 。 这 种 情 况 下 , 很 遗 憾 , 你 用 了 错 误 的 统 计 学 方 法 , 得 到 了 错 误 的 。这种情况下,很遗憾,你用了错误的统计学方法,得到了错误的 P-value$,最终得到了错误的检验结论!
(待续 。。。)

你可能感兴趣的:(大数据挖掘与分析,机器学习,数据挖掘,多元统计分析)