统俗讲义之——何为统计显著性(Statistical Significance)

统计显著性，是针对某种比较来说的。要比较，就要有个标准。在一个统计研究里，“零假设”(Ho,读作H null)就是当下的参考标准。统计上的结论或假设总是倾向于保守，有点像惯性定律，除非你有足够的影响力显著改变了什么，否则我们不会轻易改变当前已有的结论——当然这个结论也是保守、合理、并有一定共识的。
当将你的检验结果与“零假设”比较时，会出现四种情况：

2x2表	“零假设”是对的	“零假设”是错的
接受“零假设”	接受对的（这没毛病，概率为 1-Alpha）	接受错的（Type II Error，Beta Error）
拒绝“零假设”	拒绝对的（Type I Error，Alpha Error）	拒绝错的（这也没毛病，概率为 1-Beta）

其中Alpha，就是当“零假设”是对的，你却拒绝了它，的概率，我们称它为“显著水平”(Significance Level)。比如若将Alpha设定为0.05，那么就是允许你的检验有5%的概率拒绝接受一个已知的正确的结论。顺便提一句，拒绝错误的零假设的概率(1-Beta)，就是所谓的“统计功效”(Statistical Power)，已在另一篇文章里有详细解释。
而当我们说 p 值(p-value, p要小写)，就是指在假设“零假设”是对的时，我们能从实际样本中找到符合“零假设”的样本概率。比如，

“零假设”是：自发布起一天内，文章被阅读数与作者间的互粉数（互捧）无关：或说在发布一天内，“文章点击数”除以“互粉数+1”这个比值是随机正态分布；而
“备择假设”是：文章需要作者互粉（互捧），自身文章被阅读数才会显著增加。

（小注释：
1. 这个假设中所选的保守假设，因为笔者还不深度了解当前阅读网站的规律玩法，只选用书籍文章以纸传播时代的经验：只有名著、好文章才会被大量传播阅读，跟作者与他人互动无关。
2. 我们收集每个作者“文章点击数”除以“互粉数+1”这个比值，是考虑到互粉数可以是0，而分母不能为0；（另注意，此处计算的不是概率，只是个比值）
3 看这个比值是不是近似正态分布，是因为笔者认为如果互粉和文章点击数无相关，比值极高值和极低值应该都是少数，大部分都是徘徊在某个区间，类似于随机正态分布。

那么这里的p值，就是假设“零假设”是对的——文章点击数不需要作者互粉来提高——时，在我所收集的数据中，能找到满足“零假设”的最小概率：比如只找到4%的文章满足了其‘点击数’与‘互粉数’的比值，遵循（均值为u，标准差为sd的）随机正态分布的情况。（u和sd是能描述正态分布的属性参数，这俩数定了，正态分布图形就定了，可以用于比较了）

如果懂了如上解释，你会明白为何p值与alpha值是两回事，却又常常混谈——它俩都是概率，都用来描述差异显著性，但一个是样本中找到符合“零假设”的概率（p值，是实际样本中发现的概率）；另一个是拒绝正确“零假设”的概率（alpha值，是设定的一个标准）。

而当这个概率（p值，比如4%），小于Alpha（比如设为0.05），即 p找到满足“零假设”的概率，比我根据所设的显著水平而拒绝它的概率，都小——也就是说我费心费力找到了满足“零假设”的例子，但根据我设定的显著水平，这些例子都得被随机拍一巴掌检验一下，结果就把所有找到的正确例子都给拍没了——那还废那事干嘛？直接拒绝“零假设”得了！
——所以研究员的必做，统计检验，都爱：经假设检验，p

统俗讲义之——何为统计显著性(Statistical Significance)

你可能感兴趣的:(统俗讲义之——何为统计显著性(Statistical Significance))