【点】p value、FDR、q value

假设检验：

一般步骤：

1.设定假设后需要验证：假设0一般都是“处理组和对照组无区别”

2.构建检验统计量：根据样本数据计算统计量和检验统计量

3.设定置信区间：根据检验统计量的分布，计算假设发生的概率P

# 分布的意义在于划定误差分布，即划定真实世界的随机误差范围

# 小概率事件的发生概率几乎为零，但是为了满足我们的现实需求，我们一般可以设定P>0.05即认定假设为真，即发生假设情况的概率为5%以上时，即认定假设为真。P<0.05时，即认定假设为假，即处理组和对照组有区别。

# 但在真实世界里，真实事件的概率可能会达到99.9%，而不只是95%。所以我们可能会将原本为真的情况，误判为假，即发生一类错误。

# 反过来说，当假设为假时，我们会认定处理组和对照组有区别，但其实有一定概率是“原本没有区别，但是被我们误判为假”的情况。

为了降低发生一类错误的概率，我们可以降低置信区间，相应的P值范围也会改变。多重检验校正便是通过设定一些规则改变P值范围来降低犯错的概率。

随着假设检验的次数增高，犯错误的概率就不断增大，这时候就需要进一步调整P，从而保证最终结果的可靠性。

比较基础的有Bonferroni校正和Benjamini and Hochberg校正

FWER(Family-Wise Error Rate)：初现至少一次一类错误（原本为真，判定为假）的概率

FDR(False Discovery Rate)：所有判为假的结论中（阳性结果），即发生一类错误的概率

基本原理是控制FWER

adj.P= α/m

# 其中α 为原定显著性，m 为检验次数；

# 举例：原α=0.05，检验m= 10000次，则adj.P= 0.000005。假设全部结果都是假（阳性结果），并且全部都是一类错误，则发生一类错误的次数 n= adj.P*m= 0.05< 1

基本原理是对FDR设限，如1%，一百个阳性结果，有一个是一类错误。但是也可以根据α来设定FDR，即BH校正。

将所有检验P值进行由低到高排序，找到一个最大正整数k，使得

P(k)<= α* (k/m)

# m为总检验次数

# 1～k均为阳性结果

#该策略假设的是假阳性与真阳性虽然都是阳性，但假阳性与真阳性本质截然不同，故从假阳性到真阳性是斜率陡然上升的。

除了BH外，还可以直接设定FDR。

总结：

adj.P其实就是q value；

各种校正其实只是设定q value的标准不同，核心思想都是一样的；

以上两个校正策略，用得较多的是第二个。因为第一个太严格了，很容易将真阳性结果筛掉。