关于P-value,及显著与多重检验校正

P-value:通俗的说就是--犯错误的概率。

在任何一个严谨的科学测量中,我们判断两个数值是否有差异,必须要考虑这个差异可能来源两个方面:可能是真实的差异,也可能来自检测误差。而一般的显著检验的目的,就是计算出观测到的差异来源于随机误差的概率,这样才能评判我们的结论是否可靠。例如,通常说的P value(E value 是blast中一种特殊的p value)小于 1%,就是说我们做出了一个判断,但这个判断犯错的概率是1%(这里就是假阳性率,False positive rate)。虽然可能犯错,因为是这个属于小概率事件,我们就忍了吧,于是接受了这个判断。
但是,在很多科学实验中,在某些情况下,我们要做多次判断。例如,我们要判断两组样本对应的10000个基因的表达量是否在组间存在差异:基因A是否有差异?基因B是否有差异?基因C是否有差异?….. ,如此下去,我们要进行10000次比较。如果我们以p value 1% (假阳性的概率是1%)来作为阈值,并假设每次判断都是彼此独立的,那么即使这10000个基因实际上都没有差异,我们也可能会得出有100个差异基因的结论(阳性结果的错误率为100%,也就是下文要提到的FDR (False Discovery Rate )值为100%)。也就是说,一个小效率事件就在多次反复尝试后,变成了一个多次出现的事件(也就是俗话说的,“常在河边走,怎能不湿鞋”)。如果这10000个基因中有100个基因真实存在差异的,在 p vlaue为1%的阈值标准下,我们可能会得出199个基因有差异的结论(阳性结果的错误率,即FDR值约为50%)。从这里,我们可以看到,在进行多次检验后(也就是所说的多重检验,multiple test),那么基于单次比较的检验标准将变得过于宽松,使得阳性结果中的错误率(FDR值)已经大到令人不可忍受的地步。
那么怎么办?最好的办法就提高判断的标准(p value),单次判断的犯错概率就会下降,那么总体犯错的概率也将下降(类似,在多次相亲中,你可以通过提高标准来减少看走眼的概率)。在多重检验中提高判断标准的方法,我们就称之为“多重检验校正”。

最简单严厉的方法要属于Bonferroni校正。p-value除以检验次数,但标准太高使得假阴性率提高了。
折中方案:目前在RNA-seq中,使用最普遍的是Benjamini and Hochberg在1995年第一次提出的FDR(FalseDiscovery Rate)的概念以及相应的多重检验校正方法。比p-value更严格比Bonferroni校正更宽松。FDR就是一种控制阳性结果中的假阳性率的思路。在前面的例子的10000次基因差异比较中,如果我们使用FDR为1%的标准进行检验,最后检测出显著差异(阳性结果)的基因数是100个,那么其中假阳性的个数就可以被控制在1个,剩下的99个则是真实的差异(阳性结果中的假阳性率被控制在1%,而 p value 1%是指单次检验的假阳性率为1%,两者概念不同)。FDR的控制方法,延伸出了一个被校正后的p value的概念(比P value更严格),称之为Q value,这个概念是最早是John Storey(2002)提出的。在一般情况下,大家可以简单一些理解,FDR、Q value、Adjusted p-value指的是一个东西。

参考:http://www.omicshare.com/forum/thread-260-1-12.html

你可能感兴趣的:(关于P-value,及显著与多重检验校正)