批量进行miRNA差异分析(geo数据库)以及如何通过R语言对P值进行校正

批量进行miRNA差异分析(geo数据库)以及如何通过R语言对P值进行校正_第1张图片

批量进行miRNA差异分析(geo数据库)以及如何通过R语言对P值进行校正_第2张图片

T检验介绍

对于芯片数据,通常通过limma进行差异分析;而对于测序数据,通常用edgeR或者deseq,deseq2等软件进行差异分析。但假如果手头没有reads count数据,而只有RPKM/FPKM值,一般用ballgown或者T检验进行差异分析。但需要引起注意的是T检验是基于正态分布的检验方法,是不适用于二代数据的,因为这样会对低丰度基因的检验会产生大量假阳性。如果不得不使用T检验,请将在两组样本中表达量RPKM值均低于1的基因过滤掉。
请确定你认真看了上面两点使用建议,再开始看代码。

P值校正的简介

生物信息学数据分析中常碰见多重检验问题(multiple testing).Benjamini于1995年提出一种方法,通过控制FDR(False Discovery Rate)来决定P值的cutoff值. 假设你挑选了R个差异表达的基因,其中有S个是真正有差异表达的,另外有V个其实是没有差异表达的,是假阳性的.实践中希望错误比例Q=V/R平均而言不能超过某个预先设定的值(比如0.05),在统计学上,这也就等价于控制FDR不能超过5%.根据Benjamini在他的文章中所证明的定理,控制fdr的步骤实际上非常简单。设总共有m个候选基因,每个基因对应的p值从小到大排列分别是p(1),p(2),...,p(m),则若想控制fdr不能超过q,则只需找到最大的正整数i,使得 p(i)<= (i*q)/m.然后,挑选对应p(1),p(2),...,p(i)的基因做为差异表达基因,这样就能从统计学上保证fdr不超过q。

你可能感兴趣的:(批量进行miRNA差异分析(geo数据库)以及如何通过R语言对P值进行校正)