DEseq2 差异分析基本原理

DEseq简介

寻找组间显著表达变化的基因,以解释基因表达水平的变化对生物功能的变化最直接的办法就行进行转录组测序和定量。那如何从不同组定量的转录组寻找到那些显著差异的基因呢?DESeq 就是来解决这个问题的,它主要使用负二项分布的模型来进行差异分析。DESeq2是DEseq的升级版,但是DEseq2只适用于有生物学重复的试验,而DEseq既可以做有生物学重复也可以做无重复(或部分重复的)试验。

2. DEseq2的差异分析原理

2.1 统计模型:负二项分布

所谓的差异分析实际上是指通过假设检验来判断两组数据是否存在显著差异,有参数检验(总体分布已知)和非参数检验(总体分布未知)两种方式,显然,对于分布已知的数据,运用参数检验的结果会更准确些。因此在进行表达差异分析的时候,我们会假定表达数据符合某一个特定的分布,然后在使用参数检验的方式进行假设检验。
那么,表达数据(read counts)应该是一个什么样的分布呢?首先read counts本质是数目值,是一个离散的非零整数,其分布应该是离散型分布,其次,对于测序数据往往是n很大,p很小的分布,因此学术界常用泊松分布和负二项分布来描述。事实上,早期确实有人使用泊松分布来进行差异分析,不过后续发现基因的read counts的均值和方差并不是相等的(如下图示),这并不符合泊松分布均值和方差是相等的规律,因此发展至今,负二项分布成为差异分析的主要分布模型。

DEseq2 差异分析基本原理_第1张图片

2.2 数据标准化

理论上知道了数据的已知分布(负二项分布),就可以直接进行差异分析了。但对于测序分析得到的read counts需要事先标准化处理,才能用于差异分析。标准化处理主要为了解决两个问题。
1) 文库大小造成的两组数据之间存在差异。
2) 文库组成造成的两组数据基因的比例存在差异

具体的标准化过程如下:
1)计算所有样本的同一基因的对数均值,然后去除对数均值为Inf的值(read count为0的)。取对数的目的是减弱异常值的影响,使得数据分布更加平滑; 剔除reads数为0的基因是为了留下稳定表达的基因。
DEseq2 差异分析基本原理_第2张图片

2) 使用对数矩阵分别减去对应基因的对数均值,得到一个新的矩阵。
DEseq2 差异分析基本原理_第3张图片

3) 对于上个步骤得到的新的矩阵,计算每个样本的中位数(均值比较容易受异常值的影响,但中位数对异常值则不敏感) ,然后使用该中位数取真数,得到的结果作为该样本的标准化因子。
DEseq2 差异分析基本原理_第4张图片

4) 原始reads数矩阵分别除以标准化因子得到最终标准化的矩阵
DEseq2 差异分析基本原理_第5张图片
得到的标准化的表达矩阵就可以使用负二项分布的统计模型进行假设检验了。

你可能感兴趣的:(概率论,数据挖掘,机器学习,数据分析,经验分享)