基因表达量计算与差异表达分析常见问题

问 1: 在没有重复实验的情况下,用 RPKM 要怎么做检验呢?
答: 如果要用泊松分布做差异分析模型的话,必须要用 reads count 的。只有 RPKM值的话,可以用 RPKM 的公式反推 reads count 数,再做检验。
问 2: Deseq 是怎么控制 reads 多重比对的?
答: Deseq 只是一个差异分析的软件,多重比对的分配是在 Deseq 之前的。 Deseq 是输入的数据是已经分配好的 reads count,然后用于分析,但是如果 reads 多重比对要怎么处理的,那么要使用 reads 分配分析软件,例如 cufflinks 或 Rsem 软件。 所以Deseq 是不能处理多重比对的,应该之前用软件进行预处理。 一般来说多重比对有两 种方案:
1)如果一个 reads 多重比对的话,可以把多重比对的 reads 删除掉,
2)使用 cufflinks 和 Rsem 分配比对结果 bam 文件;
如果不关心可变剪切的差异,策略 1 也是合理的。如果关心可变剪切,则建议策略 2。
问 3: Deseq、 edgeR 和 cuffdiff 在处理多重比对 reads 的时候差别是什么?
答: Deseq 与 edgeR 只是一个差异分析的软件,就是类似于做方差分析的软件一样。但 cufflinks 是个软件包,从数据比对到 reads count 到差异分析都全包了,所以如何处理多重比对的 reads 是与 Deseq 或者 edgeR 是无关的。 可以用 cufflinks 或者RSEM 来做多重比对的处理,然后做差异分析,则可以继续选用 Cuffdiff 、 Deseq 或edgeR。
问 4: 用 TMM 标准化之后再用基于泊松分布的差异分析算法,计算差异基因靠谱吗?

答:TMM 标准化的确是独立的方法。 既然有生物学重复就不建议用泊松分布模型。 因为 TMM 是 edgeR 的归一化算法,建议后续的差异分析继续使用 edgeR。 泊松分布可以做差异分析,但是这个方法无法估算生物样本之间的个体差异。所以他最后是相当于低估了 P 值,统计结果是存在较大假阳性。

问 5:如果想比较环境对基因表达的差异,分别从两个地区各取三株样品,比较组间差异可以吗?

答: 可以。这个方法是可行的,但是有一点,目前我认为 RNA-seq 最大问题是如果只测三个生物学重复,对模式生物来说还是 OK 的,比如小鼠、 拟南芥,他们个体差异
很小。 我们知道个体差异本来就是组内差异的一部分。所以对于模式生物来说一开始个体差异是非常小的。但是如果从两个区域取样的话,而且非模式生物学样本,例如林木、昆虫,可能个体差异会比较大,容易得到组间差异不显著的结论。 所以想得到一些更稳定的指标的话,建议用混样作为生物学重复来做差异比较将会更加稳定。用混样作为样本的逻辑是这样的, 比如在某个区域取到 30 个样本,然后把每 10 个样本混成一个池,比如前十个,中间十个,后面十个,构成三个样本池,这个时候其实这三个样本池还是不一样的。生物学重复本身就是假设是抽样, 从一个大样本中抽样,来计算抽样误差多大,如果将个体作为重复的话,这种个体差异比较大, 这样就导致抽样误差比较大。但是如果以群体作为样本的话,因为群体的均值更加稳定,得到样本间差异将更小,所以我们才会建议所有样本混合成若干池,这样减少抽样误差。

问 6:cuffdiff 的 bug 主要表现在哪里?
答:因为我们之前做过很多项目,发现 cuffdiff 这个软件估算 reads 数非常诡异。 例
如我们之前遇到过 cufflinks 软件估算到的 count 数突然间一个基因丰度很低的,会
估算得到一个 4 位数的结果;或者说有些基因明明差异不显著的, 会最后得出一个非
常显著的 pvalue。 我们并不了解这个软件的源代码,只是发现这个软件潜在的一些
bug,所以后面我们就把这个软件放弃了不使用了,但是不知道新版本的有没有纠正
这个 bug。
问 7: cufflinks 的问题和 bug 是实践出真知 or 有文献考证?
答:这个 bug 是我们做项目发现的。
问 8:miRNA 表达量是比较低的,是不是现在没有生物学重复,这个差异基因的检出
期望值会减少?
答:其实 miRNA 表达量不低,实际上表达量是相当高。一般来说,miRNA 表达量有
几个特点,首先变异很大,现在在样本内那些高丰度的 miRNA 与低丰度的 miRNA 差
异非常大,可能相差几万倍甚至几十万倍;另外个体间的 miRNA 丰度也是变异非常
大的。所以做 miRNA 测序,往往可能得到的 P 值相对于转录组测序没那么显著的。
有几种解决方案:
1)通过生物学重复样本的数量来提高 P 值,因为个体差异大,理论上增加生物学重复
样本的数量可以减少干扰。
2)可以考虑将多个个体混合池作为样本,减少差异
3)如果说经费有限,不想设重复,就只有对照组与处理组比较,这样用泊松分布也可
能做差异分析模型的,但是这样得到的结果无法证明差异得到的 miRNA 是处理导致
的差异还是随机误差导致的差异,所以这样筛到的 miRNA 还是需要实时荧光定量的
方法,单个样本进行验证来证明在处理组之间是存在差异的。
问 9:用唯一比对的 reads 计算表达量更准确吗?
答:这个基于我们实际观察到的。 理论上 cufflinks 或者 Rsem 软件模型是用最大似然
法对 reads 进行分配。我们在实际项目中发现,用最大似然来做分配之后,最后跟平
均分配几乎是等效的。
比如一个基因存在可变剪切,不同的可变剪切理论上表达量是不同的,所以 reads 平

均分配到各个可变剪切是不同的,用 Rsem 或者 cufflinks 这种软件几乎近似于做平均
分配的,就是说这两个软件在数学模型上几乎完美,但实际应用的时候几乎跟平均分
配是效果相似。 如此推断基因表达量是非常不合理的。而我们用 unique map 的话,
将多重比对的 reads 放弃,这样就只基于每一个转录本唯一的部分计算表达量,我们
发现这样的结果往往更加合理。
如果我们用 unique map 来计算可变剪切表达量可能比较困难,因为可变剪切间的重
叠区域太大。 但是这个策略用于计算基因间的表达差异往往更加合理。毕竟不同的基
因哪怕是基因家族完全相似的部分也是非常少的。如果用 unique map 来计算基因表
达量其实还是相当可靠的,我们通过一些实际项目也支持这点。 在一些项目我们即用
了 Rsem 来计算表达量,又用了 unique map 来计算表达量,最后发现在人里面的样
品算基因家族的时候,发现用 unique 来计算表达量,跟荧光定量结果更加吻合。
而 Rsem 更倾向于做平均分配,这样存在一个问题,有些基因风度非常高,但因为在
Rsem 软件用到的一个类似平均分配的方法,把一些高度的 reads 分配到低丰度的基
因家族里面,这样导致表达量被稀释了,可能最后结果是有问题的。 所以实际中我们
发现唯一比对还是比较理想的。


问 10:怎么处理表达量低的基因?现在有没有统一的标准呢?比如说 RPKM 或者
counts 为多少的时候可以忽略不计或者近似看成某个值?
答:表达量低的基因目前没有标准,一般文献认为 RPKM 值小于 1 或者小于 4 或者
这个基因的 reads 数量小于 1 或者小于 3 就认为是不表达的。一般情况下,一个基因
的表达量极低比如 RPKM 值为小于 1,这个基因就被认为低丰度,至少是没有太大生
物学意义。
当然如果处理组或者对照组,两组 RPKM 值都小于 1,那么这个基因丰度如此低,那
么他是没有多大生物学意义的,所以对后续分析与讨论这样的基因可以忽略不计。我
们认为这些基因完全可以在结果里剔除。
问 11:没有生物学重复,用 DEGseq 算之前需要均一化吗?
答:理论上用 Deseq 或者 edgeR 的话,其实不需要做均一化的,只要将 reads count
作为输入,软件会自动做相应的处理。我们说的均一化是说我们需要了解方法与过程,
均一化是软件自动完成的。
问 12: 看基因表达量是看 cuffdiff 结果中的 value 值还是看 cufflinks 结果中的 FPKM
问 13:如果三次重复的话,基因表达量就算三个 cullinks 结果 FPKM 的平均值吗?
答:是的。
问 14:3 个生物重复样品是分别建库测序得到 3 个数据好,还是将 3 个重复样品混合
在一起,建一个文库测序,得到一个数据好?
答:当然是单独建库,分别做差异分析这样是最好的。如果混样测序了,就没有办法
计算组内差异了,那么审稿人就会质疑这个实验没有重复。
问 15:cuffdiff 将两个样本各三个学重复输入进去出来之后只剩两个样本的 geneexp.diff 的差异基因 30000 多个,但是(significant)这一栏有意义为 YES 只有 600
多个,正常吗?
答:这个正常,gene-exp.diff 这个结果是将所有差异结果都输出了,包括显著与不显
著结果。但 significant 那一栏输出的是预先设定的一个差异倍数或 P 值,所以这个是
正常的。
问 16:现在还有用 degseq 软件算没有生物学重复的吗?
答:没有重复也是可以计算的。但有重复的时候,组内的变异系数软件可以自动算出
来。 如果没有重复,可以人为设定组内变异


你可能感兴趣的:(RNAseq)