Transcript quantification/differential exp

本文为学习RNA-seq中** Transcript quantification / Differential gene expression analysis **过程记录。

Transcript quantification

转录本的定量是RNA-seq的基础,其接受的输入是 raw counts of mapped reads,输出是 the number of reads that map to each transcript
这个步骤的主要困难是同一个基因的不同转录本之间的差别很小,他们之间的很多外显子都是共用的,因此,同一个read并不能完全确定是来自于哪一个转录本。
解决这个问题的主流算法是Expectation Maximization。Top hat 和RSEM的核心算法都是最大似然。这里以RSEM为例,RSEM并不是只用到了最大似然,而是也用到了先验概率

The primary parameters of the model are given by the vector θ, which represents the prior probabilities of a fragment being derived from each transcript.

根据文章的说法,输入模型的参数是每一个read出自transcript的先验概率。

The model consists of N sets of random variables, one per sequenced RNA-Seq fragment. For fragment n, its parent transcript, length, start position, and orientation are represented by the latent variables G n , F n , S n and O n respectively.

模型中用到的变量分为观测变量和隐变量。通过对隐变量的迭代,算出可以使出现观测变量可能性达到最大的组合。

在获得raw count之后,还不能直接用来差异表达,因为这些值之间差别的原因不仅有各个基因之间表达量的差异,还会受到转录本长度,测序深度,测序系统偏差等的影响。
这个问题的解决方法是normalize标准化。目前有几种常用的标准化方法:FPKM,RPKM,TPM,TMM等等。其中前两个只能用于样品内部表达量的比较,后两种可以用来进行样品间的比较。
通过一系列的方法得到每个transcript的count之后,可以进行下一步的分析。

Differential gene expression analysis

这一过程的任务是找出在样品间,由于受到控制变量的影响而出现了差异表达的基因。接受的输入是比对到每个transcript的read count。
为什么不能直接用read count的比例来作为差异表达的依据呢?这是因为RNA-seq相当于一个抽样的过程,我们得到的只是总体的样本,我们要做的是根据这个样本对总体的情况进行推断。这个总体值得就是某个基因的表达情况,在目前主流的假设条件下,这个总体服从的是泊松分布或是负二项分布,我们的任务就是推断这个总体的均值,方差等等,并根据这些信息检测两个总体是否有差异。
将总体假设为泊松分布或是负二项分布的理由是:从一个样品池中随机抽取一个read属于某一个transcript的概率很小,且每次抽取之间相互不影响。负二项分布可以看作是泊松分布的扩展版,它增添了一个新的参数,disperison,这个参数可以描述总体的离散情况。
利用这些模型和假设,可以在每个transcript的read count和表达比例之间建立联系,并求解出abundance。(线性模型)
另外,有些方法没有使用离散分布的模型,而是直接对read count执行一些标准化的处理,变化后作为abundance使用。
还有些方法使用的是non-parametric approaches。这些检验方法不要求或者不假定总体是一个什么样的分布,但同时也会因此而损失一些信息。
鉴于目前存在的很多种不同的方法,靠谱的做法是使用不同的方法,并依据不同的实验需求使用这些结果。比如,保守的方法:可以区并集,激进的方法:可以取交集等等。

你可能感兴趣的:(Transcript quantification/differential exp)