Transcriptome Sequencing可全面性并快速地获得某一物种特定细胞或组织在某一状态下的几乎所有的转录体及基因序列,可以用于研究物种基因结构和基因功能、选择性剪接和新的转录序列预测等。针对转录体定序研究,与全基因体定序研究一样,可分为两种类型:一种未知参考序列的物种转录体定序;另一种则是已具有参考序列的物种转录体定序。而相对于传统微阵列晶片,转录体定序无须预先针对已之序列设计探针(probe),即可对任意物种的转录体进行监测,不但可以提供高精确度的量化信号,且具有高通量与高灵敏度等特性,是深入研究转录体的强大工具。
目前,RNA Sequencing已经被广泛应用于疾病研究。在生物体中,不同的部位、不同发育阶段、或是处于不同环境下所表现的mRNA表现均不相同。由已知参考序列(基因体参考序列或是转录体参考序列) 的物种之mRNA高通量定序,经过适当的生物分析流程,便可计算出在不同样品中的各基因表现量。
测序完成后就可以进行数据分析了。
分析的第一步,一般是先把测到的RNA片段,先mapping(比对)到基因组上比对完之后。可以先看一下,有多少的RNA片段,是在靠近基因的5’端的位置,又有多少片段在是靠近基因的3’端的位置。
这张图上是把所有的基因都按其外显子的长度拉直,然后归一化到“0-100”这样一个长度,比对上的片段,有多少是落在这0到100的这一个轴的哪个位置上。这样一个比对的结果,就可以看见前面Poly(T)磁珠在抓mRNA的时侯,捕获下来的这些mRNA是不是完整的。
如果捕获下来的这些mRNA大部分是完整的话,那么这个图形靠近5’端的曲线就会显得比较饱满,它的高度会和3’端的高度差不多。
反之,如果这根曲线的3’端很高而5’端低的话,可以判断这个RNA有一定程度的降解。因此我们可以推断,在捕获的过程当中有相当一部分mRNAD,它的5’片段因与3’片段的Poly(T)片段的尾巴断开了,没有被捕获下来。所以这个RNA是有一定程度的降解。
在知道了测序的质量之后,接下来要关注的就是不同样本之间各个基因的mRNA的表达量的差异。在做这些比较的过程中,目前最常用的,对基因表达量进行相对定量的一个指标,就是RPKM值。
RPKM即Reads Per Kilobase of exon model per Million mapped reads,就是每一百万条可以比对到基因组上的Read当中有几条是可以比对到某个特定基因的,然后这数值再除以该基因的外显子的长度,得到的这样一个最终的比值。
接下来对这个公式进行分步解释:
首先是比对到某个基因的外显子上的Read数,去除以这次所测到的全部可以比对到基因组上的Read数。
比较容易理解就是:这个基因所表达出来的mRNA,它所被测到的片段,来和所有被测到的可以Mapping(比对到基因组上的片段来进行比较。
比较费解的是为什么要除以第二项“外显子的长度”,这是因为建库过程当中,这个RNA是用镁离子溶液来处理,然后打断(并逆录)成若干个180-200BP左右的小片段。如果一个基因的外显子越长,那么它所产生的mRNA就越长;那么mRNA越长,被打出来的小片段就越多。
我们来假设,一个A基因,它的mRNA的长度是Kb,那么它的1Kb的mRNA可能被打成5个200Bp左右的小片段。那么还有一个B基因,如果这个B基因的mRNA是2Kb长,它同样被打成200Bp左右的小片段就会产生“10”个小片段。A基因是5个小片段,而B基因是10个小片段,所以,B基因在测序过程当中,它被测到的概率就会比A基因大一倍。这就是为什么要把刚才第一项比出来的比值,然后再除以这个外显子的长度。
通过以上解释可以理解除以“外显子的长度”的目的:是修正这个mRNA长度所引起的mRNA的Read数的偏差。通过这种修正,能够还原出一个比较真实的、原始的表达拷贝数状态。
作为一种针对全转录组的分析,我们希望一次看到一个整体的样本表达差异的情况,而不仅仅是看少数几个基因组的表达差异。
科学家做了一种叫火山图的图形,来比较形象地来说明2个样本之间的表达差异。
这张图看起来像是火山喷发的样子。
这个图是两个样本的RNA表达量的对比,横轴是表示某个基因的表达是上升还是下降,纵轴是表示这种差异的置信程度。这其中的每个点就是两个样本当中同一个基因的mRNA表达量的变化。
如果这个基因的表达是上调了,这个点就往右移动;反之,如果这个基因的表达量是下调了,就往原点的左侧移动。
纵轴是这种变化差异的置信程度,如果这个置信程度越高,这个点的纵轴位置也越高。
我们在纵轴上画了一条水平线,超过这个水平线以上的点,其差异水平的置信程度是很高的,我们把它标识成红颜色;如果低于这条水平线的置信程度,它的置信程度也相对低一些,我们把它标成蓝颜色。
这里需要解释一下,为什么差异程度是相同的情况下,它们的差异置信程度是不一样的。
比如同样是差了2的5次方,也就是32倍,它的差异置信程度会不一样,有些是蓝,有些是红点。A基因在甲样本中被测到了3200条,而在乙样本中被测到了100条;B基因在甲样本中被测到了320条,而在乙样本中被测到了10条。同样是差了31倍,但是因为A基因的样本统计数,远大于B基因的样本统计数,也就是说它们的reads数有那么大的差距。所以A基因的这个差异的置信程度,会比B基因的这个差异置信程度要高许多。
再来对比这两张图就可以直观地发觉:相比右图,左侧图中有更多的基因表现出明显差异。
火山图是这样就为我们提供一个形象的、直观的、整体表达差异信息。
聚类分析是RNA分析中非常常用的一个手段,它是通过多个样本的全基因表达谱对比,来找到它们之间的相似性和相近关系。
这是一张聚类分析图,横轴是样本,纵轴是基因。通过聚类分析,可以发现:在这个群体中,样本被分成了3个群体,每个群体的内部都有着相似的表达特征。同时可以看到,基因的表达,也是成簇的。这里大体上分成3个基因群,这3个基因群各自有着相似的表达量。
聚类分析,有很多的应用,比如说:可以分析疾病的亚型,可以通过对多个基因在特定疾病当中的表达倾向性来找出可能的、新的、诊断用的Biomark。聚类分析有很多新的应用有待我们一一去开发。
GO分析是RNA分析中非常常用的一种分析。Gene Ontology是一个国际化的基因功能分类体系,这个体系用一整套动态更新的标准词汇和严格定义的概念,来全面地概括任何生物中基因和基因产物的属性。
GO主要描述基因的三个属性:第一是这个基因它参与的生物过程;第二是这个基因的产物的功能;第三是这个基因产物在细胞器内的空间定位。
差异基因GO富集柱状图可以直观地反映出在生物过程、细胞组分和分子动能富集的差异基因的个数分布情况。
有向无环图,是差异基因GO富集分析的图形化展示方式。从上到下,它所定义的动能范围越来小,越来越精准。它的分支表示包含关系。它的颜色越深表示富集程度越高
通路(Pathway)是指在系统水平上完成生物的某一功能的基本单元或者局部子网络。KEGG,也就是:Kyoto Encyclopaedia of Genes and Genomes,翻成中文就是《京都基因和基因组百科全书》,它是目前公认的、最权威的基因功能数据库。这其中的Pathway(通路)是KEGG的核心内容。目前针对Pathway的分析、注释,大多数是基于KEGG Pathway来做的。
散点图是KEGG富集分析结果的图形化展示方式,在此图中KEGG富集程度通过Richfactoro、Qvalue和富集到此通路上基因个数来衡量。点的面积越大,富集的基因数越多。富集的因子越大,富集的程度越大。qValue是校正之后的pValue,越接近于0表示富集程度越显著。
前面讲的都是基于RNA表达量的差异分析,接下来看RNA-seq当中可以测到的mRNA上的各种结构上的变异。所谓结构上的变异呐,也就是RNA序列的变异,主要是三种:第一是可变剪接;第二种是融合基因;第三种是点突变,也就是SNP。
这里要说明一下对于想要测mRNA结构变异的用户建议测序深度要测得比较深,一般建议测10G以上的数据量。原因是二代测序目前的测长还不是很长,每一个read只有100到125Bp左右。如果测序深度不够,读到的这些read在整个mRNA上的分布是比较零碎的状态。在比较零碎的不完整的覆盖情况下,要去分析哪里有一个剪接点/断点/SNP,不是很准确。当测序深度足够深的时侯。在每一个位晨都有十几次次或者几十次的覆盖的时侯,就可以比较有把握的来判断出哪里有了一个新的剪切点,哪儿有一个断点,哪儿碱基发生了突变。
可变剪接在真核生物中普遍存在。—般一个人的组织样本当中,可以通过高通量测序,发现有5000个到20000个左者的可变剪接。
融合基因是指原来在基因组上分开的两个基因,因为某种原因,染色体发生了重排,重排的结果是让A基因的头接到了B基因的身体上,这样就产生了融合基因。这张图是一个癌细胞中的融合基因的示意图。
这张图是高通量测序测到融合基因的图,我们可以看到这十几个Reads都横跨在这个融合基因的交接点的两侧,由此证明了这个癌细胞中有这么一个融合基因。
RNA-seq还可以找出点突变。这是一张泡泡图来表示所要找到的点突变,发生突变频率最高的这个基因,就用最大的泡泡来表示,突变频率低一点的,就画一个小一点的泡泡。这些泡泡呈逆时针排列,形成这样一个泡泡图。
本文来源 link
更详细教程资源link