七-RNA-seq

RNA-seq(RNA sequence) RNA的高通量测序——帮助了解各种比较条件下,所有基因的表达情况的差异
eg:
正常组织和肿瘤组织之间的差异
检测药物治疗前后,基因表达的差异
检测发育过程中,不同的发育阶段,不同的组织之间的基因表达差异...

最常见的是检测所有mRNA的表达量的差异,同时还能检测RNA结构上的差异,例如:mRNA的剪接方式的差异,即‘可变剪接’,还可以检测‘融合基因’,还可以检测基因单点突变导致的SNP

RNA-seq测序方法

在测量mRNA的过程中,首先要解决的是如何去除rRNA(核糖体RNA-ribosomal RNA)
通常在抽提到的总RNA中,绝大多数都是核糖体RNA(rRNA)。


rRNA.png

mRNA.png

LncRNA,MicroRNA,tRNA.png

测rRNA,得到的数据,并不能为我们实验者提供什么有用的信息,mRNA才是RNA当中信息含量最丰富的哪个部分
在实验过程中,我们一般先把核糖体RNA先去掉,然后再进行建库测序。

illumina公司的Truseq RNA建库方法

mRNA测序的建库过程.png

利用高等生物的mRNA都有Poly(A)尾巴的特点,用带有Poly(T)探针的磁珠与总RNA进行杂交,吸附其中的带Poly(A)尾巴的mRNA。

回收磁珠,把这些带Poly(A)的mRNA从磁珠上洗脱下来,用Mg2+离子溶液处理洗脱下来的RNA,把mRNA打成短片段。

被打断的mRNA片段,用随机引物逆转录出第一链的cDNA。

逆转录成(第一链)cDNA后,再合成出第二链(cDNA),形成双链的cDNA。

在双链cDNA的两端加‘A’碱基,并连上‘Y’型的接头

经过PCR扩增,成为可以上机(拿到HiSeq测序仪)的文库

做Truseq RNA-seq文库起始总RNA质量要求

这个建库方法对RNA的完整度有较高的要求,只有在mRNA大部分是完整的状态下,才能得到比较好的效果

磁珠吸附3'端.png

如果mRNA发生降解,磁珠所吸附下来的片段,都是那些靠近3'端的那些断片,5'端的断片吸附不下来,会在富集过程中被洗脱掉,影响数据分析,导致一定的数据偏差

为了保证能够测到尽可能完整的mRNA序列,illumina公司建议先对总RNA进行一次质量检测一般是用Agilent公司出品的Bioanalyzer 2100毛细管电泳仪对总RNA样本进行一次电泳质检

电泳结果.png

Bioanalyzer 会根据18S和28S这两个rRNA的电泳峰是否高、是否尖来判断RNA的质量,并自动打分。这两个峰越高、越尖,也就说明RNA降解的就越少,完整度就越高,打分也会越高
这个分值叫RIN值(RNA Integrity Number),即RNA完整度评分值RIN值在[0,10],illumina公司推荐用RIN值在8.0以上的RNA进行建库和测序。

RNA-seq生物信息分析

把测到的RNA片段,mapping(比对)到基因组上,统计靠近基因的5'端和3'端位置的RNA片段的数量

把所有基因都按其外显子的长度拉直,然后归一化到'0-100'长度上,然后看比对上的片段,有多少是落在0到100这个轴的哪个位置上,**用以判断前面Poly(T)磁珠捕获下的mRNA是不是完整的


mRNA完整.png
mRNA发生降解.png

RNA表达量差异分析

不同样本之间、各个基因的mRNA的表达量的差异
目前最常用的,对基因表达量进行相对定量的一个指标,就是RPKM值
RPKM(Reads Per Kilobase of exon model per Million mapped reads)
每一百万条可以比对到基因组上的Read当中,有几条是可以比对到某个特定基因的,然后这个数值再除以该基因的外显子的长度得到的一个最终的比值

RPKM的公式.png

为什么要除以某个基因的外显子长度?
目的是:修正mRNA长度所引起的mRNA的Read数的偏差,通过修正,能够还原出一个比较真实的、原始的表达拷贝数状态。
eg:
A gene 的 mRNA的长度为1kb,被打成 5 个200bp左右的小片段
B gene 的 mRNA的长度为2kb,被打成10个200bp左右的小片段
B gene 在测序过程当中,被测到的概率就会比 A gene 整整大一倍

RNA-seq测序数据分析

RNA表达差异火山图

针对全转录组的分析,要求能一次看到整体的样本差异情况。
利用火山图来比较形象地说明2个样本之间的表达差异

火山图.png

这个图是两个样本的RNAd的表达量的对比
横轴表示某个基因的表达是上升了,还是下降了(基因表达量上调了,点向右移动;基因表达量下调了,点向左移动)
纵轴表示这种差异的置信程度(超过水平线,表示其差异水平的置信程度很高,标注为红颜色;低于水平线,表示置信程度相对较低,标注为蓝色)
这其中的每个点,就是两个样本当中同一个基因的mRNA表达量的变化

why.png

为什么差异程度是相同的情况下,它们的差异置信程度是不一样的?
因为A基因的样本统计数,远大于B基因的样本统计数,即他们的Reads数有很大差异,所以A基因的差异的置信程度,会比B基因的差异置信程度要高许多

两个火山图对比.png

两个火山图对比可以比较直观地发觉,左侧图中有更多地基因表达出明显地差异,这样,火山图就为我们提供了一个形象地、直观的、整体表达差异信息

RNA聚类分析

聚类分析是通过多个样本的全基因表达谱对比,来找到它们之间的相似性,和相近关系

RNA聚类分析.png

横轴是样本,纵轴是基因
通过聚类分析,可以发现:在这个群体中,样本被分为了3个群体,每个群体的内部都含有相似的表达特征,同时还可以看到,基因表达也是成簇的,大体上可以分为3个基因群,这3个基因群,各自拥有相似的表达量。

GO分析

GO分析是RNA-seq分析中非常常用的一种分析
GO(Gene Ontology)是一个国际化的基因功能分类体系,这个体系用一整套动态更新的标准词汇和严格定义的概念来全面地概括了任何生物中基因和基因产物的属性
GO主要描述的基因的三个属性:
1.基因参与的生物过程
2.基因的产物功能
3.这个基因产物在细胞器内的空间定位

GO功能显著性富集分析.png

差异基因GO富集柱状图:可以直观的反映出在生物过程、细胞组分、和分子功能富集的差异基因的个数分布情况
差异基因富集有向无环图.png

有向无环图,是差异基因GO富集分析的图形化展示方式,从上到下(功能细化),它所定义的功能范围越来越小、越来越精准;它的分支,表示包含关系;而这个图形颜色越深,表示这个富集关系程度越高

通路(Pathway)分析-KEGG分析

通路分析:通路(Pathway)是指在系统水平上完成生物的某一功能的基本单元或者局部子网络
KEGG(Kyoto Encyclopaedia of Genes and Genomes) 京都基因和基因组百科全书,是目前公认的、最权威的基因功能数据库。
Pathway是KEGG的核心内容
散点图是KEGG富集分析结果的图形化展示方式

散点图png

在此图中,KEGG富集程度通过Rich factor(富集因子)、Qvalue和富集通路上的基因个数(Gene_number)来衡量。点的面积愈大,说明富集的基因数越多;富集因子越大,则表示富集的程度越大;Qvalue是校正之后的Pvalue,它越接近0,表示富集程度越显著

RNA-seq分析RNA的结构变异(SV)

RNA-seq还可以测到的mRNA上的各种结构上的变异,即RNA序列的变异
主要分为三种
①可变剪接
②融合基因
③点突变(SNP)

如果想要测mRNA结构变异,需要深测序深度,10G以上的数据量,测得的数据更为准确
因为二代测序目前的测长还不是很长,每一个Read大概只有100-125bp左右

测序深度.png

当测序深度比较深的时候,覆盖更完整,每一个位点都有10几次、或者几十次的覆盖的时候, 更有把握去分析RNA的结构变异。

RNA可变剪接

可变剪接,在真核生物中普遍存在
一般一个人的组织样本当中,可以通过高通量测序,发现有5000个到20000个左右的可变剪接

RNA-seq寻找融合基因

是指将两个或多个基因的编码区首尾相连,置于同一套调控序列包括启动子、增强子、核糖体结合序列、终止子等控制之下,构成的嵌合基因。


融合基因png

RNA-seq找到点突变(SNP)

泡泡图.png

通过泡泡图,来表示所找到的点突变
发生突变频率最高的基因,用最大的泡泡来表示;(突变)频率低一点的,就画一个小一点的泡泡,(突变频率)再小一点,就画一个再小一点的泡泡
这些泡泡呈逆时针排列,形成一个泡泡图。

你可能感兴趣的:(七-RNA-seq)