分子生物学中的DNA“链”

                        分子生物学中的DNA“链”

在进行生信分析的过程中,经常会被基础的分子生物学概念所困扰,如在学习RNA-seq的链特异性建库(rf (fr-firststrand);fr (fr-secondstrand))时所涉及到的链。因此写一篇关于链的小杂,并附带简单介绍RNA-seq的链特异性建库,加深对链的印象和理解。

(1)正链和负链

在刚接触双链DNA时,老师就经常告诉我们,一条是正链(forward strand),方向是从左往右(左为5‘,右为3')。而另一条链则是负链(reverse strand),从右往左(左为3’,右为5‘)。其实基因组正负链的定义只是在基因组拼接完成后被认为指定的。正链即基因组文件中的DNA序列,而与之反向互补的序列则为负链的DNA序列。也正是由于是人为指定的,所以做两个近缘物种间的全基因组共线性分析时,经常会看到整条染色体出现倒位的情况。其实这种现象是由于指定不同的链作为正链导致的。

Double DNA strand

(2)正义链sense strand(非模板链,编码链)和反义链nonsense strand (模板链,非编码链)

正链和负链是由人为指定的,而正义链,反义链则不然,该定义则是基于与hnRNA(mRNA前体序列)序列的关系决定的。如下图所示,在hnRNA的转录过程中,与hnRNA反向互补的DNA链(换句话说,基于此链合成hnRNA的)称之为模板链,反义链,和非编码链。而hnRNA序列相同的链则称之为非模板链,正义链,和编码链,此链存储着mRNA的编码信息。


Coding and template strand

warning:在基因组上,所有基因的正义链并不都是在同一条链上,而是同时存在于正链和负链上!!!

(3)常见的基因组文件与“链”的关系

genome.fa:基因组文件,存储着物种全基因组的DNA信息,该文件中的DNA序列为基因组中的正链序列

transcript.fa:转录本文件,去除内含子后的RNA序列。存储着物种所有基因的mature mRNA序列,该序列携带的信息与正义链相同。

CDS.fa:编码序列文件,编码氨基酸的RNA序列,去除UTR非翻译区的mature mRNA序列。其与transcript.fa的唯一区别是不含UTR区。


CDS, exon, intron, and UTR

(3)RNA-seq——链特异性建库

【1】普通的转录组测序

提取的mRNA先反转录生成cDNA序列,DNA聚合酶合成互补的cDNA序列从而得到双链的cDNA,随后进行纯化富集进行建库。末端加A使得平末端转化为粘性末端便于后续加引物和接头。因此文库中即包含了目的mRNA序列,同时还包含了与目的mRNA序列反向互补的序列。因此在测序完成后得到的下机数据中我们并不能将其进行区分。

【2】链特异性转录组测序,链特异性测序的关键点在于其在合成的双链cDNA后,可以选择性的保留一条链。如中间的图所示。其在合成第二条cDNA链时将dTTP改成了dUTP, 在末端加A并添加完接头和引物序列后,使用UDGase酶可以特异性的在尿嘧啶U的位置上产生单核苷酸的缺口,从而消化掉第二条链,特异性的保留cDNA的第一条链。因此在后续的建库测序过程中,测到的下机数据均来自于cDNA的第一条链!


普通和链特异性RNA-Seq

分析流程:https://databeauty.com/blog/opinion/2016/09/21/RNA-seq-strand-issues.html 

fr-firststrand: rf-dUTP,NSR,NNSR read1和基因方向相反,而reads2泽宇基因方向相同 1+(此正代表read1 mapped到正链上)-(此代表基因在负链上),1-+,2++,2-- 

fr-secondstrand:fr-ligation,standard SOLiD read1和基因方向相同,而read2与基因方向相反 1++,1--,2+-,2-+

未知的RNA-Seq链特异性的检测方法可使用RSeQC中的infer_experiment.py

你可能感兴趣的:(分子生物学中的DNA“链”)