关于DNA正负链的定义
转载 http://blog.sina.com.cn/s/blog_8de3399d0102ycf9.html 2018-12-07 12:43:51
最近做序列比对,目标是将一群exon系列比对到一批给定的转录本序列上面。用了NCBI的blast工具。发现结果当中每个exon在目标转录本上的匹配位置与这些exon在bed文件中的顺序是相反的。查了一下文献,整理如下。
首先,是一些定义,参考https://www.biostars.org/p/3423/这个帖子当中的内容。
1,双链互补DNA分为为正链和负链。正链也叫forward链,负链也叫reverse链或者minus链条 。reference基因组数据一般都只记录forward链,也就是说,平时我们从ucsc,esemble和NCBI上拿到的fasta文件都是forward链的碱基序列。
2,有些基因是定义在forward链上的,意思就是基因对应的转录本序列刚好和forward链上5‘到3’的碱基序列一致,而另一些基因定义在reverse链上,就是说,这些基因的转录本序列(以及对应的氨基酸序列)和reverse链上5‘到3’方向的序列一致。正链基因没啥好说的,举个负链的小例子吧。
mouse基因组中有个叫Suv39h2的基因,位于2号染色体3,373,087-3,392,258位置。这里的位置仍然是forward链上的位置。但是呢,它定义在minus链上,问题就来了,若是你直接找mm9 reference genome sequence chr2:3,373,087-3,392,258这段序列,就是这样滴:
TCTTTACATATGGTGTTTATTCTGTTATTAAAAAAAAAGCCCACTTTATAAAGCTTTA ...... GTGCCTTGGCCCTGGCCGCCGCCATCTTGCGGAGCTTTCATTCAAACTGGCGCGGTCAGCCCGAA
但是你去ncbi nucleotide database搜这个基因,得到的序列确是这样滴:
TTCGGGCTGACCGCGCCAGTTTGAATGAAAGCTCCGCAAGATGGCGGCGGCCAGGGCCAAGGCAC... ...TAGTTTCATGCCTACCTCAAAGTATGGTTTCATAGATTAAAGCTTTATAAAGTGGGCTTTTTTTTTAATAACAGAATAAACACCATATGTAAAGA
发现没?这两段序列反向互补。因为基因定义在负链上,负链上的5‘到3’与正链上的5‘到3’反向。也就是说要想从reference sequence上找位于负链上的基因序列,你需要:1,按照coordination抽出序列。2,得到互补碱基。3,reverse the bases。
下面说blast的事儿。一开头说到顺序相反,就是因为这个转录本定义在负链上。既然是负链基因,转录本序列自然是从reverse链5‘到3’记录的,而exon在bed文件中却是按照其在forward链上5‘到3’的位置顺序排列的。结果自然就是exon1匹配到transcript的末段;exon2匹配到transcript的次末段......exonN匹配transcript的头段。
把序列与mRNA一致(只是T和U的区别)的核酸单链定为正链(+),不作模板转录,也称为有义链(sense strand), 又称编码链(coding strand);而将碱基序列与mRNA互补的核酸单链定为负链(-),作为模板转录,也称为反义链(antisense strand)或模板链(template strand)。在文献中,这条与mRNA序列一致的DNA单链序列(+)被用作基因序列。该序列的5’端称之为上游(upstream),3’端称之为下游(downstream)。