背景
在最开头,我们来说下两种遗传模式:
1核基因组是双亲遗传的(一条染色体来自母本,一条来自父本),只有性染色体是单亲遗传的,但不是所有生物都有性染色体。
2细胞器基因组是单亲遗传的:植物动物都具有的线粒体基因组是母体遗传的(maternal inheritance),植物具有的叶绿体基因组在被子植物中是母体遗传的,在裸子植物中是父体遗传(paternal inheritance)。
那么,什么是分子标记呢?
In genetics, a molecular marker is afragment of DNA that is associated with a certain location within the genome.
分子标记就是在基因组中有其特定位置的DNA片段。
有的人错误地将蛋白标记(protein marker)纳入分子标记,这是不对的。蛋白质是由DNA编码的,不是DNA。蛋白标记是生物化学标记(biochemical marker),可以和分子标记(molecular marker/DNAmarker)一起纳入遗传标记(genetic marker)中。简单地说就是,蛋白是表型,DNA是基因型。
历史
1等位酶(allozymes)
等位酶是第一个遗传标记,出现在1960s,通过淀粉凝胶电泳方法实现,让我们可以看到表型的多态性。
Isozymes are enzymes that perform the samefunction, but which are coded for by genes located at different loci.
同工酶(isozymes):不同位点的基因编码的相同功能的酶。
Allozymes are variant forms of an enzymesthat are coded for by different alleles at the same locus.
等位酶(allozymes):相同位点的不同等位基因编码的酶。
2 限制性长度多态性(RFLP,RestrictionFragment Length Polymorphism)是第一个DNA标记(1974),用来探究同源DNA序列的变异。
后来又出现了很多其他的DNA标记,大体分为两类:
1)共显性标记:能够区分杂合体和纯合体,包括SSR(simple sequence repeat)、RFLP(restriction fragment length)、SNP(single nucleotide polymorphism)
2)显性标记:同时产生多个位点的数据,但是不能够区分杂合体和纯合体。
包括AFLP(amplified fragment length),RAPD(random amplified polymorphic DNA)和ISSR(Inter simple sequence repeata)
这里有一个网上的例子帮助理解什么是共显性标记和显性标记
(http://blog.sina.com.cn/s/blog_62d925fd0101aay3.html):
显性标记RAPD是随机引物(可以理解只有正向引物,没有反向引物)进行扩增。因此,它扩增出来的为引物结合位点到终点的长度。一条链上会有很多该引物结合位点,也就出现了很多片段。对于一个特定位点,我们可以理解只有一条正链可被扩增。因此,在该链上只有两种情况,有和没有。不能看出是纯合还是杂合。共显性标记SSR,用一对引物(正向引物和反向引物)。对于一个特定位点,两条链都可被扩增,因此有三种情况:纯合A型,纯合B型,杂合AB型。能够看出是纯合还是杂合。
注:什么是共显性?一对等位基因,没有显隐性区别,在杂合子状态时,两种基因的作用都能表达。比如ABO型血的遗传就是共显性实例。ABO血型的基因已定位于第9号染色体上的9q4.2位点,在这一基因座位上,由A.B和O三种基因组成复等位基因。基因A对基因0为显性。基因B对基因O也是显性,基因A和基因B为共显性。基因型AA和A0都决定红胞膜上机抗原A的产生,这种个体为A型血,基因型BB和B0都决定红细胞膜上抗原B的产生,这种个体为B型血,基因型00则只有H物质的产生面而不产生抗原A和抗原B,这种个体为O型血,基因型AB决定红细胞膜上有抗原A和抗原B,故为AB型血,为共显性遗传。(来自百度)
3 DNA序列也是一种分子标记,而且是最准确,信息量最多的一个,是我们现在进行各种分析时广泛使用的。
DNA测序
1 Sanger测序
Sanger测序也被称为一代测序,原理就是我们熟悉的双脱氧终止法,网上具有大量的介绍。Sanger测序会产生ABI文件。
2 鸟枪法
这种方法是美国塞莱拉遗传公司创始人克雷格·文特尔发明的,大家可能听说过他和官方的人类基因组计划团队打擂台的故事。
在这个方法中,目的基因被打成随机片段进行测序,然后再依据片段之间的重叠区域进行组装。
3 二代测序
二代测序也是要将目的基因打碎成片段,然后大量片段同时平行测序,同时产生成千上万 的序列,因此也称为高通量测序。
基于二代测序技术,针对不同的研究问题和需要也发展出了很多测序方法:基因组测序(genome sequencing),基因组重测序(genome resequencing),转录普(transcriptome profile/RNA-seq),表观基因组特征(epigenome characterization)。
二代测序产生FASTQ文件。
4 三代测序
又称为纳米孔测序(Nanopore sequencing),开发出来的测序方法包括1)标定DNA聚合酶;2)一条链的上的碱基逐一通过纳米孔,读取序列碱基信息。
三代测序的优点就是一次性测得的片段长度较长,解决了二代测序时,复杂重复片段组装不准确的问题。缺点是贵和准确性不确定。