进化开始于一个个体的一条染色体上的一个突变。分子群体遗传学研究的是这些突变在群体中频率的升高或降低。许多进化力量能够通过群体来加速或减缓这些突变的传递。通过个体间分子突变的模式能够推断出具体是哪些进化力量在起作用。

遗传标记的使用最早是1990年ABO血型的发现，而“分子”遗传学则可以追溯到Harris(1966)、Lewontin及Hubby(1966)等人开创性的研究。这些研究者的开创性研究发现个体间在分子水平上的突变数量远超过之前从形态学研究中观察到的数量。这些研究使用同工酶（allozymes）来揭示分子变异。这种方法只能观察到所有变异中的一部分—这些突变能够通过改变电荷使得蛋白以不同的速度通过凝胶。直到1983年才出现了第一个关于核酸分子变异的研究（Aquadro and Greenberg 1983; Kreitman 1983）。这些研究通过对每个核苷酸进行测序，让我们能够全面观察到自然群体中的遗传变异。

分子群体遗传学研究更广泛地关注进化过程对自然群体的影响。鉴于此，通常使用少量个体样本的DNA序列来探究那些作用于整个群体的进化力量。哪怕是一个位点上的遗传变异模式都可以用于进化、重组和自然选择等力量的推断，还可以对群体历史进行推断（如相对大小和迁移史）。基于过去100多年大量群体遗传理论的建立和发展，这样的一些推断是可行的。这些理论告诉我们当每种进化力量发生作用时，我们应该（期望）观察到什么。关于群体遗传学早期的理论研究并没有利用分子数据，但是分子方法的快速发展崛起极大地促进了相关研究的开展，这些研究工作对分子进化过程进行了建模。

要想从DNA序列中推断出正确的推论，那分子群体遗传学理论是至关重要必不可少的。因此，了解主要的模型和它们对应的假设是很重要的。

在本章中会对这些模型进行简单的介绍，但是不会把群体遗传学的基础的都覆盖到。我们假设读者是有一定基础的。

本章主要着重于最相关的理论和模型，并将这些理论和模型应用到群体遗传数据上。理解用于序列推断的模型的结构对于理解这些推断是如何实现的是至关重要的。此外，本章节尝试阐明在群体遗传中经常被混淆的术语，并定义它们在本书中的表示和用法。最后讨论的是分子进化的中性理论，尝试在解释这个概念的同时将其易混淆的地方也作简单说明。

基础的序列术语

分子群体遗传研究中获取的DNA序列通常如图1那样排列比对在一块。图1所示的是4调序列排列比对的结果。每条序列有15个核苷酸；4条序列来自染色体的同一位点。

因为这4条序列来在4条单独的同源染色体，所以“我”将这4条同源DNA链称为序列（sequence）或者是染色体（chromosomes）（不管这4条序列是否是独特的）。在本书中我们将使用这个术语，但是在文献中对这4条序列还可以用其他的术语来表述，如基因（gene）、alleles、samples、cistrons以及allele copies。和20年前一样，用gene来描述来自一个单一位点的多条序列并不是常见的，尤其是现在个别研究者会从一个物种的多个基因中采集多条序列。但是许多的研究还是使用allele来表示每个染色体，实际上是使用“等位基因”的“不同来源”进行定义。“我”只有在描述个体的某个位点上核苷酸（或氨基酸）不同时才使用allele。这种是根据等位基因状态的差异进行定义的。因此，对于图1，我们可以说染色体为n=4。需要注意的是，这个术语并不取决于这4条序列是否随机来自2个二倍体个体，或四倍体个体，或4个独立的自交二倍体。在所有的例子中，我们都是从自然界中采集4条染色体。

在这个比对图中，我们能够看到某些位点是不同的，但我们主要关注的是双等位位点（因为它们是最常见的变异类型，尽管在一个位点上可能有2个以上的变异）。有许多的术语用于描述这种DNA序列上的差异。我们可以看到在我们的样品中有6个多态性（polymorphism），或者是分隔点（segregating site），或者是突变（mutations），或者是单核苷酸多态性（single nucleotide polymorphisms，SNPs）。虽然之前多态性和分隔点是使用最多的术语，但是现在更常用的说法是SNP（发音是snip，最早是1994年）。一个单一序列上所有等位基因的集合叫做单倍型（haplotype）。

突变（mutations）在不同的领域有着完全不同的意思。突变可以用来表示DNA发生变化的过程或该过程中产生的新的等位基因。有时候突变是多态性的同义词；在更注重医学的人体群体遗传学中，仅仅是指稀有的多态性（发生的次数<1-5%，或者仅仅是单一序列）。所有的多态性最初都是以突变为表现形式出现的。在本书中，“我”用突变来表示变异产生的过程以及在这个过程中新突变的出现。最后，“替换”（substitution）表示的是那些在物种间观察到的DNA差异，以区别于物种内的变异。

通常，我们认为indel(insertion/deletion)不是分离位点（segregating sites）（虽然有时候插入1bp的碱基也算作分离位点）。这样的划分的原因是当两段序列有多个核苷酸插入时，很难区分真真正正的差异碱基数目。比如，2bp的indel算1个多态性位点还是两个？这个答案取决于我们是把这个2bp的indel看作是一个单独的突变还是2个分离的长度为1bp的突变？通常不将indel等类似的数据加入到分析中。

【群体遗传学】1.0群体遗传学简介

基础的序列术语

你可能感兴趣的:(【群体遗传学】1.0群体遗传学简介)