Harnessing the power of RADseq for ecological and evolutionary genomics

存档。

Andrews K R, Good J M, Miller M R, et al. Harnessing the power of RADseq for ecological and evolutionary genomics. Nature Reviews Genetics, 2016, 17(2): 81.



Harnessing the power of RADseq for ecological and evolutionary genomics

利用RADseq的力量进行生态和进化基因组学研究

Abstract 

        基于限制性位点相关 DNA 测序(RADseq)的高通量技术使得对包括非模式生物在内的任何物种的成千上万个基因标记的低成本发现和基因分型成为可能,这彻底改变了生态、进化和保护遗传学。这些方法之间的技术差异导致了对基因组学研究所有步骤的重要考虑,从可以解决的具体科学问题,以及文库准备和测序的成本,到结果数据中固有的偏差和错误的类型。在这篇综述中,我们对 RADseq 方法进行了全面的讨论,以帮助研究人员在众多不同的方法中进行选择,避免从RADseq数据中得出错误的科学结论,这个问题在过去一直困扰着其他遗传标记类型。


        限制性位点相关DNA测序(RADseq)的发展被认为是过去十年最重要的科学突破之一1。RADseq通过利用下一代测序(NGS)的巨大通量,在一个简单而经济的实验中发现基因组中成百上千的多态遗传标记,从而推动了生态、进化和保护基因组学的研究2,3。与其他简化基因组测序方法类似,RADseq以基因组的一个子集为目标,因此提供了比全基因组测序更多的优势,比如每个基因座的覆盖深度更大(从而提高了对基因型调用的信度),以及在给定的预算下对更高数量的样本进行测序。此外,与其他许多获得全基因组数据的方法不同,RADseq不需要任何正在研究的分类单元的基因组信息。因此,在非模式生物的生态学和进化研究中,RADseq已成为最广泛使用的高通量单核苷酸多态性(SNP)发现和基因分型的基因组方法。

        术语RADseq最初用来描述一种特定的方法4,但后来被用来指一系列相关的技术,这些技术依靠限制性内切酶来确定要测序的位点集(BOX 1:补充材料S1(图))。这些方法有时也被归类为基因分型测序(GBS)技术5。与RADseq一样,术语GBS最初用于描述一种特定的方法;然而,这个术语的描述性不如RADseq,后者抓住了这些方法的定义特征,即使用限制性内切酶在全基因组的一组位点上获得DNA序列。限制性内切酶长期以来一直被用于对整个基因组的位点进行取样,并产生关于群体水平变异的信息7,8,包括对人类基因变异的全基因组调查9。以前的这些技术侧重于限制性切割位点内的多态性或使用Sanger测序,而RADseq使用下一代测序来生成大量限制性切割位点附近的序列数据4,10,11。RADseq位点可以出现在基因组的所有区域(包括编码区和非编码区),而且由于切割位点的保守性,在亲缘关系较近的物种内或物种之间的个体通常共享大多数位点12。

        在过去的几年里,许多RADseq变异的发展有望提高灵活性(例如,在位点分析的数量上),同时减少生态学和进化基因组学研究的财力和物力。然而,方法上的差异可以深刻地影响基因组研究的所有步骤,从研究设计和执行,到结果数据输出。所有的RADseq方法都能广泛适用于各种分类单元和科学问题(BOX 2)。尽管如此,部分技术已经在某些系统中被更广泛地使用,这通常是由于历史偶发事件,而不是因为不同物种不同方法间的相对适宜性(例如,简化多态序列复杂度测序(CRoPS),GBS和简化代表库测序(RRLs)主要用于农业物种13)。

        在这篇综述中,我们主要关注RADseq在自然种群的生态学和进化遗传学中的应用(BOX2);然而,我们的许多讨论也与RADseq的其他应用有关,例如农业物种的性状绘图13。我们对已经开发的各种 RADseq技术进行了概述,并强调了这些强大的方法可以帮助回答的一些研究问题。我们还讨论了许多不同方法之间的技术差异如何导致实验设计和分析中的权衡,并描述了设计 RADseq 研究的一般考虑事项。


RADseq方法

        RADseq 技术都共享几个基本步骤(图1)。所有的方法都是从相对高分子量的基因组 DNA开始14,然后用一种或多种限制性内切酶消化。所有的方法都添加特定的测序接头,或双链寡核苷酸,这是所有下一代测序平台都需要的。在 RADseq 协议中添加的接头可能包含条形码,用于识别在单个文库中一起测序(多路复用)的样本个体。根据酶或使用过的酶,RADseq 协议还减少和/或选择最适合下一代测序的 DNA 片段大小。

        RADseq方法在酶消化、接头连接、条形码和大小选择的顺序和细节上有所不同,在每个位点可以产生的序列数据的类型也不同。这些差异可用于将技术分类为主要组(BOX 1)。下面,我们将讨论在每个步骤中不同方法的重要差异,以及对文库准备、结果数据和随后的生物信息学分析的一些后果。


图1 对五种RADseq文库准备协议的逐步说明。所有的实验方案都是从用一种或多种限制性内切酶消化高分子量基因组DNA开始的。对于大多数实验方案,测序接头(寡核苷酸)在两个阶段添加,在实验早期的连接步骤中添加第一组寡核苷酸,在最后的PCR步骤中添加第二组寡核苷酸。第二组寡核苷酸延长了总片段的长度,生成了整个Illumina接头序列。相比之下,原先的RADseq分三个阶段添加接头。对于Illumina测序,在每个DNA片段的两端接头必须是不同的,因此一些实验方案(例如,原始RADseq、双消化RAD (ddRAD)和ezRAD)使用Y型接头,从结构上确保只有两端是不同接头的片段才会被PCR扩增(这里用Y型接头说明)。其他实验方案(例如,通过测序进行基因分型(GBS))仅仅依赖于这样一个事实,即没有正确接头的片段将不会被测序。为了生成测序理想长度的片段,大多数方法使用common-cutter酶(例如,4-6 bp剪切)来生成一个广泛的片段大小,然后直接选择大小(例如,凝胶切割或磁珠,如ezRAD和ddRAD)或间接大小选择(PCR扩增和测序效率的结果,如GBS)。


开始基因组DNA

        RADseq技术基于高分子量基因组DNA为起始材料进行优化,因此这些技术在高度降解的基因组DNA上表现不佳14。例如,在没有特异性酶接头的方法中(例如ezRAD和CRoPS),不靠近切割位点的起始基因组DNA的小片段可能最终会进入测序文库,从而在非RAD位点上浪费测序工作。原始的RADseq技术4也比其他方法需要更高分子量的DNA,因为机械剪切步骤对于酶消化后留下的相对较大的片段是最为一致和有效的(下面将讨论)。

        一般来说,更多的起始DNA通常是有益的,因为它可以减少所需的PCR周期的数量,从而最小化PCR重复的问题(下面讨论)。一些最初描述协议的文献建议相当大量的DNA(对于原始RADseq每个样本最多达1 ug15,对于RRLs则是5.5 ug10);然而,大多数RADseq方法在每个样本所需的DNA总量上都有一定的灵活性,并且通常只需要50-100 ng的DNA就可以实现。有一个例外是PCR-free文库制备方法的使用,它需要大量的起始DNA (例如,1 – 2 ug DNA),正如ezRAD的一种实现16。

限制性内切酶消化。

        RADseq协议使用的限制性内切酶的数量和这些酶切割基因组的频率是不同的,common cutters被定义为比rare cutters切割更频繁的限制性内切酶,通常是由酶切识别序列(切割位点)的长度决定的。根据测序位点与酶切位点在基因组中的分布的关系,技术也分为两大类。原始的RADseq协议和2bRAD旨在所有的酶切位点产生序列数据。相比之下,所有其他技术都依赖于基因组片段的测序,这些片段由两个酶切位点按照指定的基因组距离(通常为300-600 bp,距离由直接或间接的大小选择决定;见下文)分离产生的。这些酶切位点可能来自相同的酶,也可能来自不同的酶,这取决于使用的是一种酶还是两种酶(BOX 1)。对于每种方法,均可使用common cutters或rare cutters来调整产生的位点数量。例如,对于原始的RADseq协议,一个非常粗略的估计是,8-cutter每48= 65,536 bp进行切割,而6-cutter每46= 4,096 bp进行切割;这种计算可以根据识别序列和研究的基因组的GC含量进行调整。

接头连接。

        RADseq技术间的不同之处在于接头是如何构建和连接到DNA片段的,以及它们是如何设计来确保只对目标基因组DNA片段(即那些与限制性酶切位点相邻的片段)进行测序的。在某些情况下,接头被设计成仅与特征性的单链粘性末端连接,该末端在消化后仍保留在限制性切割位点。许多基于Illumina测序的RADseq协议也使用Y型接头,其结构确保只有测序所需的结合接头的片段被PCR扩增(图1)。有些技术采用专有的文库准备包进行接头连接(例如ezRAD、CRoPS和RRLs),这可能会增加文库构建的可靠性和试剂成本。使用专用试剂盒的接头也会导致连接的特异性降低,因为这些接头不会连接到粘性末端,所以序列数据可以从不邻近限制性切割位点的降解DNA片段生成16。

大小选择。

        对于大多数协议,限制性内切酶将基因组DNA剪切到一个广泛的片段长度范围,然后使用一个大小选择步骤来分离出理想长度的片段进行测序。这种方法导致了RADseq协议之间的关键区别(BOX 1):对于所有被两个切割位点包围的DNA片段进行测序的方法来说,大小选择步骤进一步减少了要进行基因分型的位点数量,因为每个潜在的位点都有一个特征性的片段大小,该大小由切割位点之间的距离决定。在这些技术中,大小选择可以是间接完成的,如作为 PCR 扩增或测序效率的结果 (例如GBS和CRoPS) ,或者是直接完成的,使用手工或自动凝胶切割技术或磁珠(例如 RRLs、多重鸟枪枪基因分型 (MSG)、ezRAD 和双消化RAD(ddRAD))。对于这些方法,跨文库大小选择的一致性对于产生跨样本的可比对位点的数据至关重要;不一致会导致不同的文库出现不同的位点,导致测序工作的浪费和高水平的基因型缺失。

        相比之下,原始RADseq协议和2bRAD并没有使用大小选择步骤来减少要测序的位点集;相反,所有与限制性切割位点相邻的位点都是这两种方法的目标。原始RADseq方法在单一酶切后使用机械剪切步骤来产生适合Illumina测序的片段。这种方法意味着每个测序片段都在一端有酶切位点,在另一端有随机剪切位点,并且在每个位点产生一系列的片段大小。因此,大小选择步骤并没有进一步减少位点集,只是被用来优化Illumina测序效率和去除接头二聚体。2bRAD方法在RADseq协议中是独一无二的,因为它使用IIB限制性内切酶来产生在所有位点都大小相同的短片段(33-36bp)。

条形码。

        内置于接头中的条形码的使用,可以在某些协议进行文库准备的早期对样本个体进行多路复用;这种多路复用有时被称为池化,但不应与将个体混合成一个条形码相混淆(BOX 3)。在文库准备过程中,只要将带有条形码的接头连接到每个样本上,就可以对样本进行多路复用,这可以极大地减少大量样本研究中后续步骤的时间和费用。在文库制备的早期,样本的多路复用需要内置条形码的使用。专有工具包里的接头没有内置条形码,因此为了内置条形码需要定制接头。许多技术也可用于组合条形码,在这个方法中,每个样本的DNA片段由两个不同的识别符的独特组合进行识别,通常是一个内置条形码和一个Illumina index(6-8bp,位于接头中间附近),在PCR阶段被添加到DNA片段的另一端(例如Peterson等人所用的方法17)。另一种可供选择的组合条形码策略是使用两个Illumina index,分别位于 DNA片段的两端。但是,这种策略不允许在文库准备的早期对样本进行多路复用。另一种替代方法是在DNA片段的两端都使用内置条形码;但是,所有的Illumina库都至少有一个index,这意味着这种方法会在冗余的内置条形码上浪费测序工作。组合条形码减少了区分样本个体所需的接头总数,例如,一组24个带条形码的接头和16个index可以在一个测序通道中唯一地识别384个样本。

测序数据类型。

        目前大多数RADseq技术都使用Illumina测序技术。Illumina公司机器提供一系列的序列读取长度(目前是50-300个bp,在未来可能进一步增加),也可以选择单端测序,产生一个向前读的DNA片段,或双端测序,产生一个向前读和一个反向读取的片段。这些选项可以应用于所有RADseq库,尽管双端测序对2bRAD没有好处,因为2bRAD生成非常短的片段(33-36 bp)。对于所有其他方法,向前读取是从限制性内切酶切位点开始,较长的读取通常捕获更多的基因组序列。对于所有被两个酶切位点进行目标位点切割的方法,反向读取从第二个切割位点开始,因此这些读取将在基因组中每个位点的相同位置排列。

        相比之下,使用原始RADseq协议的双端测序会产生非常不同的数据类型。向前的读取从酶切位点开始,反向的读取从随机剪切端开始,一般在400 - 700 bp处。因此,任何给定位点的反向读取序列的长度都是交错的18,这些数据可以用来组装长contigs。例如,如果文库片段被裁剪成1kb,那么这些contigs可能长达1 kb15,19。这些RAD contigs提高了旁系同源基因的识别20,为具有重要功能的基因位点的BLAST 搜索提供了更多的序列18,并为系统发育分析提供了单倍型数据。较长的contig序列也可以在进一步研究中对感兴趣的目标位点设计PCR引物或序列捕获探针21,22。

        对于所有的方法,双末端测序产生的读取对可以根据读取长度和片段大小范围进行重叠,因此,如果片段长度小于200-300bp(例如一些使用GBS单个common cutter酶产生的片段),增加读取长度或使用双末端测序可能无法获得任何基因组序列信息。然而,重叠的读取对可以用来提高读取末端附近基因分型的准确性,而这读取末端往往有更高的测序错误率23。

生物信息学分析。

        对于所有使用RADseq方法生成的数据,测序后分析通常共享几个基本步骤。初始分析包括解复用和条形码的修整(如果存在),根据预期的限制性内切酶切割位点和序列质量来过滤读取,如果读取质量在接近读取结束时下降,则可能进行修整。对于某些RADseq方法,可以在初始分析时去除PCR重复,以提高下游基因分型的准确性(见下文)。如果有参考基因组,那么可以通过对该参考基因组的序列比对来确定位点。或者,可以通过将相似的序列读取聚类在一起来从头组装位点,并假设一个位点上读取之间的差异要么是测序错误,要么是等位基因变异。发现位点后,利用原始RADseq得到的双端数据可以生成长 contigs(见上文)。可采用最大似然或贝叶斯方法进行基因分型;与贝叶斯方法相比,最大似然方法可能需要更高的覆盖深度,特别是当贝叶斯方法利用群体水平的等位基因频率来设置基因型的先验概率时。

        有几个专门为分析RADseq数据设计的程序可用(例如,Stacks27、pyRAD28和UNEAK29,以及其他公开可用的脚本和管道)。STACKS包含许多灵活的模块来进行所有部分的分析,从质量过滤和位点识别(无论有无参考基因组)到基因分型和计算群体遗传统计。pyRAD是专为系统发育应用设计的,它能进行质量筛选和从头位点识别和基因分型,它的优势是可以处理等位基因间的插入缺失变异,因此可能更适合研究更大尺度的分类群。UNEAK是TASSEL管道的一部分,用于与GBS数据进行关联映射30,并使用基于网络的SNP检测算法,但在某些方面,如修整读取和从头位点识别参数设置,它的灵活性比其他软件稍差。RADseq数据还可以使用更多的遗传软件工具进行分析,用于质量过滤、比对到参考基因组和基因分型。

        在基因分型之后,通常建议进一步过滤,以剔除缺失数据比例较大的位点和/或样本个体。在这个阶段,过滤的适当水平取决于研究目标和随后要进行的分析,因为这些目标和分析对缺失数据的敏感性不同,个体和位点的样本量也不同。最近的一些出版物已经强调了RADseq数据分析的细节是如何对分析结果产生重大影响的,特别是用于从头位点识别的参数31-33。其中一些工作为如何将生物信息学工具应用于RADseq数据提供了明确的建议。总的来说,从质量过滤到位点识别和基因分型,研究人员在分析的所有步骤中使用不同的参数是至关重要的,这能使他们批判性地评估结果的敏感性,并根据研究目标优化分析。


错误和偏差的来源

        RADseq方法与所有下一代测序方法共享一些测序和基因分型错误的来源34。此外,在RADseq方法中有几个独特的潜在错误和偏差来源,其影响可能因文库准备协议和统计分析的不同而不同。

等位基因丢失和无效等位基因。

        当一种多态性发生在限制性内切酶识别位点时,RADseq中就会出现等位基因丢失,导致无法在该位点切割基因组DNA。缺少完整识别位点的等位基因将不会被测序,因此是无效等位基因。如果一个 SNP 出现在一个无效等位基因中,未能对该等位基因进行测序可能会导致基因分型错误,个体杂合的无效等位基因看上去就是纯合子。缺乏限制切割位点也可能导致邻近切割位点等位基因丢失,因为对于使用大小选择步骤减少位点集的方法来说,消化后片段长度可能落在选定的大小范围之外 ( 图 2a) 。

        等位基因丢失的频率随着限制酶识别位点的累积长度的增加而增加,这是由于较长序列中突变的概率增加了35。模拟研究还表明,在研究系统中,等位基因丢失随着多态性总体水平的增加而增加,并且对ddRAD 产生的数据的影响大于对原始RADseq 产生的数据的影响,因为位点取决于两个切割点的存在,而不是一个切割点35,36。

        由等位基因缺失引起的基因分型错误会使群体遗传统计产生偏差,包括对基因多样性的低估、对FST的高估,并会随着FST离群试验中假阳性和假阴性的增加而增加35,36。然而,有证据表明,除非有效种群规模很大(Ne>105),否则这些偏差的影响可能是有限的35。通过从数据集中删除带有无效等位基因的位点,可以在很大程度上补偿FST偏差。从理论上讲,带有无效等位基因的位点应该可以通过样本个体的覆盖深度差异来识别,因为一些个体在该位点上缺少一个或两个拷贝。然而,许多其他因素也会导致覆盖深度的差异(见下文),所以这并不总是一个可靠的无效等位基因指标。尽管如此,许多标准的过滤方法将删除那些高无效等位基因的位点,这些方法只保留那些在最低比例的样本个体中成功进行基因分型的位点。虽然删除带有无效等位基因的位点应该可以主要补偿偏差的FST估计,但它可能对多样性估计的偏差补偿作用不大。带有无效等位基因的位点被预测会更频繁地出现在突变率更高和/或长期遗传多样性水平更高的基因组区域,因此,如果数据集中没有这些位点,将会导致对整体基因组多样性的系统低估36。


图2 RADseq数据中错误和偏差的来源。a| 使用大小选择步骤减少要测序的位点数量的RADseq协议等位基因缺失的一个例子。灰线表示一个个体内的染色体,红色方框表示限制性切割位点,彩色方框表示杂合SNPs,方括号表示测序的基因组区域。单倍体1切割位点B的突变使包含SNP的消化后片段在单倍体1的大小选择中太长而无法保留,从而消除了该片段上任何位点测序的可能性,导致个体在杂合SNP上出现纯合。b| 不同RADseq方案的杂合位点进行PCR后产生片段的例子,其中生物信息学分析后保留了读取。PCR重复与来自原始模板DNA的父片段具有相同的符号(圆形、方形、星号或三角形)。在 PCR 过程中,一些等位基因可能比其他等位基因扩增得更多。对于所有的方案,PCR重复将在序列组成和长度上与原始模板分子保持一致。对于原始 RADseq,这个特征(即相同的长度)可以用于生物信息学上识别和删除 PCR 重复,因为给定位点上原始模板分子的长度是不相同的。对于其他RADseq 方法,这一特征不能用于鉴定 PCR 重复,因为给定位点上所有的原始模板分子的长度是相同的。PCR重复的高频率会导致杂合子以纯合子的形式出现,或导致PCR错误表现成真正的多样性。B部分是经过参考文献37的批准改编。

PCR重复和基因分型错误。

        大多数下一代测序文库制备方案都有一个PCR步骤,在此步骤中将从原始基因组DNA片段(称为父片段)生成克隆DNA片段(称为PCR重复)37,38。在PCR过程中,随机过程会导致单个样本特定位点上一个等位基因比另一个等位基因扩增得更多。这种潜在的偏斜可能会导致下游基因分型的错误,因为杂合子可以表现为纯合子 (图 2a),或者含有 PCR 错误的等位基因可以表现为真正的等位基因(图 2b)。研究报告表明,PCR重复可以高频地发生在RADseq数据中(如20-60%的读取18,37,38)。从理论上讲,PCR不应该在一个给定的位点上系统地偏爱一个等位基因而不是另一个等位基因,因此从大量位点估计的参数不太可能有很大的偏差。然而,如果存在PCR重复,在个别位点上需要高基因分型准确性的分析时,如离群值测试或亲子分配,就可能产生错误的结果。

        对于使用大多数下一代测序协议产生的序列数据,PCR重复可以通过生物信息学方法识别和去除,以提高基因分型的准确性。这在使用机械或随机酶切片段的方案中是可能的,因为PCR复制可以被确定为开始和结束在基因组相同位置的片段。由于采用机械剪切步骤,该方法也可用于从双端测序的原始RADseq序列数据中识别出PCR重复(图 2b)。在某些情况下(当正向和反向读取之间的距离非常短或局部覆盖率非常高时),该过滤将删除那些不是重复但碰巧具有相同起点和终点的片段。然而,这种情况应该很少发生,并应该在基因分型准确性方面表现保守。该方法不能用于除原始RADseq外其他任何RADseq协议中的PCR重复的识别,因为在给定位点的所有片段都具有相同的起始和终止位置2。

        最近开发的另一种方法显示了通过在测序接头内使用简并的碱基区域在PCR前标记父片段来识别PCR重复的可能38-40。此方法可以合并到任何使用自定义设计的接头的协议中。处理PCR重复的另一种方法是完全取消文库准备的PCR步骤,就像在ezRAD中使用Illumina PCR-free试剂盒一样16。然而,PCR-free试剂盒目前非常昂贵,而且比其他RADseq协议需要更多的基因组DNA(1 ug)。

位点之间测序深度的差异。

        由于在RADseq位点内某些等位基因的优先测序,PCR重复和等位基因缺失可能导致基因分型错误,而其他一些现象可能导致某些位点优先于其他位点测序。这些现象不应造成基因分型错误,但将需要更大的整体测序努力,以为那些较低频率测序的位点获得足够的深度。一个众所周知的现象是,在PCR过程中,片段会基于GC含量优先扩增2,41-43,而这种偏差应该会影响所有包含PCR步骤的RADseq方法。另一种现象是短片段比长片段优先扩增。这个问题会影响到所有序列片段被两个切割位点裁切的RADseq方法(BOX 1),因为每个位点都有一个特定的片段长度。这个问题既不会影响2bRAD,因为所有的位点在长度上是一致的,也不会影响原始RADseq,因为每个位点都由不同的片段长度表示。

        另一种影响位点间覆盖深度变化的现象是由原始RADseq的机械剪切引起的。小于10kb的片段剪切效率较低,因此来自较短限制性片段的位点比来自较长片段的位点产生更少的读取。然而,这一现象对大多数原始RADseq研究的影响应该较小,这些研究通常使用将基因组DNA消化为大于10 kb片段的rare cutter。

        当各个位点的覆盖率差别很大时,获得足够数量的读取以对低覆盖率位点进行准确基因分型将需要增加所有位点的平均覆盖深度。要做到这一点,必须减少每个测序泳道复用的个体数量,这将增加研究项目的成本或减少可以分析的个体样本的数量。或者,如果可以从高覆盖标记获得足够的数据,低覆盖位点可以直接从数据集中删除,这在实践中很常见。


如何设计一个RADseq研究

        为特定的应用设计一个RADseq研究需要考虑几个主要因素,包括最合适的RADseq方法、取样和测序策略、预算和其他方法细节。表1总结了所选方法之间的权衡。

位点数量。

        通过RADseq方法鉴定和基因分型的位点数量取决于基因组的大小、基因组中限制性切割位点的频率和用于测序的切割位点的数量。计算工具可用来估计每个协议预期的位点数量42,44。针对所有的切割位点的RADseq方法(原始的RAD和2bRAD),或者使用common-cutter内切酶的没有直接大小选择步骤的RADseq方法(GBS),通常可以提供更多的位点,但是数量可以根据酶的选择进行调整。相比之下,涉及明确的大小选择步骤的协议 (例如, ddRAD 和 ezRAD) 不仅可以通过选择酶来调整位点数量,而且还可以通过改变选择的大小范围来调整位点数量,因此它们通常有更大的灵活性来提供更少的位点数量。此外,在任何RADseq协议中减少位点数量的另一种方法是为RADseq信息位点子集设计探针,并使用这些探针捕获和测序选择的位点(即RAD捕获或Rapture22)。

        最佳位点数取决于研究目的。研究重点在于估计中性或全基因组过程的,如系统发育关系、地理种群结构、基因流、渐渗和个体近亲繁殖(血统鉴定),通常只需要几百到几千个含有SNP的RADseq位点就可以对基因组进行充分采样12,18,45,46。相比之下,那些试图描述整个基因组中重要功能区域的研究,比如那些表现出选择特征的研究,则需要一组更大的标记(例如,多达数万甚至数十万个RADseq位点)24,47,48。在映射研究中,RADseq位点的最佳数量取决于沿着染色体的连锁不平衡和重组模式的预期程度。例如,一个实验室F2杂交种群或一个近期的混合群体需要的位点比一个远缘杂交种群要少,尽管统计能力可能会随着大量的后代和更多的标记而增加。对于一个远缘杂交种群的关联映射,就需要多得多的标记。量化沿着染色体延伸的多样性模式(例如,纯合性的运行)来估计最近的和历史上的有效种群大小和近亲繁殖也需要成千上万的位点46,49,50。

        一些生物因素也可以增加目标位点的数量。遗传变异低的瓶颈期或小种群可能需要更多位点的测序来精确量化变异水平。具有全基因组复制或基因复制历史的基因组,如鲑鱼51或很多植物52,又或者转座子或其他重复序列水平高的基因组,如一些植物53,可能需要大量的位点来补偿对问题位点的严格过滤(删除)。

表1 五种RADseq方法之间的权衡


*估计如下:原始RADseq,假设是6-cutter或8-cutter;2bRAD,假设是识别位点包含5-7个特定核苷酸的IIB型酶;GBS,数据来自Elshire et al. 6;ddRAD,数据来自Peterson et al.的表117并允许两倍的大小范围;ezRAD,来自Toonen et al.16的具有参考基因组的物种的数据。‡ 基于目前测序技术的单端读取长度限制。§假设多个样本有单独的条形码。‖也可与标准凝胶设备配套使用。¶ 基于减少位点总数和长度的能力。# 基于区分旁系同源和重复序列的位点长度。


序列读取的类型。

        长序列读取和/或双端序列读取提供了许多优势,包括改进的位点识别、旁系同源或重复序列的区分和对重要功能位点的BLAST搜索。对于大多数RADseq协议来说,序列长度主要受到测序技术的限制(例如,Illumina的读取量通常可达150 bp,但在某些情况下可达300 bp)。许多研究问题可以通过相对较短的读取(例如,100 bp)和单端测序得到充分解决。然而,如上所述,通过使用原始RAD的双端测序读取(最多1 kb18)组装contigs,可以获得更长的RADseq位点,这种方法对于没有参考基因组的复杂基因组尤其有利。在所有的方法中,2bRAD产生最短的读取(33-36 bp),因此不推荐使用这种技术进行从头定位识别或者运用到大型复杂基因组(例如人类基因组54),因为读取长度实际上太短以至于无法进行可靠的映射。

已有的基因组资源。

        已有的参考序列为RADseq研究提供了诸多优势。参考基因组序列、一组组装不良的基因组scaffolds甚至一组以前识别的RAD位点都可以极大地提高筛选旁系同源或重复序列、识别插入缺失变异和去除非目标DNA序列(例如,细菌污染)的能力55。一个组装良好的参考基因组提供了进一步的优势。例如,映射研究可以利用位点的物理位置信息来推断覆盖多个位点的较大染色体区域的单倍型56。GBS和MSG方法就用这种方法进行模式物种的性状定位,模式物种亲本祖先的染色体块相当大。种群基因组研究可以使用一个参考基因组组装来进行滑动窗口分析,并增加统计能力来检测感兴趣的基因组区域,例如种群之间的差异选择区域24,48。在没有参考基因组的情况下,使用原始RADseq协议产生的长 contigs应该能够提供最大的能力来区分旁系同源或重复序列15,18,19。

测序覆盖深度。

        对所有RADseq方法产生的文库进行测序会产生不同深度的覆盖,不同研究中对单个条形码样本的理想深度差异很大。在一种极端情况下,实验室用一个组装良好的参考基因组来进行映射研究只需要很低的覆盖率(<1×)就能达到最佳效果57。对于二倍体的从头位点发现和基因分型,就需要更高的覆盖率(例如,10-20×)。如果从头组装是通过结合多个样品的读取来进行的(尽管在进行基因分型前必须对读取进行个体分离),那么更低的覆盖率(例如,5×)就可以了。在多倍体类群中需要更高的覆盖率,因为在相同的读取下每一个单倍体基因组的覆盖率降低了。另外,在某些情况下,个体可能被汇集成单个条形码(BOX 3),由于没有分配个体基因型,每个个体的覆盖率要低得多。

预算。

        RADseq数据的主要开销通常是测序本身。总的测序工作分为位点的数量、样本和群体的数量以及每个个体每个位点所需的覆盖率。然而,不同的协议在文库准备费用以及文库准备费用随样本数量的增加而增加的方式上也有很大的不同。例如,尽管原来的 RADseq 协议有相对大量的步骤,但样本在协议的早期是多路复用的,随后的步骤是对多达96个或更多的条形码样本进行混合,因此在时间和金钱方面增加样本的边际成本都是最小的。相比之下,ezRAD 的成本大致与样本成线性关系,因为直到最后才多路复用,所以这种方法可能最适合于少数样本或样本池16。一些RADseq协议还需要在专门的条形码接头上进行初始资金投资,尽管对于大量的库来说,一组这样的寡核苷酸通常就足够了。此外,一些RAD协议可能要求购买专门的实验室设备。原始 RADseq 需要使用 DNA超声波仪,而使用直接大小选择步骤(例如 ddRAD和 ezRAD)的 RADseq 协议 可 以 通 过 使 用PippinPrep17来提高大小选择的精确性和一致性,并减少交叉污染的可能性。

数据的可比对性。

        在设计RADseq研究时,最后要考虑的是跨测序运行和跨实验室的数据一致性。大小选择的不一致性可能会在使用大小选择来减少位点集的方法的文库之间产生差异。不同大小选择技术(自动或手动凝胶提取与基于珠子的选择)的一致性没有被严格量化,但磁珠的一致性可能要低得多58。针对每个切割站点的方法(原始的RAD和2bRAD)通常被期望在文库间更加一致;但是,这些方法容易产生其他的错误(前面已经讨论过)。根据限制性内切酶的选择,即使在不同的方法中,位点基因分型也可能有一定的一致性。例如,在ddRAD协议中使用SbfI和EcoRI酶测序的位点应该是那些使用SbfI酶和原始RAD测序的位点的子集。

替代或补充方法。

        虽然RADseq作为SNP基因分型和发现的工具有很多好处,但它并不是每一个生态和进化研究的最佳选择方法。转录组测序(RNA-seq)59和靶向(探针)捕获60是两种主要的利用下一代测序的替代简化基因组方法(BOX 4)。全基因组重测序和全基因组混样测序又是另外的替代方法,能提供比简化基因组更多的基因组信息61-63。然而,尽管全基因组重测序对于种群研究的可行性越来越大,但很多生态和进化问题仍无法从全基因组数据的增加中获得多少好处。例如,一项RADseq的研究使用数万个基于等位基因频率或连锁不平衡的标记来检测选择,这项研究更有可能受到取样个体数量的限制,而不是标记密度的限制。

        替代基因组方法也可用于补充 RADseq,以便在特定系统中进行更全面或更灵活的调查。例如,随着序列化和组装技术的不断改进,为非模式物种开发从头参考基因组正变得越来越可行64,65,而且这样的参考为分析在种群水平取样的RADseq数据提供了诸多优势24,47,48,55。转录组测序也可以通过靶向编码(可能是功能性)序列来补充RADseq数据,而RADseq同时查询编码位点和非编码位点。RADseq也可以作为一个大研究的第一步来关注重要的位点。例如,RADseq可以提供全基因组扫描来识别感兴趣的候选位点,然后可以使用这些位点的序列数据来设计用于序列捕获的探针。随后的目标测序可以在大量样本上进行,大大降低了每个样本的成本,同时DNA的质量也更差。


结果

        RADseq技术在生态学和进化基因组学中对于SNP的发现和基因分型具有巨大的能力和通用性,但是研究人员在选择和应用这些方法时应该慎重考虑。许多RADseq协议被开发出来,这些协议不仅在技术细节和文库准备的成本上不同,而且在产生的数据类型和基因分型错误和偏差的来源上也不同。因此,协议的适用性将根据研究问题、研究系统和预算而有所不同。尽管测序技术和成本迅速变化,我们预计,在可预见的未来,诸如RADseq等简化基因组测序方法将继续成为自然种群基因组学研究的重要工具。如果实施得当,RADseq方法将提供高效、灵活和经济的方法,以充分发挥下一代测序技术的力量,为生态、进化和与保护相关的问题提供新的见解。


限制性位点相关DNA测序

(RADseq)一种使用大规模并行(下一代)测序,对基因组中大量限制切割位点附近的遗传位点进行测序的方法。也被称为基因分型测序。

下一代测序

(也被称为大规模并行测序)。2005年首次出现的同时对数百万个DNA分子进行测序的技术。

覆盖深度

对某一特定位点或核苷酸位点的序列读取次数

接头

在下一代测序之前必须连接到DNA片段的双链寡核苷酸。Illumina接头包含退火到流细胞的区域,作为识别单个样本的条形码的index序列,以及用于桥接扩增和DNA片段与index测序的引物结合位点。

条形码

短而独特的序列(通常为6-12bp),用于识别单个样本。发生在接头连接后紧接在基因组DNA片段附近的接头末端。条形码在DNA片段测序之前被立即测序,因此条形码序列将出现在序列读取的开始。

测序文库

为下一代测序准备的DNA。DNA必须有合适的长度进行测序,并且必须连接测序接头。

黏性末端

(也被称为DNA单链突出端)。被限制性内切酶消化的DNA片段末端的单链DNA。一些限制性内切酶产生平末端(双链末端)而不是粘性末端。

IIB限制性内切酶

在识别位点的两边都能切割DNA的限制性内切酶。

池化

将多个单独的样本组合成只有一个唯一标识符(例如,一个条形码或index)的DNA文库。

组合条码

使用两种不同条形码的方法,通常是一个标准的Illumina index和一个内置条形码。这种方法可以减少必须购买的接头数量,从而降低文库准备成本。

Illuminaindex

一个独特的整合到Illumina接头中的6bp或8bp序列,可以作为一个条形码来识别样本个体。

单端测序

每个DNA片段只有一个末端的Illumina测序。

双端测序

每个DNA片段有两个末端的Illumina测序。

Contigs

能够组装成一个更长序列的一组重叠序列读取。

旁系同源基因

源于基因组内复制的序列。

过滤

因为序列质量低、覆盖深度低、可能是旁系同源基因和其他原因,从数据集中删除掉不需要的序列读取。

等位基因丢失

无法通过测序检测样品中存在的等位基因。

无效等位基因

样本中存在的等位基因无法通过基因分型鉴定出来。无效等位基因的存在导致了等位基因的丢失。

连锁不平衡

不同位点等位基因的非随机组合。

滑动窗口分析

在一个染色体段(窗口)内计算汇总统计的分析,其中窗口是沿着每个染色体递增的。


Box1 常用RADseq方法

在单个限制性酶切位点附近进行片段测序的方法

最初的限制性位点相关 DNA 测序(RADseq)4,66使用单个限制酶消化基因组 DNA,然后通过机械剪切将片段缩短到测序所需的合适长度,这(与其他方法不同)在每个位点产生片段大小的差异。2bRAD67,68方法使用 IIB 型限制性内切酶,切断 DNA 识别位点的上游或下游,产生长度均匀(33-36bp)的短片段。

在两个限制性酶切位点附近进行片段测序的方法

● 单酶,间接选择大小。测序基因分型(GBS)6使用一种common切割酶, PCR 优先扩增短片段。基于序列的基因分型(SBG)69使用一个罕见的切割器和一个或两个common切割酶,PCR 优先扩增短片段。

● 双酶,间接选择大小。简化多态序列复杂度测序(CRoPS)70使用两种酶和一个专有的文库准备工具包(最初为 454 焦磷酸测序而开发)。

● 单酶,直接选择大小。简化代表库测序(RRLs)10,71很独特,使用平末端common切割酶,随后是大小选择步骤和专有的 Illumina 库准备工具包。多路复用鸟枪基因分型(MSG)56使用一个common切割酶和大小选择步骤。ezRAD16使用一种或多种common切割酶,以及专有的 Illumina 库准备工具包。

● 双酶,直接选择大小。双消化RAD(ddRAD)17使用两种限制性内切酶,每种酶配有特定的接头,并通过自动凝胶切割选择大小。

上述技术的变化包括使用甲基化敏感酶72;在现有的协议中添加更多的限制性酶以进一步减少位点集69,73;添加第二次消化以消除接头二聚体14;使 RADseq技术适用于其他测序平台,如Ion Torrent73-75;以及其他次要的技术改进58,76。


BOX2 来自RADseq数据的生态学和进化学见解

限制性位点相关DNA测序(RADseq)可以用来回答各种各样的生态、进化和保护相关的问题。

适应基因组学

通过对两种蝴蝶(Heliconius melpomene

aglaope和Heliconius melpomene amaryllis (图c部分))的RADseq数据进行关联映射分析(见图a部分)和FST离群值测试(图 b部分),发现颜色模式的选择是维持蝴蝶杂交带的最重要因素;这些分析表明,FST异常主要发生在与颜色模式变化相关的基因组区域。在a部分中,关联分数根据c部分中描述的表型特征进行着色,并且只显示每种表型的前20个相关SNP。在b部分中,所有SNP的FST值都显示出来了,显著的异常值用红色或橘色表示47。未映射的表示在Heliconius melpomene基因组装配中没有分配给染色体的scaffolds。许多其他的研究也使用了RADseq来识别其他研究系统中适应的基因组结构(例如,REFS 24,48,77)。

近交和基因多样性

一项研究海豹杂合度适应度相关性的研究发现,使用14585个RADseq SNPs估计的全基因组杂合度与一个适配相关性状的相关性比27个微卫星位点估计的高出近5倍50。RADseq基因多样性估计也被用来描述社会结构对唐基恩猕猴常染色体和性染色体多样性的影响78。

有效种群数量(Ne

使用RADseq生成的数千个SNP被用来估计北美西部的鲑鱼和胡瓜鱼的Ne79,80。

种群结构,系统地理学和保护单元

RADseq被用来开发一个种群信息的SNP面板来监测鲑鱼的种群组成,并描绘出作为离散而非混合的进行捕捞的种群单位79,81;也可参见REFS 82-84。

渐渗

Hohenlohe等人18使用RADseq识别了3180个在物种水平上具有诊断意义的SNP,并计算了一种本地鳟鱼和一种入侵鳟鱼的混合;也可参见REFS 85,86。

系统基因组学

RADseq数据生成了维多利亚湖鲷鱼16个物种的高分辨率树,而之前使用扩增片段长度多态性(AFLP)、微卫星或少量基于序列的标记的分析未能解决这些物种的物种级关系87。



BOX3 池化(混合)

在限制位点相关DNA测序(RADseq)文库准备过程中,没有单独条形码的样本池可以以较低的成本估计群体等位基因频率63,88,89。但是,对于混合测序,有几个错误源是唯一的或被放大的。样本个体的DNA的不均等表达可能导致不准确的等位基因频率估计90,91,这一问题因PCR重复而加剧89。此外,对于混合的数据,等位基因缺失、旁系同源基因、映射错误和隐藏的种群结构的识别更加难以实现,甚至是不可能63,89。同样,对于混合的数据,区分测序错误和低频等位基因也比较困难。

通过使用较大的池样本大小和覆盖深度,以及去除PCR重复,可以大大减少混合测序文库中样本个体不均等表达所造成的错误89,92,93。通过使用减少PCR循环周期,可以减少PCR重复的发生,这对于有大量起始基因组DNA的混合测序是可行的。为每个种群生成和比较复制池的序列数据也有助于识别和纠正样本个体的不均等表达89。尽管如此,这并不能减少等位基因缺失或旁系同源基因识别的问题。

研究人员还应该意识到可以对混合序列数据进行分析的限制。在这种类型的数据中,需要个体基因型的分析,如分配测试(使用STRUCTURE进行贝叶斯聚类分析94)、相关性分析或近交系数估计等,都是不可行的。一些推断种群历史或检测选择的方法依赖于对连锁不平衡的准确估计95,96。尽管使用个体带条形码的RADseq数据产生的通常上是无相位的数据来估计连锁不平衡的能力有限,但使用混合数据却是完全不可能的。更重要的是,池化假设池中的所有样本都来自同一个良好混合的种群,如果多个组在池中不知情地被合并,则隐藏的种群结构将变得模糊。


BOX4 RADseq的替代选择

限制性位点相关 DNA 测序(RADseq)的两个主要替代方法是转录组测序(RNA-seq)和靶向(基于探针)捕获。

转录组测序(RNA-seq

RNA-seq序列利用RNA转录出基因组的各个区域,以此作为文库制备的起始点。

优势。在几乎所有基因组资源有限或者没有的物种中,RNA-seq都可以用来快速测序数千个功能基因组区域97。大多数转录本可以根据现有的基因组数据库进行注释98,这与匿名的RADseq位点相比,提供了更强大的功能背景。

劣势。RNA-seq提供了有限的机会来根据问题或实验设计动态地展开测序工作。个体转录本在相对丰度上可能有数量级上的差异,这使基因分型复杂化,增加了测序成本。功能注释可能局限于数据库表达较差的分类类群。RNA-seq需要高质量的样本,这限制了它在许多研究中的可行性。

靶向(基于探针)捕获

靶向(基于探针)捕获测序使用DNA探针分离感兴趣的区域预先选择基因组区域。

优势。靶向捕获是高度可扩展的,可以对单个位点101或成千上万个位点102,103进行排序。技术性能通常非常高104,跨区域和跨个体的测序覆盖率差异很小35,41,105。捕获技术可以应用于从中等到深度的进化时间尺度106-108,也可以应用于降解的DNA样本,这使得它在系统发育33,109,110和古代DNA研究111-116中很受欢迎。

劣势。捕获的主要限制在于用于设计探针的基因组资源的可用性,以及与RADseq或RNA-seq相比通常更高的成本60。

你可能感兴趣的:(Harnessing the power of RADseq for ecological and evolutionary genomics)