•
我们回顾了过去 50 年 DNA 测序技术的巨大变化。
•
第一代方法能够对克隆 DNA 群体进行测序。
•
第二代通过并行化许多反应大幅提高了吞吐量。
•
第三代方法允许对单个 DNA 分子进行直接测序。
确定生物样品中核酸残基的顺序是各种研究应用的一个组成部分。在过去的五十年里,大量的研究人员致力于生产技术和技术来促进这一壮举,对 DNA 和 RNA分子进行测序。这个时间尺度见证了巨大的变化,从测序短寡核苷酸到数百万个碱基,从努力推导单个基因的编码序列到快速和广泛可用的全基因组测序. 本文穿越了那些年,迭代了不同代的测序技术,重点介绍了沿途的一些关键发现、研究人员和序列。
“ ... [ A ]序列知识可以对我们对生命物质的理解做出很大贡献。”
弗雷德里克·桑格[1]
的顺序的核酸中的多核苷酸链最终包含陆地生活的遗传和生物化学性质的信息。因此,测量或推断此类序列的能力对于生物学研究是必不可少的。这篇综述讨论了多年来研究人员如何解决如何对DNA进行测序的问题,以及定义每一代这样做的方法的特征。
沃森和克里克在 1953 年利用 Rosalind Franklin 和 Maurice Wilkins [2]、[3] 提供的晶体学数据解决了 DNA 的三维结构问题,这为 DNA 复制和核酸中的编码蛋白质提供了概念框架. 然而,“读取”或测序 DNA的能力在一段时间内并未出现。为推断蛋白质链的序列而开发的策略似乎并不容易应用于核酸研究:DNA 分子更长,由更少的单元组成,彼此更相似,因此更难区分它们[4]。需要开发新的战术。
最初的努力集中在对相对纯的 RNA 物种中最容易获得的种群进行测序,例如微生物核糖体或转移 RNA,或单链RNA 噬菌体的基因组。这些不仅可以在培养中容易地大量生产,而且它们也不会因互补链而复杂化,并且通常比真核 DNA 分子短得多。此外,能够在特定位点切割 RNA 链的 RNase 酶已经为人所知并可用。尽管有这些优势,但进展仍然缓慢,因为研究人员可用的技术(从分析化学中借用)只能测量核苷酸组成,而不能测量顺序[5] 。然而,通过将这些技术与选择性核糖核酸酶处理产生完全和部分降解的 RNA 片段[6](并结合观察到 RNA 含有不同的核苷酸碱基[7] ),1965 年,Robert Holley 及其同事能够产生第一个完整的核酸序列,即丙氨酸来自酿酒酵母的 tRNA [8]。与此同时,Fred Sanger 及其同事开发了一种相关技术,该技术基于在二维分级分离后检测放射性标记的部分消化片段[9] ,这使研究人员能够稳定地添加到不断增长的核糖体和转移RNA 序列库中 [10], [11], [12] , [13] , [14] 。这也是通过使用该2-d分馏方法,其瓦尔特·菲耶实验室能够产生第一个完整的蛋白质编码基因序列在1972年,该的外壳蛋白的噬菌体MS2 [15] ,随后四年后通过其完整的基因组[16]。
大约在这个时候,各种研究人员开始调整他们的方法以对 DNA 进行测序,这在最近使用 DNA 基因组纯化噬菌体的帮助下,为测试新方案提供了理想的来源。利用对肠杆菌噬菌体λ具有 5' 突出“粘性”末端的观察结果,Ray Wu 和 Dale Kaiser 使用 DNA 聚合酶在末端填充放射性核苷酸,一次提供一个核苷酸并测量掺入以推断序列[17] ] , [18] 。不久之后,通过使用特定的寡核苷酸,这一原则被普遍化启动 DNA 聚合酶。然后可以使用放射性核苷酸的掺入来推断任何地方的核苷酸顺序,而不仅仅是在噬菌体基因组的末端[19]、[20]、[21]。然而,碱基的实际测定仍然仅限于短片段的 DNA,并且通常仍然涉及大量的分析化学和分馏程序。
下一个产生重大影响的实际变化是用通过聚丙烯酰胺凝胶电泳通过多核苷酸长度进行单一分离取代二维分离(通常由电泳和色谱组成),这提供了更大的分辨率。从 1970 年代中期开始,该技术被用于两个有影响力但又复杂的方案:Alan Coulson 和 Sanger 于 1975 年的“加减”系统以及 Allan Maxam 和 Walter Gilbert 的化学裂解技术[22]、[23]. 加减技术使用 DNA 聚合酶从引物合成,掺入放射性标记的核苷酸,然后进行第二次聚合反应:“加”反应,其中仅存在单一类型的核苷酸,因此所有延伸都将以该碱基结束,以及一个“减”反应,其中使用了三个,它产生的序列一直到下一个缺失核苷酸之前的位置。通过在聚丙烯酰胺凝胶上运行产物并在八个泳道之间进行比较,人们能够推断出覆盖序列中每个位置的核苷酸位置(除了位于均聚物内的那些,即相同核苷酸的运行)。正是使用这种技术,Sanger 及其同事对第一个 DNA 基因组进行了测序,即噬菌体ϕ 的DNA 基因组X174(或“PhiX”,如今在许多测序实验室中作为阳性对照基因组占有一席之地)[24]。虽然仍然使用聚丙烯酰胺凝胶来解析 DNA 片段,但 Maxam 和 Gilbert 技术在其方法上存在显着差异。放射性标记的 DNA 不是依靠 DNA 聚合酶产生片段,而是用化学物质处理,在特定碱基处断裂链;在聚丙烯酰胺凝胶上运行后,可以确定切割片段的长度(以及特定核苷酸的位置)并因此推断序列(见图1 ,右)。这是第一个被广泛采用的技术,因此可以被认为是“第一代” DNA测序的真正诞生。
图1。第一代DNA 测序技术。要测序的示例 DNA ( a) 显示了经过 Sanger (b) 或 Maxam-Gilbert (c) 测序。(b):Sanger 的“链终止”测序。放射性或荧光标记的 ddNTP核苷酸给定类型的 - 一旦掺入,防止进一步延伸 - 以低浓度包含在 DNA 聚合反应中(从 5' 序列引发,未显示)。因此,在四个反应的每一个中,由于 ddNTP 随机掺入该碱基的特定实例(带下划线的 3' 末端字符),因此生成具有 3' 截断的序列片段。(c):Maxam 和 Gilbert 的“化学测序”方法。DNA 必须首先被标记,通常是通过 在其 5' 磷酸部分中包含放射性 P 32 (此处由 Ⓟ 显示)。然后使用不同的化学处理从一小部分 DNA 位点选择性地去除碱基。肼从嘧啶(胞嘧啶和胸腺嘧啶)中去除碱基,而肼在高盐浓度下只能从胞嘧啶中去除那些。然后可以使用酸去除嘌呤(腺嘌呤和鸟嘌呤)中的碱基,硫酸二甲酯用于攻击鸟嘌呤(尽管腺嘌呤也会受到较小程度的影响)。然后使用哌啶在无碱基位点切割磷酸二酯骨架,产生可变长度的片段。(d):然后可以通过电泳观察由任一方法产生的片段在高分辨率聚丙烯酰胺凝胶上:然后通过读取凝胶“向上”推断序列,因为较短的 DNA 片段迁移速度最快。在 Sanger 测序(左)中,通过找到给定位点存在条带的泳道来推断序列,因为 3' 终止标记的 ddNTP 对应于该位置的碱基。Maxam–Gilbert 测序需要一个小的额外逻辑步骤:Ts 和 As 可以分别直接从嘧啶或嘌呤泳道中的条带推断出来,而 G 和 C 由 G 和 A + G 泳道中存在的双条带表示,或 C 和 C + T 车道分别。
然而,永远改变 DNA 测序技术进步的重大突破出现在 1977 年,随着 Sanger 的“链终止”或双脱氧技术的发展[25] 。链终止技术利用作为DNA 链单体的脱氧核糖核苷酸(dNTP)的化学类似物。双脱氧核苷酸(ddNTP) 缺少延伸 DNA 链所需的 3' 羟基,因此无法与下一个 dNTP 的 5' 磷酸根形成键[26]. 将放射性标记的 ddNTP 以标准 dNTP 浓度的一小部分混合到 DNA 延伸反应中,会产生每种可能长度的 DNA 链,因为随着链的延伸,双脱氧核苷酸会随机掺入,从而阻止进一步的进展。通过执行包含每个单独 ddNTP 碱基的四个平行反应,并在聚丙烯酰胺凝胶的四个泳道上运行结果,可以使用放射自显影来推断原始模板中的核苷酸序列是什么,因为在相应的泳道中会有一个放射性条带在凝胶的那个位置(见图1, 剩下)。虽然工作原理与其他技术相同(产生所有可能的增量序列并标记最终核苷酸),但准确性、稳健性和易用性使双脱氧链终止法——或简称为Sanger 测序——成为未来几年最常用的 DNA 测序技术。
在接下来的几年中,对 Sanger 测序进行了许多改进,主要涉及用基于荧光的检测(允许反应发生在一个容器而不是四个容器中)取代磷酸或氚放射性标记,并通过基于毛细管的电泳改进检测. 这两项改进都有助于开发越来越自动化的 DNA 测序机[27]、[28]、[29]、[30]、[31]、[32]、[33],以及随后的第一批商业 DNA测序机器[34],用于对日益复杂的物种的基因组进行测序。
这些第一代 DNA 测序仪产生的读数长度略小于 1 千碱基 (kb):为了分析更长的片段,研究人员利用了“鸟枪测序”等技术,其中重叠的 DNA 片段被分别克隆和测序,然后组装在计算机[35] , [36] 中合成一个长的连续序列(或“contig”)。聚合酶链反应 (PCR) [37]、[38]和重组 DNA 技术 [39]、[40] 等技术的发展通过提供产生测序所需的高浓度纯 DNA 物种的方法,进一步推动了基因组学革命。排序的改进也发生在不那么直接的路线上。例如,Klenow 片段 DNA 聚合酶——一种缺乏 5' 到 3'外切核酸酶活性的大肠杆菌DNA 聚合酶片段,通过天然酶的蛋白酶消化产生[41] - 最初用于测序,因为它能够有效地结合 ddNTP。然而,更多测序的基因组和基因操作工具为寻找聚合酶提供了资源,这些聚合酶更能适应用于测序的日益修饰的 dNTP 的额外化学部分[42]。最终,更新的双脱氧测序仪——例如由 Leroy Hood 的研究开发的 ABI PRISM 系列,由 Applied Biosystems [43] 生产,允许同时对数百个样本进行测序[44] ——开始用于人类基因组计划,有助于提前数年完成那项庞大事业的初稿[45]、[46]。
随着大规模双脱氧测序工作的发展,出现了另一种技术,为下一代DNA 测序仪的第一波奠定了基础。该方法与现有方法的显着不同之处在于它在电泳可视化之前不通过使用放射性或荧光标记的 dNTP 或寡核苷酸来推断核苷酸身份。相反,研究人员利用最近发现的一种发光方法来测量焦磷酸盐的合成:这包括一个双酶过程,其中使用 ATP 硫酸化酶将焦磷酸盐转化为 ATP,然后将其用作荧光素酶的底物,从而产生与焦磷酸盐的量成正比的光[47]。这种方法用于通过测量焦磷酸盐的产生来推断序列,因为每个核苷酸通过系统依次冲洗固定在固相上的模板 DNA [48] 。请注意,尽管存在差异,Sanger 的双脱氧和这种焦磷酸测序方法都是“合成序列”(SBS)技术,因为它们都需要 DNA聚合酶的直接作用来产生可观察的输出(与 Maxam-Gilbert 技术相反) )。这种由 Pål Nyrén 及其同事开创的焦磷酸测序技术具有许多被认为有益的特征:它可以使用天然核苷酸进行(而不是链终止协议中使用的大量修改的 dNTP),并实时观察(而不是需要冗长的电泳) [49]、[50]、[51]。后来的改进包括将 DNA 连接到顺磁珠上,并通过酶促降解未结合的 dNTP 以消除冗长的洗涤步骤。这种技术带来的主要困难是找出在给定位置的一行中有多少相同的核苷酸:释放的光强度对应于均聚物的长度,但噪声产生了非线性读数,高于 4 或五个相同的核苷酸[51]. 焦磷酸测序后来被授权给 454 Life Sciences,这是一家由 Jonathan Rothburg 创立的生物技术公司,在那里它发展成为第一个成功的商业“下一代测序”(NGS)技术。
454(后来被罗氏购买)生产的测序仪是一种范式转变,它们允许测序反应的大规模并行化,大大增加了可以在任何一次运行中测序的 DNA 量[52]。DNA 分子文库首先通过接头序列连接到珠子上,然后进行油包水乳液 PCR (emPCR) [53]以将每个珠子包在克隆 DNA 群体中,理想情况下,平均一个 DNA 分子最终在一个珠子,它在乳液中以自己的液滴放大(见图2a 和 c)。然后将这些 DNA 包被的珠子在每孔适合一个珠子的皮升反应板上洗涤;当较小的珠链酶和 dNTP 在板上被冲洗时,焦磷酸测序就会发生,焦磷酸盐的释放是使用孔下方的电荷耦合装置 (CCD) 传感器测量的。该设置能够产生大约 400-500 个碱基对 (bp) 长的读数,对于预计包含适当克隆包被的珠子的数百万个左右的孔[52] 。这种并行化将测序工作的产量提高了几个数量级,例如,允许研究人员对属于DNA 结构先驱 James Watson的单个人类基因组进行完全测序,比通过DNA 测序进行的类似工作更快、更便宜企业家 Craig Venter 的团队在前一年使用Sanger 测序[54]、 [55] 。消费者广泛使用的第一台高通量测序(HTS) 机器是最初的 454 机器,称为 GS 20,后来被 454 GS FLX 取代,后者提供了更多的读数(通过在 ' picotiter' 板)以及更好的质量数据[56]。这种在微米尺度上进行大量平行测序反应的原则——通常是由于微加工和高分辨率成像的改进而成为可能——是定义第二代 DNA 测序的原因[57]。
454 成功后,大量平行测序技术如雨后春笋般涌现。其中最重要的可以说是 Solexa 测序方法,后来被 Illumina 收购[56] 。不是通过执行基于珠子的 emPCR 进行并行化,而是将适配器支架 DNA 分子通过结合到流动池的互补寡核苷酸草坪;随后的固相 PCR 从每个单独的原始流动细胞结合DNA 链中 产生相邻的克隆群簇[58]、[59]。这个过程被称为“桥式扩增”,因为复制的 DNA 链必须拱起以启动相邻表面结合寡核苷酸的下一轮聚合(见图2)b 和 d) [56]。测序本身是使用荧光“可逆终止子”dNTP 以 SBS 方式实现的,由于荧光团占据 3' 羟基位置,因此不能立即结合更多核苷酸;这必须在聚合继续之前被切割掉,这允许测序以同步方式发生[60]. 这些经过修饰的 dNTP 和 DNA 聚合酶循环洗涤在引发的单链流动细胞结合簇上。在每个循环中,通过用适当的激光激发荧光团,在酶促去除阻断荧光部分并继续到下一个位置之前,可以用 CCD 监测掺入核苷酸的身份。虽然第一台基因组分析仪 (GA) 机器最初只能产生非常短的读数(长达 35 bp),但它们的优势在于它们可以产生配对末端 (PE) 数据,其中两端的序列每个 DNA 簇都被记录下来。这是通过首先从单链流动细胞结合的 DNA 中获得一个 SBS 读数来实现的,在从剩余的流动池结合的寡核苷酸中进行单轮固相 DNA 延伸并去除已测序的链之前。因此,将 DNA 链相对于流动池的方向反转后,然后从分子的相对末端获得第二个读数。由于输入分子的长度约为已知,因此具有 PE 数据可提供更多信息。这提高了将读数映射到参考序列时的准确性,尤其是跨重复序列,并有助于检测剪接外显子和重排 DNA 或融合基因。标准基因组分析仪版本 (GAIIx) 随后是 HiSeq,这是一种能够实现更大读取长度和深度的机器,然后是 MiSeq,[61],[62]。
图2。第二代DNA 测序平行扩增。(a):在乳液 PCR (emPCR) 中克隆扩增的 DNA 分子。接头连接和 PCR 产生DNA 文库具有适当的 5' 和 3' 末端,然后可以将其制成单链并固定到单个适当的寡核苷酸标记的微珠上。然后可以使用油中的水性扩增试剂乳化珠-DNA 偶联物,理想情况下产生仅包含一个珠的乳液液滴(显示在最左边的两个液滴中,不同的分子以不同的颜色表示)。然后在 emPCR 过程中发生克隆扩增,因为每个模板 DNA 与所有其他模板 DNA 物理分离,子分子仍与微珠结合。这是 454、Ion Torrent 和 polony 测序协议中测序的概念基础。(b):桥式扩增以在平面固相 PCR 反应中产生克隆 DNA 群簇,如 Solexa/Illumina 测序中发生的那样。具有与两个草坪寡核苷酸互补的终止序列的单链 DNA在经过流动池时会退火,并且在等温 PCR 过程中将在有限区域内复制,在相邻位点弯曲以进行引物,产生相同分子的局部簇. (c) 和 (d) 展示了如何以高度并行的方式读取这两种不同形式的克隆扩增序列:emPCR 产生的微珠可以在 picotiter 板上洗涤,孔的大小足以容纳一个珠子( C)。然后可以将 DNA 聚合酶加入孔中,依次冲洗每个核苷酸,并监测 dNTP 掺入(例如通过焦磷酸或氢离子释放)。通过桥式扩增 (d) 产生的流动池结合簇可以通过检测正在进行的延伸反应末端的荧光可逆终止子核苷酸来可视化,需要逐个循环测量并去除终止子。
许多其他测序公司,每家都拥有自己的新方法,也出现(和消失),并对可行的实验和整个市场产生了不同的影响。在第二代测序的早期,也许第三个主要选择(与 454 和 Solexa/Illumina 测序一起)[63]是来自 Applied Biosystems(在与 Life Technologies 合并后成为 Life Technologies)的寡核苷酸连接和检测(SOLiD)系统测序。 Invitrogen) [64] 。顾名思义,SOLiD 测序不是通过合成(即用聚合酶催化),而是通过连接,使用DNA 连接酶,建立在先前由 George Church 小组开发的开源“polony”测序建立的原则之上[65]。虽然 SOLiD 平台无法产生 Illumina 机器的读取长度和深度[66],这使得组装更具挑战性,但它在每个碱基的成本基础上仍然具有竞争力[67]。另一项基于逐个连接序列的显着技术是 Complete Genomic 的“DNA 纳米球”技术,该技术通过类似的探针连接获得序列,但克隆 DNA 群体的生成是新颖的:使用滚环扩增代替珠或桥扩增生成由模板序列的重复单元组成的长 DNA 链,以接头为界,然后自组装成纳米球,贴在载玻片上进行测序[68]. 最后一个引人注目的第二代测序平台是 Jonathan Rothburg 在离开 454 后开发的。 Ion Torrent(另一种 Life Technologies 产品)是第一个所谓的“光后测序”技术,因为它既不使用荧光也不使用发光[69] . 以类似于 454 测序的方式,将带有 DNA 片段克隆群(通过 emPCR 产生)的珠子在皮孔板上洗涤,然后依次洗涤每个核苷酸;然而,核苷酸掺入不是通过焦磷酸盐的释放来测量的,而是由聚合过程中质子(H +离子)的释放引起的 pH 值差异,使用微处理器芯片制造中使用的互补金属氧化物半导体 (CMOS) 技术实现[69] . 该技术允许在实际检测阶段进行非常快速的测序[67],尽管与 454(和所有其他焦磷酸测序技术)一样,由于多个匹配的 dNTP 掺入导致信号丢失,因此不太容易解释均聚物序列[70] .
经常被描述的“基因组学革命”在很大程度上是由核苷酸测序技术的这些显着变化驱动的,它极大地改变了与 DNA 测序相关的成本和容易程度。DNA 测序仪的能力增长速度甚至比摩尔定律描述的计算革命中所看到的还要快:微芯片的复杂性(以每单位成本的晶体管数量来衡量)大约每两年翻一番,而测序能力在 2004 年至2010 年每五个月翻一番[71] 。各种分支技术的化学性质、功能和规格各不相同,为研究人员提供了设计实验的多样化工具箱。然而近年来Illumina测序平台是最成功的,达到了近乎垄断的程度[72],因此可以认为对第二代 DNA 测序仪做出了最大的贡献。
关于什么定义了不同代的DNA 测序技术,特别是关于从第二代到第三代[73]、[74]、[75]、[76]的划分,存在大量讨论。有人认为,单分子测序(SMS)、实时测序和与以前技术的简单差异应该是第三代的定义特征。特定技术可能跨越边界也是可行的。在这里,我们将第三代技术视为能够对单个分子进行测序的技术,从而消除了所有先前技术对DNA 扩增的要求。
第一个 SMS 技术是在 Stephen Quake [77]、[78]的实验室开发的,后来被 Helicos BioSciences 商业化,并以与 Illumina 相同的方式广泛工作,但没有任何桥式放大;DNA 模板附着在平面上,然后适当的荧光可逆终止子 dNTP(所谓的“虚拟终止子” [79])在一个碱基上一次洗涤并成像,然后切割并循环下一个碱基。虽然相对缓慢和昂贵(并且产生相对较短的读数),但这是第一个允许对非扩增 DNA 进行测序的技术,从而避免所有相关的偏差和错误[73],[75]。由于 Helicos 于 2012 年初申请破产[80]其他公司接过了第三代接力棒。
在撰写本文时,最广泛使用的第三代技术可能是来自 Pacific Biosciences [81]的单分子实时 (SMRT) 平台,可在 PacBio 系列机器上使用。在 SMRT 运行期间,DNA 聚合发生在称为零模式波导 (ZMW) 的微制造纳米结构阵列中,这些结构本质上是覆盖芯片的金属薄膜中的小孔。这些 ZMW 利用光通过直径小于其波长的孔径的特性,这会导致其呈指数衰减,专门照亮井底。这使得靠近 ZMW 底部的单个荧光团分子的可视化,因为激光激发区域非常小,甚至在溶液中相邻分子的背景上[82] 。单个DNA的沉积聚合酶内的ZMW的地方它们被照亮的区域(内侧的分子图3一个):通过在洗涤DNA文库的兴趣和荧光的dNTPs,DNA链通过单延伸核苷酸可以实时地监测,因为掺入的荧光核苷酸- 并且只有那些核苷酸 - 将提供可检测的荧光,之后染料被切割掉,结束该位置的信号[83]. 这个过程可以在很短的时间内对单个分子进行测序。PacBio 系列拥有许多其他优势特性,这些特性在其他商用机器中没有广泛共享。当测序以聚合酶的速率发生时,它会产生动力学数据,从而可以检测修饰的碱基[84]。PacBio 机器还能够产生令人难以置信的长读取,长度可达并超过 10 kb,这对于从头基因组组装很有用[73]、[81]。
图3。第三代DNA测序核苷酸检测。(a):零模式波导(ZMW)中的核苷酸检测,如 PacBio 测序仪中的特色。DNA 聚合酶分子附着在每个 ZMW (*) 的底部,并靶向 DNA 和荧光核苷酸 添加。由于直径比激发光的波长窄,光照沿 ZMW 快速衰减:在聚合过程中在 ZMW 底部掺入的核苷酸提供荧光信号的实时突发,而不会受到溶液中其他标记 dNTP 的过度干扰。(b):ONT 的 MinION 测序仪中采用的纳米孔 DNA 测序。双链 DNA 被一种持续性酶 (†) 变性,该酶通过嵌入合成膜中的生物纳米孔 (‡) 棘轮其中一条链,并在其上施加电压。当 ssDNA 通过纳米孔时,不同的碱基以独特的方式阻止离子流动,从而可以通过监测每个通道的电流来推断分子的序列。
也许第三代 DNA 测序发展最受期待的领域是纳米孔测序的前景,纳米孔测序本身是使用纳米孔检测和量化各种生物和化学分子的更大领域的一个分支[85] 。纳米孔测序的潜力甚至在第二代测序出现之前就已经确立,当时研究人员证明单链 RNA 或 DNA 可以通过电泳通过大的α-溶血素离子通道 穿过脂质双层。此外,通过通道会阻止离子流动,在与核酸长度成比例的时间长度内降低电流[86]. 还有可能使用非生物、固态技术来产生合适的纳米孔,这也可能提供对双链 DNA 分子进行测序的能力[87]、[88]。Oxford Nanopore Technologies (ONT) 是第一家提供纳米孔测序仪的公司,其纳米孔平台 GridION 和 MinION(图 3 b)[89]、[90]引起了极大的兴奋,后者是一个小型的、手机大小的 USB 设备,它于 2014 年在早期访问试验中首次发布给最终用户[91]. 尽管目前观察到的质量很差,但人们希望这种测序仪代表 DNA 测序领域真正具有破坏性的技术,产生令人难以置信的长读取(非扩增)序列数据,比以前可能的成本便宜得多,速度更快[92],[ 90],[85] 。MinION 已经被单独用于生成细菌基因组参考序列[93]、[94]和靶向扩增子 [95]、[96],或用于生成支架以将 Illumina 读数映射到[97]、[98] , [96],结合了纳米孔技术的超长读取长度和短读取测序提供的高读取深度和准确性。MinION 机器的快速运行时间和紧凑性也为分散排序提供了机会,从而摆脱了当今常见的核心服务。他们甚至可以将其部署在现场,正如今年早些时候 Joshua Quick 和 Nicholas Loman 所证明的那样,他们在样本收集两天后对几内亚的埃博拉病毒进行了测序[99]。因此,纳米孔测序仪不仅可以彻底改变可以产生的数据的组成,而且可以在何时何地以及由谁产生。
DNA测序对生物学研究的重要性怎么强调都不为过。在最基本的层面上,它是我们如何衡量定义和区分陆地生命形式的主要属性之一。因此,在过去的半个世纪里,来自世界各地的许多研究人员投入了大量时间和资源来开发和改进支持 DNA 测序的技术。在这个领域的起源之初,研究人员主要从可接近的 RNA 目标开始工作,他们将花费数年的时间费力地生产可能有 12 到 100个核苷酸的序列在长度上。多年来,测序方案、分子生物学和自动化方面的创新提高了测序的技术能力,同时降低了成本,允许读取数百个碱基对长度的 DNA,大规模并行以在一次运行中产生千兆碱基的数据。研究人员从实验室转移到计算机,从浇注凝胶到运行代码。基因组被解码,论文发表,公司开始——通常后来解散——DNA序列数据的存储库一直在增长。因此,DNA 测序——在许多方面是一个相对较新的前瞻研究学科——有着悠久的历史。对这段历史的理解可以提供对当前方法的理解,并为未来的方法提供新的见解,
[1]