三代测序技术简介

现在的第三代测序技术中,主要以PacBio公司的SMRT和Oxford的Nanopore技术为主。与前面的两代技术比较,第三代最主要的特点在于单分子测序,就是测序的过程无需进行PCR扩增了。

1. PacBio SMRT

PacBio SMRT技术的理念在于边合成边测序,并已SMRT芯片为测序载体。原理如下:DNA聚合酶和模板结合,4色荧光标记 4 种碱基(即是dNTP),在碱基配对阶段,不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。

这个DNA聚合酶是关键,其活性的保持是实现超长读长的关键之一,主要受到激光对其造成的损伤。SMRT技术的另外一个关键是如何将反应信号和背景信号区别开来。他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的很多密集小孔。小孔直径有考究,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板而泄露出来,从而与周围小孔相互干扰。如果孔径小于波长,能量不会辐射到周围,而是保持直线状态(光衍射的原理),从而可起保护作用。同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔, 即 ZMW(零模波导孔),外径 100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不能穿透小孔进入上方溶液区,能量被限制在一个小范围(体积20X 10-21 L)里,正好足够覆盖需要检测的部分,使得信号仅来自这个小反应区域,孔外过多游离核苷酸单体依然留在黑暗中,从而实现将背景降到最低。
PacBio SMRT测序原理
另外,可以通过检测相邻两个碱基之间的测序时间,来检测一些碱基修饰情况。即如果碱基存在修饰,则通过聚合酶时的速度会减慢,相邻两峰之间的距离增大,可以通过这个来之间检测甲基化等信息。

SMRT技术的测序速度很快,每秒约10个dNTP。但是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,但好在它的出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,因而可以通过多次测序来进行有效的纠错。
下面我们再来讲讲PacBio的HiFi(High fidelity reads)模式,相对于CLR(continuous long-read)模式,后者具有更高的准确率和PacBio HiFi模式。

*PacBio HiFi模式

HiFi reads是PacBio公司基于Sequel II平台推出的CCS(Circular Consensus Sequencing)测序模式产生的兼具长读长和高准确度的测序序列,又称CCS reads。在这种测序模式下,因酶读长(平均90-100 Kb)远大于插入片段长度(10-20 Kb),测序时,聚合酶会绕着DNA模板进行环形比对测序,使得插入片段被多次测序,产生多条subreads,来源于同一条模板链的subreads经过一致性校正,最终得到高准确度的HiFi reads,用于基因组组装。

CCS测序产生高质量HiFi reads

HiFi组装优势

  • 组装周期短
    PacBio在测序过程中可能会存在10%左右的错误率,在用subreads(CLR模式)做组装时,需要通过算法对测序数据进行自我纠错,提高组装基因组的准确度。相比较而言,用于组装的CCS reads是经过纠错的一致性序列,单孔内CCS准确度高达99%以上,组装时不需要进行自我纠错,节约了纠错所需时间,使得组装周期大大缩短:1天就可以完成普通基因组的组装,对于一些超大基因组,6天即可完成组装。

  • 准确度高
    PacBio原始下机数据为polymerase reads,质控后得到subreads,随后会从聚合酶绕插入片段3圈及以上产生的subreads中调取高质量的CCS reads,用于基因组组装。CCS reads本身经过孔内纠错,具有与二代Illunima短reads相当的准确度,有效保证了组装基因组的高准确度。以人基因组为例,与其他测序模式相比,HiFi reads组装基因组的准确度远高于其他组装版本。


    不同测序模式下组装基因组的质量
  • 连续性好

    除了组装周期短、序列准确度高,基于HiFi reads组装的基因组也具有较好的连续性。研究人员基于30X HiFi reads对人基因组进行了重新组装,Contig N50达到了77 Mb,组装结果赶超纳米孔测序
    人CHM13细胞系基因组组装结果

较高的准确度使得低深度(25X)的HiFi reads即可满足基因组组装需求,结合一些特异性针对HiFi reads开发的组装软件,能够快速完成一些高杂合或超大型基因组的组装。此外,由于用于组装的数据量较小,且不需要进行三代数据自纠错,使得组装过程中所需的计算资源相对传统CLR模式更少,节约了组装成本。

PacBio SMRT存在的问题
基于之前的测序经验,PacBio SMRT技术,包括不同的模式,对于昆虫和虾蟹这些节肢动物会出现断测现象,就是提早终止测序,导致数据量不足。原因是因为这些节肢动物的基因组的特异性,组蛋白等结合到基因组的蛋白不能很稳定地去除,而基因组序列中如果还结合有其他蛋白,则可能会影响DNA聚合酶的反应,导致碱基无法结合到模板上从而提前终止。

2. Nanopore

Oxford Nanopore Technologies公司所开发的纳米单分子测序技术与以往的测序技术皆不同,它是基于电信号而不是光信号的测序技术。该技术的关键之一是,他们设计了一种特殊的纳米孔,孔内共价结合有分子接头。当DNA碱基通过纳米孔时,它们使电荷发生变化,从而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的),灵敏的电子设备检测到这些变化从而鉴定所通过的碱基。纳米孔测序(和其他第三代测序技术)有望解决目前测序平台的不足,纳米孔测序的主要特点是:读长很长,大约在几十kb,甚至100 kb;错误率目前介于1%至4%,且是随机错误,而不是聚集在读取的两端;数据可实时读取;通量很高(30x人类基因组有望在一天内完成);起始DNA在测序过程中不被破坏;以及样品制备简单又便宜。理论上,它也能直接测序RNA。纳米孔单分子测序计算还有另一大特点,它能够直接读取出甲基化的胞嘧啶,而不必像传统方法那样对基因组进行bisulfite处理。这对于在基因组水平直接研究表观遗传相关现象有极大的帮助。并且改方法的测序准确性可达99.8%,而且一旦发现测序错误也能较容易地进行纠正。但目前似乎还没有应用该技术的相关报道。
Nanopore

参考:

  1. 三代基因组测序技术原理简介
  2. HiFi reads,基因组组装新趋势

你可能感兴趣的:(三代测序技术简介)