单分子实时定量测序技术(SMRT)
写这篇笔记是因为可能以后的工作中会用到这个技术,而我之前并不了解它。所以这篇文献阅读笔记就算是对SMRT先有个大体的认识。这篇文章是2018年发表在Nucleic Acids Research杂志上的,题目是Single molecule real-time (SMRT) sequencing comes of age: applications and utilities for medical diagnostics。我并不打算对这篇文献的全文进行翻译,只挑其中的重点进行记录。如果有需要的同学可以自行下载这篇文章阅读。
摘要
短read的大量平行测序已经是临床诊断上的标准工具。然而,短Read技术有其局限性,比如GC bias, 比对到重复区域比较困难,对phasing等位基因也有一定的难度。长read单分子测序可以解决这些难题。而且,它可以提供更高精确度,并且检测天然DNA的表观修饰。第一个商业化的长read单分子测序平台是RS系统,它基于PacBio的单分子实时定量测序技术,之后又有了RSII和Sequel系统。这篇文献主要讲解SMRT测序是如何工作的,以及在生物各个领域的应用。
前言
现代医学基因组研究和诊断都高度依赖DNA测序技术。测序技术在各个领域都有着广泛的应用,从产前诊断,到新生儿筛查,再到诊断稀有疾病、肿瘤遗传学形式、遗传药理学检测和易患疾病的检测。
测序技术的历史可以分为三个阶段:一代、二代和三代。虽然早期的一代测序技术提供了开创的发现,但是测序技术最大的突破还是开始于“链终止”或者双脱氧技术。也就是今天我们说的Sanger测序技术。化学技术的进步,以及从凝胶电泳到毛细管电泳的转变,使得目前的Sanger电泳仪能够提供低通量,高达1 kb的高质量读取。Sanger测序仍作为孟德尔疾病的诊断金标准,和高通量测序结果的靶向验证。
21世纪的第一个十年,出现了多种DNA测序新方法。与第一代平台相比,这些新的第二代技术有更短的reads(最多几百bp),但有更高的通量(每次运行高达数十亿reads)。常见的基于荧光的短reads平台包括Illumina桥式扩增和测序的合成技术(如HiSeq和MiSeq),罗氏454焦测序仪,利用寡核苷酸连接和检测应用生物系统的测序(SOLiD)平台。还有的短reads平台包括Ion Torrent测序仪,它通过聚合过程中释放的氢离子导致的pH值差异来检测核苷酸,而不是光信号。尽管这些短reads平台已经可以让科学家在研究和临床中快速寻找一组疾病基因、外显子组,甚至整个人类基因组中的致病突变,但它们都有共同的缺陷和缺点。短read长度阻碍了对基因组复杂部分的reads分配,变异体的相位,重复区域的测序,并在从头组装中引入gaps和模糊区域。在扩增步骤中,文库制备和/或实际测序反应中也会引入嵌合reads、重复大小的variation,以及GC富集区/缺乏区的代表性不足(underrepresentation)。综上所述,这些缺点阻碍了诊断变异检测的应用。
第三代测序一般以单分子测序为特征,与基于克隆的第二代测序方法有本质区别。Helicos首次提供了基于荧光检测和合成测序的单分子测序的商业应用。尽管缺乏扩增偏差,比如GC-rich/poor区域的代表性不足,这种早期的单分子测序仍然产生较短的reads长度(通常为35 bp)。目前两项较新的技术,PacBio公司的单分子实时(SMRT)测序和Oxford Nanopore Technologies公司的纳米孔测序(nanopore),提供了单分子测序的优势,包括超长的read长度(>20 kb)。这些平台允许通过重复元素进行测序/组装,直接的variant phasing,甚至直接检测表观遗传修饰。测序也只需几个小时。虽然简单和低成本的nanopore技术正在流行,并可能代表未来的平台,SMRT测序目前更加成熟。
SMRT测序技术和原理
在SMRT测序之前,需要从双链DNA材料制备文库(图1A)。这通常需要5微克或更多的DNA,这可能会限制一些情况下的应用。文库的准备工作包括:简单地将Adapters连接到DNA分子上,从而将它们形成一个环状,称为SMRTbell的结构(图1B)。接下来,引物和聚合酶被退火结合到Adapter上,然后文库被加载到一个SMRT Cell上,这是一个包含150,000个纳米级观察小室(Zero Mode Waveguides,ZMWs)(RSII系统),在更新的Sequel平台上可达100万个小室。然后聚合酶结合的SMRTbells被加载到ZMWs中(图1C)。理想情况下,一个ZMW应该装载一个SMRTbell。对于一个good run,大约三分之一到一半的ZMWs含有一个SMRT cell(另外1/3的ZMW里是空的,还有1/3的ZMW里有一个以上的SMRTbell)。因此,对于RSII系统,SMRT cell通常产生约55000个reads,对于Sequel系统产生约365000个reads(表1)。实际的测序反应发生在每个ZMW内,其小直径仅允许最小的可用体积用于光检测。每个ZMW中的聚合酶结合荧光标记的核苷酸,发出荧光信号,并被摄像机实时记录下来(图1C)。这些信号被转换成称为连续的长序列,称为continuous long reads (CLR)、线性reads或聚合酶reads。对于一个短的插入文库,分子的圆形结构导致插入序列被CLR覆盖多次。原始链的每过一遍,称为subread。此外,来自同一分子的所有subread可以组合成一个高度精确的一致序列,称为环状一致序列(CCS)或reads-of-insert(ROI)(图1F-H,左侧)。这两个名词通常可以互换使用,但根据定义,CCS需要两个完整的序列,而ROI甚至可以从一个定义的部分开始。
由于对核苷酸加入的实时检测,在测序过程中可以记录聚合酶通过DNA链的速度。两个核苷酸加入之间的时间称为脉冲间隔的持续时间(IPD),它受DNA表观遗传变化的影响(图1 D和E)。在测序过程中由于聚合酶不是只hold一个核苷酸,而是hold大约十二个核苷酸,所以一个核苷酸表观遗传变化可以影响周围的核苷酸的结合率。这就产生了一个“fingerprint”,其中一些已经被鉴定出来了,比如6-mA,4-mC和(tet转换)5-mC。
除了更少但更长的read之外,PacBio数据与短read测序技术在几个方面存在差异。首先,reads不是一个固定的长度,而是一个reads长度的分布,它取决于每个聚合酶的活性。由于在文库准备和测序过程中都不需要扩增,因此几乎不存在GC偏倚。在与第二代平台相反,原始的PacBio的reads在错误类型上也不同(indels多于mismatches),而且数量更高(∼13-15%,表1),不过它们是随机分布在reads之间的。这种随机性使高度准确的(> 99%)来建立对同一分子进行快速多次测序(CCS reads),或通过结合来自相同的轨迹的不同的CLR(图1 G和H)。同时,扩散上样(diffusion loading)创建一个偏好于对短分子测序的run。这种loading偏差可以通过以下方法得到缓解:使用磁珠上样,使<1 kb的分子不能与ZMWs底部结合;选择size以去除短分子;以及/或在上样过程中加入聚乙二醇以增强大分子DNA分子的包装。在不久的将来,通过施加电场迫使带电分子进入ZMW,可以实现长度独立的上样。
为了解决这些本质上不同的reads,生物信息分析需要采用现有的工具并开发新的方法,例如比对和组装。许多PacBio特定工具和pipelines(包括多路分解,创建CCS reads,长扩增子分析,重头组装和表观遗传分析)中可用PacBio SMRT分析套件(开源的,www.pacb.com/support/softwaredownloads/),通过命令行或其SMRT Portal和SMRT链接图形用户界面进行分析。
SMRT在肿瘤研究中的应用
在癌症患者的治疗过程中,监测可能导致恶性细胞增殖优势的低频率突变是至关重要的。慢性粒细胞白血病(CML)是一种血液癌症,它是由9号染色体和22号染色体之间的易位引起的,导致BCR-ABL1融合蛋白的产生。CML患者通常使用酪氨酸激酶抑制剂(TKIs)抑制BCR-ABL1,但该治疗可诱导点突变,导致耐药。因此,筛选TKI治疗效果不好的CML患者的BCR-ABL1基因,并研究其突变情况是很重要的。在Cavelier等人的研究中,从BCR-ABL1的cDNA构建了一个约1.5 kb的扩增子。SMRT测序可以检测到1%水平的TKI耐药突变,与Sanger测序15-20%的检测阈值相比,显著降低(换句话说就是灵敏度提高了很多)。此外,有可能对共存突变进行相位分析,从而提供有关BCR-ABL1耐药突变克隆分布的新信息,并识别许多不同的剪接亚型。除了BCR-ABL1之外,还有其他一些适合SMRT测序的临床靶标基因(表2)。在一项肿瘤抑制基因TP53的loss-offunction突变研究中,SMRT测序显示,在急性髓细胞白血病(AML)和myelodysplatic综合征(MDS)患者中,拥有多个TP53突变,分布在不同的等位基因。未来,关于TP53亚克隆异质性的详细信息可以用来指导这些患者的治疗。在与癌症无关的其他类型的体细胞变异中也可以检测到微小的变异。Gudmunsson等人利用SMRT测序获得了导致角膜炎-鱼鳞病-耳聋综合征患者皮肤损伤修复的GJB2的体细胞嵌合突变的相位信息。
全基因组和转录组测序(后面将介绍)目前还只能用于研究,但在不久的将来将成为诊断的选择。已经进行了全基因组和转录组SMRT测序已被应用于乳腺癌细胞模型,以识别已知癌基因Her2的新基因融合事件(案例研究:www.pacb.com/wp-content/uploads/Case-Study-Scientists-deconstruct-cancer-complexitythrough-genome-and-transcriptome-analysis.pdf)。前列腺细胞模型的全转录组测序也发现了前列腺癌中新的RLN1和RLN2基因融合。重要的是,SMRT测序可以提供更精确的癌症基因结构,Kohli等人的一项研究证实了这一点。在这项研究中,在AR-V9中检测到一种以前认为只存在于AR-V7中的隐性外显子。AR-V7已被作为前列腺癌耐药的潜在生物标志物,其基础是实际上针对这两种亚型的敲除实验。因此,AR-V9实际上可能是耐药性的预测性生物标志物。
表观遗传学的全面变化也是癌症的一个标志。单分子实时亚硫酸氢盐测序(SMRTBS)能够定量并高度多路检测1.5 - 2kb扩增子的甲基化。这是对以前技术的改进,以前的技术只能针对典型的亚硫酸氢盐PCR大小(约为300-500 bp),并且有可能评估人类基因组中约91%的CpG岛。到目前为止,该方法已应用于多种肿瘤细胞系,包括急性髓系白血病、慢性髓系白血病、间变性大细胞淋巴瘤、浆细胞白血病、Burkitt淋巴瘤、B细胞淋巴瘤和多发性骨髓瘤。扩展到全基因组诊断,当对非扩增的材料进行全基因组SMRT测序时,理论上可以根据IPD比值确定所有核苷酸的表观遗传状态。
Future:全转录本和全基因组测序
传统上,RNA被转化为cDNA,然后片段化进行短reads测序(RNA-seq)。将RNA-seq检测到的外显子组装成单独的转录本非常困难,并容易出错。SMRT测序不需要片段化,称为Iso-Seq。这是一种理想的完整cDNA测序方法。Iso-Seq已经被用于全转录组测序,样品来自一个正常的中国成年男性的血液,20个不同正常的人体组织和器官的RNA库,三个lymphoblastoid转录组,以及前列腺癌和乳腺癌细胞模型(案例研究: www.pacb.com/wpcontent/uploads/Case-Study-Scientists-deconstruct-cancer-complexity-throughgenome-and-transcriptome-analysis.pdf)。与复杂的短reads比对和重组不同,这些论文证明长reads可以很容易地检测到人类基因中的剪接异构体(splicing
isoforms)。除了检测大量已知的亚型外,该方法还识别了以前短reads测序未检测到的新剪接形式和基因(93)。与基因组variant相位类似,对于转录的单核苷酸变异的基因位点,这些可以用来精确地确定哪个等位基因异构体被表达。虽然Iso-Seq在转录结构确定方面很特殊,但与第二代平台相比,其低通量目前限制了其用于表达分析。然而,随着成本的降低和通量的增加,无bias的PacBio表达和isoform检测将在不久的将来成为常规方法。
全基因组测序(WGS)已成为研究人类基因组变异的一种广泛使用的方法。然而,这些短reads的性质只提供SNP和小插入/删除以外有限的variation信息。SMRT测序极大地扩展了WGS的用途,允许更大的组装完整性(BioRxiv:https://doi.org/10.1101/067447),甚至接近参考基因组的contig大小。这些PacBio的WGS也显示出大量的变异被短reads的WGSs所遗漏。从人类个体的从头组装中还发现了另外一个值得注意的发现,即似乎存在若干个megabases的新序列,即目前人类参考基因组(GRCh38)中所没有的序列。例如,Shi等人在他们重新组装的个体基因组中发现了12.8 Mb的新序列,这相当于整个人类基因组(约为3 Gb)的0.4%以上。此时,我们还不知道这个新序列是否在所有人类个体中都存在(因此在GRCh38中缺失),或者它是否主要代表了仅在某些特定个体或群体中发现的序列变异。总的来说,这些WGS研究表明,长read测序可以识别大量短read平台遗漏的变异,包括那些与临床诊断相关的变异。
下面还有一些参考的文章和视频,讲的都挺好的,我就列了出来,供参考:
1.从零开始完整学习全基因组测序(WGS)数据分析:第1节 DNA测序技术
2.【三代】浅谈三代测序平台
3.https://youtu.be/_lD8JyAbwEo
4.陈巍学基因视频3:Pacific Biosciences Sequencing