本文部分图片来源网络或学术论文,文字部分来源网络与学术论文,仅供学习使用。
目录
【生信】第一二三代测序技术原理的理解
1、了解什么是DNA测序,什么是RNA测序
DNA测序
RNA测序
2、第一代测序技术的代表及其原理
2.1 SBC方法。(即化学法:降解原来的DNA链)
2.2 SBS方法(即Sanger法:合成新的DNA链)
3、第二代测序技术的代表和其原理
3.1. 基于单碱基添加的测序技术
(1)454焦磷酸测序
(2)lon Torrent/Proton
3.2. 新一代SBS技术(sequencing by synthesis边合成边测序)
(1) llumina测序
(2) BGISEQ-500(华大基因)
3.3. 连接测序技术SBL(SOLiD 技术)
4、第三代测序技术的代表和其原理
4.1. 单分子测序技术
(1) HeliScope
(2) PacBio
4.2. 纳米孔测序技术
4.3. 杂交测序技术
4.4. 显微测序
5、一二三代测序技术的比较
DNA测序(DNA sequencing)是指分析特定DNA片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤的(G)排列方式。DNA测序技术,又叫基因测序技术,即测定DNA序列的技术。人类基因组这部由A、T、G、C四个字母组成的卷帙浩繁的生命天书如同一座宝库,保藏着几千年来人们迫切想知道的秘密,DNA测序技术就好似“芝麻开门”这样的咒语,是我们打开宝库的金钥匙。DNA的序列分析是进一步研究和改造目的基因的基础,极大地推动了生物学和医学的研究和发现。
RNA测序(RNA Sequencing,RNA-Seq)即转录组测序技术,用来测定所有基因的表达量,就是用高通量测序技术进行测序分析,反映出mRNA,smallRNA,noncoding RNA等或者其中一些的表达水平。也被称为全转录物组鸟枪法测序(Whole Transcriptome Shotgun Sequencing,简称WTSS),是基于二代测序技术研究转录组学的方法,可以快速获取给定时刻的一个基因组中RNA的种类和数量。
随着二代测序技术(下一代测序技术)的发展,RNA-Seq技术应用范围变得更加广泛:
一是在RNA生物学领域,RNA-Seq可以应用于单细胞基因表达/蛋白质表达/RNA结构的分析。
二是空间转录组的概念也逐渐兴起。长读长/直接RNA-Seq技术以及更好的数据分析计算工具有助于生物学家们利用RNA-seq加深对RNA生物学的理解——例如转录何时何地开始;体内折叠和分子间作用如何影响RNA功能等问题。
(来源:Qu Liang, Li Su, Qiu Huaji. Applications of single-cell RNA sequencing in virology[J]. Hereditas(Beijing), 2020, 42(3): 269-277.)
SBC法的基本原理是以化学试剂来特异性地降解DNA分子。该方法的基本步骤为:纯化ssDNA模板,在其5'端磷酸基团作放射性标记后,分四组用碱基特异性不同的化学试剂处理,产生一系列在5'端有放射性标记、而另一端因降解终止位置而异的为G+A或G或C或C+T的长度不一的分子片段群体(如硫酸二甲酯对模板的降解会停止在所有G的位置上,产生末端为G的反应产物),最后将四个反应体系的产物并排在同一电泳起点进行 PAGE,经放射自显影后直接在胶片上依次读出DNA分子中碱基的排列顺序。SBC法的序列读长能达200~400 nt,但存在以下缺点:
①所用的化学试剂毒性较强,不方便也不安全。
②技术复杂,很难掌握,而且需要较多的DNA模板。
③成功率高,重复性不好,化学试剂的浓度和DNA模板的比例很难精确控制。
SBS 法是一种基于DNA合成反应的测序技术,又称Sanger法、酶法或双脱氧核苷酸末端终止法。
其原理是:由于ddNTP(4种带有荧光标记的A,C,G,T碱基)的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA的合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP,分别为:ddATP,ddCTP,ddGTP和ddTTP,然后利用凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列。
第一代的Sanger测序技术的优点是,分辨率高,质控环节多,污染低,结果直观可视,测序读长长,能达到800-1K bp,且测序用时短,只需要几十分钟即可完成一次测序,测序准确度高准确性高达99.999%,目前仍是测序的金标准;缺点是试剂昂贵,通量低、成本高,影响了其真正大规模的应用,很难以高可信度将7个A和8个A区分。
(普通碱基和不能继续合成序列的碱基)
感悟:Sanger测序法真的很聪明,虽然老师上课讲他是一位十年磨一剑的科学家,但是真的好佩服他巧夺天工的思路啊。
机器识别到的结果,某一个位点(位置1)确定为某个碱基(如A碱基)的概率,位置1概率最大的是A碱基,则认为位置1是A。
焦磷酸测序也是基于SBS法的基本原理,主要的特点是运用dNTP在DNA聚合反应时释放出的PPi(焦磷酸,分子组成为β和y磷酸),而不是去读取碱基本身。
它最初使用乳液PCR技术来构建用于测序所需的cDNA文库。
454的反应体系包括四种酶,DNA聚合酶、ATP硫酸化酶、荧光素酶和三磷酸腺苷双磷酸酶反应底物为 APS(腺苷酰硫酸)和荧光素。在每一轮测序反应中,分别加入四种dNTP (dTTP、dCTP、dATP 、dGTP)中的任何一种,若该dNTP在与模板配对,聚合酶就可以催化该dNTP整合到延伸的 DNA链中并释放PPi。
收集的PPi和底物APS化ATP硫酸化酶催化下转化成ATP。ATP促使荧光素酶介导荧光素向氧化荧光素转化,氧化荧光素发出与ATP量成正相关的可见光信号。
光信号由CCD电荷耦合器件测得到峰值。每个峰的高度(光信号)与反应中参入的核苷酸数目成正相关。ATP和未掺入的dNTP由磷酸腺苷双磷酸酶降解,淬灭光信号,重返反应体系。
这样就可以通过循环依次逐个加入dTTP,dCTP,dATP,dGTP,读取信号峰值而确定DNA序列。
(焦磷酸454测序原理示意图)
Ion Torrent与焦磷酸测序原理相类似,但检测信号来自反应产生的H+。
Ion Torrent没有采用焦磷酸信号检测,而采用半导体元件装置来检测测序反应过程中的H+浓度变化,因此又称为半导体测序技术。DNA合成反应中,dNTP释放出的PPi带有一个正电荷的氢离子,影响了微孔里的pH。因此用一个类似于pH计的灵敏装置,就可以得到相似于检测PPi的结果。
Ion Torrent方法虽然通量较低,读长仅有100~200 nt,不过由于原理简单、设计巧妙、体积很小、操作方便、性价比好,已成为桌面型测序仪的代表。尽管准确率还有待提高,但已广泛用于无创产前检测和病原检测等。
lllumina的循环SBS (cycle SBS)法即SBRT (Sequencing By Reversible Termin-ation,可逆终止法)是对SBS技术的革命性改进,迄今仍占全球测序仪市场的70%以上。SBRT的核心技术是DNA 合成的可逆性末端循环,,即3'-OH可逆性的修饰和去修饰。SBRT 的一大创新是采用了b-PCR而实现了双向测序,得到了PE (配对末端)序列。
SBRT的基本化学原理是:
1.构建基因文库(样品制备):由于illumina的技术不能测序太长的序列,因此需要将一个完整的待测基因打断成小片段,打断后会出现不平整的情况,用酶补平,序列末端是补平的之后在3’端使用酶加上特定接头(碱基A)。
加上A之后就可以利用互补配对的原则,加上adapter(就是测序中需要的一段特定的序列,有类似于引物的功能),这个adpater可以分成两个部分,一个部分是测序的时候需要用的引物序列,另一部分是建库扩增时候需要用的引物序列。
2.簇生成:将构建好的文库调整到合适的浓度加如flowcell(流动池),使得序列的一端与flowcell上面已经存在的短序列(正向链)通过化学键十分强健地相连。
首先进行第一轮扩增,将序列补成双链。加入NaOH强碱性溶液破坏DNA的双链,并洗脱。由于最开始的序列(正向链)是使用化学键连接的,所以不会被洗。
加入缓冲溶液后,序列的自由端会和旁边的adpater(引物)进行匹配。
进行一轮PCR,在PCR的过程中,序列是弯成桥状,所以叫桥式PCR,一轮桥式PCR可以使得序列扩增1倍。
如此循环下去,就会得到一个具有完全相同序列的簇,一般叫cluster。
经过多轮扩增之后复制出多个正向链和反向链。
3.测序:添加一个PCR引物primer ,加入特殊处理过的A,T,C,G四种碱基。特殊在于,碱基的氧核糖3号位加入了叠氮基团而不是常规的羟基,保证每次只能够在序列上添加1个碱基,且碱基部分加入了荧光基团,可以激发出不同的颜色。
测序过程中,每1轮测序保证只有1个碱基加入的当前测序链。这时候测序仪会发出激发光,并扫描荧光。因为一个cluster中所有的序列是一样的,所以理论上,这时候cluster中发出的荧光应该颜色一致。得到的一个测序扫描图片如下:
得到测序结果后加入试剂,将脱氧核糖3号位的—N2改变成—OH,然后切掉部分荧光基团,使其在下一轮反应中,不再发出荧光。
4.数据分析。不详述。
小结:循环SBS法的创新主要有两个方面:
①在化学上,通过碱基3'-OH的修饰和去修饰来实现末端循环(合成)测序,以及可切割的荧光标记来实现循环可逆的信号读取;
②在物理上,采用DNA模板的分子簇的“裸露”DNA合成来实现MPH测序,几乎无限扩大了通量,以及CCD光学检测系统来一次读取视野内所有模板的测序信号。这样就可以使同一模板 DNA分子继续下一轮的合成反应。
BGISEQ-500是华大基因在cssDNA (circle single-strand DNA,环化单链 DNA)和 DNB (DNA Nano-Ball纳米球)等多个创新基础上研制的桌面型测序仪。除了DNB与网格这一创新之外,CG的另一创新的概念是LFR(LongFragment Read,长片段读取序列),不仅大幅度延长了下机序列的读长,而且可以区别父源或母源的单体型序列。
原理是:将高度稀释的(最终含量为100 pg,接近15个细胞的DNA总量)大片段 DNA模板通过特制的小孔,这样,父源或母源DNA片段同在一个小孔里的几率很低,再将每个小孔里的下机序列分别组装,就能够到读长达几十kb的单体型读长。(文字来源杨焕明教授的《基因组学》书籍)
SBL是第一代非SBS的 MPH 测序技术。SBL 的独特之处是以DNA连接酶取代了DNA聚合酶,发挥了连接酶高保真度的优点。同时第一次采用了对每个碱基同时读取两次的策略,在理论上可以显著提高准确率。ABI基于SBL技术推出了SOLID产品。
SOLiD 的原理是:
(1)构建DNA文库。DNA模板被打断成适当大小的碎片,两端加上两种不同的通用接头,通过一端的接头将单个 ssDNA分子固定到微磁珠表面。
(2)油包水PCR反应。将包含PCR所有反应组分的水溶液注人高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴,这些小水滴就构成了独立的PCR扩增反应空间,每个小水滴理论上只含一个DNA模板和一个磁珠。SOLiD系统最大的优点是每张玻片能容纳更高密度的微珠,在同一系统中实现高通量。
(3)酶连接测序。Solid连接反应的底物是8碱基单链荧光探针混合物,连接反应中,这些探针按照碱基互补规则与单链DNA模板链配对,探针的5’末端分别标记CY5、Texas Red、CY3、6-FAM这4种颜色的荧光染料。
如果将8碱基探针表示为3’-XXYYYZZZ-5’, 第1和第2位碱基(XX)上的碱基是确定的,并根据种类的不同在6-8位(ZZZ)上加上了不同的荧光标记。当荧光探针能够与DNA模板链配对而连接上时,就会发出代表第1,2位碱基的荧光信号,在记录下荧光信号后,通过化学方法在第5和第6位碱基之间进行切割,这样就能移除荧光信号,以便进行下一个位置的测序。
通过这种测序方法,每次测序的位置都相差5位。即第一次是第1、2位,第二次是第6、7位……在测到末尾后,要将新合成的链变性,洗脱。接着用引物n-1进行第二轮测序。引物n-1与引物n的区别是,二者在与接头配对的位置上相差一个碱基,即通过引物n-1在引物n的基础上将测序位置往3’端移动一个碱基位置,因而就能测定第0、1位和第5、6位……第二轮测序完成,依此类推,至第五轮测序,最终可以完成所有位置的碱基测序,并且每个位置的碱基均被检测了两次。
Solid的独特测序法,两个碱基确定一个荧光信号,相当于一次能决定两个碱基。这种测序方法也称之为两碱基测序法。
单分子测序共同的特点是测序的模板DNA 分子无需扩增。目前“真正”的单分子测序仪的代表有 HeliScope和 PacBio 。
HeliScope的基本原理仍是SBS。其最重要的创新之处是采用了超敏感的荧光检测装置,不再依赖扩增得到的分子群体来增强信号强度,因而避免了制备“均一”群体分子在扩增中导入的人为误差,而且可以直接分析碱基的化学修饰。
HeliScope的操作流程是:
将dsDNA模板随机打断成小片段,然后变性成ssDNA,通过末端脱氧核苷酸转移酶。
在3'末端加上一段Poly(A)和荧光标记,与Flow Cell 表面固定的 Poly (T)引物进行杂交并精确定位,然后逐一加入引物、聚合酶和荧光标记的可逆终止基团进行同步合成反应。(与IIlumina的终止子不同,这个终止基团不是四色的,而只是单色的,也就是说所有终止基团都标有同一种染料。另外,HeliScops还采用了3-OH未封闭可逆终止基团,即通过荧光修饰基团的空间位阻效应来实现可逆终止)
一个循环中只加入一种可逆终止基团,只有与以位核甘段土个再选将浒行下一轮反应。通过掺人、检测和切除的反复循环、成像确定方位和强度之后,切除荧光标记,再洗涤,进行下一轮反应。通过掺入、检测和切除的反复循环,即可实时读取序列。
(来源:第三代测序基本原理 李明爽 赵 敏 (东北林业大学黑龙江哈尔滨150040))
PacBio 的特点是读长提高、GC偏差降低和甲基化 DNA 的直接测序。PacBio的下机读长达8Kb,现在已达30 kb。较长的读长,结合较小的GC偏左,对于基因组组装和结构变异的检测非常有用、而且对于高GC,或高 AT的基因组区段,特别是重复序列的分析。除了核苷酸序列数据外,PacBio还可提供酶反应动力学信息,据此可检测基因组中不同类型的甲基化位点。
其原理是:样品制备只需在随机打断的 DNA片段两端加上一个“发卡环”结构,然后加上与接头互补的测序引物及DNA聚合酶分子。PacBio有两种模式:一种是 CLR连续长读模式,适于读取长链DNA环,一次只能读取一遍。另一种称为CCR (环化一致读取模式),即聚合酶绕着DNA环作滚环复制,每复制一轮,相当于对同一段序列正反向测了两次,而且每一轮都是以同一个模板链进行复制,保证了序列的可靠性和准确率。
测序的核心部件是ZMW孔:即零模波导孔(Zero-Mode Waveguides),合成反应在ZMW中进行,sequel每个SMRT Cell上约有100万个ZMW(Sequel II 800万)。DNA链铆钉在即零模波导孔底部,和模板互补的dNTP被聚合酶抓住,短暂的结合,被激光照射,发出荧光,荧光转化为碱基信号;链继续延伸,结合的dNTP的荧光基团脱落,完成了一个小循环,反应反复进行。
pacbio测序的应用范围:(1)全基因组de novo测序。(2)全长转录本测序。(3)宏基因组测序。(4)结构变异检测。(5)表观遗传学。(6)目标区域测序。
纳米孔测序被认为是测序技术的发展方向,其主要特点是根据ssDNA(单链DNA)或RNA模板分子通过纳米孔引起“信号”变化进行实时测序。纳米孔测序的理论优势显而易见:高速度、高通量和低成本。
纳米孔测序的基本原理是当纳米孔灌满导电液时,两端加上一定的电压,分子模板通过纳米孔生成可测量的电流。当纳米孔的直径恰好只能容纳一个核苷酸时(约为1.5 nm),长达1000个碱基的单链模板(ssDNA或RNA)在电场作用下就会依次通过此纳米孔而引起电流强度的改变。由于四种碱基的差异所致的空间构象差别,纳米孔电流强度改变的程度不同,四种碱基分别产生特定的电流峰值。检测相应的电流峰值来判断对应的碱基,即可实现高速度的实时测序。
目前用于DNA测序的纳米孔可以大致分为物理纳米孔和生物纳米孔两大类。物理纳米孔主要用硅或其他无机材料制造,一般使用离子束或电子束在硅或其他材料薄膜表面制造出纳米尺度的小孔,再进一步对小孔的形状和大小进行修饰而成。生物纳米孔类似于真核细胞核膜上的核孔,实质上是遍布在纳米芯片上的特异蛋白质。
SBH (Sequencing By Hybridization,杂交测序)技术,基本原理是:通过精确控制杂交过程中的变性温度,以是否能够杂交来区别模板DNA 与已知探针之间一个核苷酸的差异。后来发展的荧光标记和高密度芯片技术使这一技术实现了高精度和高通量,不仅已成为SNP分型的重要技术之一,也使人们对SBH寄予很高的期望。最简单的设想就是将待测的模板分子作为杂交探针,与芯片上阵列的高密度寡核苷酸杂交,然后根据杂交信号来推导出模板的序列。近几年杂交测序技术主要有三个方面的发展。
一是Shotgun-SBH(霰弹杂交测序)法采用的是最有趣的一种方法——逆向杂交。先将模板DNA分子打成200 bp左右的碎片,经扩增后固定在测序芯片上,用45个寡核苷酸的探针群去杂交并推导出单个模板的序列,最后将所有片段序列组装成完整的DNA序列。尽管该方法显示了SBH在价格、通量和速度上的优势,但也表明它离实际应用还有很大距离。
二是NabSys是一种将纳米孔和SBH结合的技术——杂交辅助的纳米孔测序(HANS)。将模板DNA打断成约100Kb长的片段,与特定的六聚体探针杂交,然后将杂交的DNA链通过纳米孔,通过检测电导率的变化来确定杂交发生的位置和六聚体探针的种类。综合分析所有可能的六聚体探针的结合位置及其序列,即可得出遍基因组探针图。NabSys已于 2015年停业。
三是GnuBio技术,基本原理与NabSys相似。其主要创新点是合成反应在纳米液滴中进行实现了微流控。将一个末端标记了荧光的 DNA模板、一个荧光标记的六聚体探针与聚合酶、dNTP一起加人液滴之中。当六聚体探针与DNA模板互补杂交时,即启动聚合酶延伸反应至DNA链末端,置换原有的淬灭探针来激活标记在DNA末端的荧光标记而发光,然后检测六聚体探针上的信号与DNA分子末端的信号,从而确定DNA模板上发生杂交部分的序列。最终序列由杂交成功的探针集组装而成。
根据DNA 碱基结构上的不同用电子显微镜来观察、区别,是最直接的物理测序思路。但显微镜技术的发展仍停留在尝试的阶段,有一些新兴技术的发展方向。如Elextron Optica (单色像差校正双光束低能量电子显微镜测序)技术可以直接读取碱基序列,无需标记或任何修饰,也省去了样本制备的环节。此外,较低的能量不会对核酸分子产生放射性损伤,错误率较低。
如Halcyon Molecular电镜测序技术的核心思想是,用碱基特异性的重金属原子造影剂标记核苷酸,直接通过透射电子显微镜读取长达150 Kb的 DNA序列。
Lightspeed Genomics技术利用亚像素光学技术,研制一种名为"Synthetic Aperture Optics”的具很高分辨率的光学设备,据说可提高通量,而试剂用量很少。
Reveo技术,是一种基于原子力显微镜的测序仪,称为OmniMoRA。基本原理是将DNA分子拉直固定在芯片表面,用一系列“arrays of nano-knife edge probes(纳米刀探针)”测定单个碱基的振动特性。
ZS Genetics (ZSG)系统采用透射电子显微镜。为使 DNA分子可见,需要对其碱基进行ZSG标记(即碘化、溴化等处理),经过5轮PCR,然后直接观察单个碱基。预计读长可达50 kb。
第X代 |
公司 |
平台名称 |
测序方法 |
检测方法 |
大约读长(碱基数) |
优点 |
相对局限性 |
第一代 |
ABI/生命技术公司 |
3130xL- 3730xL |
桑格-毛细管电泳测序法 |
荧光/光学 |
600-1000 |
高读长,准确度一次性达标率高,能很好处理重复序列和多聚序列 |
通量低;样品制备成本高,使之难以做大量的平行测序 |
第一代 |
贝克曼 |
GeXP 遗传分析 0系统 |
桑格-毛细管电泳测序法 |
荧光/光学 |
600-1000 |
高读长,准确度一次性达标率高,能很好处理重复序列和多聚序列;易小型化 |
通量低;单个样品的制备成本相对较高 |
第二代 |
Roche/454 |
基因组 测序仪 FLX系统 |
焦磷酸测序法 |
光学 |
230-400 |
在第二代中最高读长;比第一代的测序通量大 |
样品制备较难;难于处理重复和同种碱基多聚区域;试剂冲洗带来错误累积;仪器昂贵 |
第二代 |
Illumina |
HiSeq2000, HiSeq2500 /MiSeq |
可逆链终止物和合成测序法 |
荧光/光学 |
2x150 |
很高测序通量 |
仪器昂贵;用于数据删节和分析的费用很高 |
第二代 |
ABI/Solid |
5500xlSolid 系统 |
连接测序法 |
荧光/光学 |
25-35 |
很高测序通量;在广为接受的几种第二代平台中,所要拼接出人类基因组的试剂成本最低 |
测序运行时间长;读长短,造成成本高,数据分析困难和基因组拼接困难;仪器昂贵 |
第二代 |
赫利克斯 |
Heliscope |
单分子合成测序法 |
荧光/光学 |
25-30 |
高通量;在第二代中属于单分子性质的测序技术 |
读长短,推高了测序成本,降低了基因组拼接的质量;仪器非常昂贵 |
第三代 |
太平洋生物科学公司 |
PacBio RS |
实时单分子DNA测序 |
荧光/光学 |
~1000 |
高平均读长,比第一代的测序时间降低;不需要扩增;最长单个读长接近3000碱基 |
并不能高效地将DNA聚合酶加到测序阵列中;准确性一次性达标的机会低(81-83%);DNA聚合酶在阵列中降解;总体上每个碱基测序成本高(仪器昂贵); |
第三代 |
全基因组学公司 |
GeXP 遗传分 析系统 |
复合探针锚杂交和连接技术 |
荧光/光学 |
10 |
在第三代中通量最高;在所有测序技术中,用于拼接一个人基因组的试剂成本最低;每个测序步骤独立,使错误的累积变得最低 |
低读长; 模板制备妨碍长重复序列区域测序;样品制备费事;尚无商业化供应的仪器 |
第三代 |
Ion Torrent/生命技术公司 |
个人基因组 测序仪(PGM) |
合成测序法 |
以离子敏感场效应晶体管检测pH值变化 |
100-200 |
对核酸碱基的掺入可直接测定;在自然条件下进行DNA合成(不需要使用修饰过的碱基) |
一步步的洗脱过程可导致错误累积;阅读高重复和同种多聚序列时有潜在困难; |
第三代 |
牛津纳米孔公司 |
gridION |
纳米孔外切酶测序 |
电流 |
尚未定量 |
有潜力达到高读长;可以成本生产纳米孔;无需荧光标记或光学手段 |
切断的核苷酸可能被读错方向;难于生产出带多重平行孔的装置 |