国产测序仪之赛纳生物测序技术路线介绍

更多精彩内容,欢迎关注微信公众号“基因Share”

本文为付费文章,如需阅读全文,请点击该链接:https://mp.weixin.qq.com/s/RXkUGRqlaGbb04tzghqz9Q

​大家好,今天我将为大家简单介绍赛纳生物的测序技术路线——Fluorogenic degenerate+Error-correction code sequencing。

其中Fluorogenic degenerate Sequencing是指其测序化学方法,而ECC Sequencing则是指其后续利用简并序列数据进行编码纠错的方法。

本文的参考材料为2017年黄岩谊团队发表在《Nature Biotechnology》上的测序技术原理验证论文,点击阅读原文查看。

本文约5000字,主要内容分为4部分:

1.赛纳生物测序技术路线介绍

2.赛纳生物测序技术路线与其他主流SBS测序技术路线对比

3.赛纳生物测序仪商业化可选路径

4.测序仪器新玩家如何突破寡头的生态系统壁垒

首先我们先来明确一下赛纳生物的技术路线在测序技术分类树中的位置(上图红框部分)。

它以目前最常见、最主流的多拷贝碱基信号采集单元+边合成边测序技术(SBS)为主体,(这里再次强调:碱基信号采集时,信号采集基本单元是否为单拷贝,是目前区分NGS和单分子测序技术的主要标准),而目前SBS技术又主要细分为Cyclic Reversible Termination(CRT)和Controlled Nucleotide Addtion(CNA)两种,如上图所示赛纳生物采用的是SBS-CNA技术。

「何为 SBS-CRT 和 SBS-CNA技术?」

目前市场上2大主流NGS测序仪器生产商(MGI、illumina)采用的技术路线即为SBS-CRT技术,该技术最重要的特点是使用了“可逆末端终止子”(Reversible Terminators,下文简称“RTs”)技术作为测序聚合反应的原料。

何为RTs?我们可以参考下图,根据Block基团标记的位置不同(下图中红色标记部分),RTs可分为2大类:3'-blocked(A/B/C)和3'-unblocked(D/E),其中C类RTs即目前MGI和illumina使用的可逆终止子类型,D类为目前真迈生物使用的可逆终止子类型。

SBS-CRT技术在每个测序循环可直接加入4种RTs,且在Block基团的作用下每条待测分子只聚合延伸1个碱基,聚合反应完成后去除RTs上的Block基团,进入下一个测序反应循环。

而赛纳生物采用的则是SBS-CNA技术,从技术分类树中我们可以看到与赛纳生物“亲缘关系”最近的是454 Life Sciences、Ion Torrent和GenapSys(GS测序原理点击回顾),这三类测序平台的技术原理不再赘述,我们可以简单总结一下SBS-CNA技术的重要特点

1.该类技术每个测序循环可以加入1种(例如Ion Torrent、GenapSys)或2种(例如类今天的主角“赛纳生物”)或3种dNTP/dN4P作为聚合反应原料。

2.该技术不在dNTP/dN4P上添加任何Block基团,因此在每个测序循环中每条待测分子可能连续聚合延伸多个碱基。

3.该类技术完成聚合反应后,合成链为“纯天然状态”,而SBS-CRT技术,去除标记在碱基上的荧光基团后会残留“疤痕”(上图中蓝色标记部分),随着聚合反应的进行,“疤痕”在SBS-CRT合成链中积累并影响后续的聚合反应效率,加速Dephasing现象。(华大智造即为了消除“疤痕残留”而推出了其CoolMPS测序试剂,点击查看技术原理)

「SBS-CRT技术生成的聚合链为何是“纯天然状态”?」

这里我们还要将SBS-CRT技术继续分为2类,一类使用Natural Nucleotides(例如Ion Torrent),一类使用Dye-Based Nucleotides(赛纳生物)。第一类天然dNTP合成天然产物不难理解,第二类如何实现的呢?

如下图所示,赛纳生物将荧光(Tokyo Green,下文简称“TG”)直接标记在了磷酸基团上(这与PacBio使用的PhosphoLinked荧光标记技术类似)并命名为Terminal Phosphate-labeled Fluorogenic Nucleotides,简称“TPLFNs”。

聚合反应形成磷酸二酯键时,标记在磷酸分子末端的荧光基团随三磷酸酯一同脱落(下图中步骤2),后续被磷酸酶水解释放游离状态的TG(下图中步骤3),最后游离状态的TG被490nm波长的蓝激光激发,并释放513nm波长的绿色荧光。(这一系列操作跟454 Life sciences有多相似之处),综上可知,赛纳生物的测序技术也是基于对特定荧光信号的检测来实现,并将其技术路线的生化反应部分命名为“Fluorogenic degenerate sequencing”即“ 荧光发生简并测序化学”。

虽然SBS-CNA相比SBS-CRT技术,合成链无“疤痕”累积使得其可以获得相对较长的测序读长,但对于待测分子中的Homopolymer/Heteropolymer序列的读取精确度较低一直是SBS-CNA技术的“硬伤”,所以我们经常看到,一些计划采购SBS-CRT技术设备的采购方会在招标文件中明确写到“要求可精确读取>X 个的连续单个重复碱基(例如AAAAA...)”

例如,SBS-CNA技术检测待测分子中Homopolymer序列长度是基于该测序循环中采集到的碱基信息强度(Signal intensity)来确定的,但随着Homepolymer序列长度的增加,碱基信号强度与序列长度的相关性越来越差,加之如Ion Torrent这类检测反应体系pH值瞬态变化的技术路线,导致SBS-CNA技术在Homopolymer序列的检测上非常容易出现Indel类型的错误(针对此问题,GenapSys似乎给出了比较好的解决方案,具体情况可参照前期文章)

赛纳生物也对其测序化学对于Homopolymer/Heteropolymer序列读取精度对了测试(见下图),从其测试结果的测试结果来看,TG荧光信号强度与碱基数量相关性比较好。

综上可知,赛纳生物的测序技术路线与目前市面在售的Ion Torrent、GenapSys平台的技术路线相近,但也有很多不同之处(见下表)

「赛纳生物的测序技术路线有何不同?」

其中最大的差异点是赛纳生物的测序技术采用了Dual-base flowgram/Cycle,即每个测序循环加入2种dN4P。如下图所示,将A|T|C|G四种碱基,两两组合为3大组6小组Dual-base flowgram:[M(A/C)K(G/T)]、[R(A/G)Y(C/T)]、[W(A/T)S(C/G)]。

对同一条待测分子分别使用M/K、R/Y、W/S 3个Dual-base 组合进行聚合测序,具体步骤如下图所示,左侧“ ACTTGA...TCA ”示意“未知待测分子”,首先按照M(A/C)K(G/T)、M(A/C)、K(G/T)... ...的顺序加入对应的dN4P参与聚合反应,我们会得到一条与待测分子互补的简并序列信息(包含序列长度每个位置可能的2种碱基信息,例如AC),下图中的[K/K/M/M/M/K/K/K...M/K/K]即为Round1(M/K)获得的简并序列。随后将该合成链变性,添加新的测序引物后进行Round2(R/Y)的聚合测序,Round3(W/S)同理。因此,同一条待测分子的3条聚合链简并信息正交合并即可获得最终的序列信息(这种做法其实跟PacBio的CCS测序模式有很多相似之处)。

通过上述内容的介绍,我们也就不难理解赛纳生物的测序技术为何命名为“Fluorogenic degenerate+Error-correction code Sequencing”,它其实相当于先通过3次聚合反应将同一条待测分子编码为3条平行的Codeword (碱基简并序列),随后将3条Codeword进一步转化为二进制字符串:M/R/W分配为逻辑“1”,K/Y/S分配为逻辑“0”。最后使用Parity Check(奇偶校验)和Dynamics programming(动态规划)算法进行解码(Decoding),发现并矫正测序错误,获得准确度极高的测序结果(文篇受限,详细的错误矫正过程请参考论文内容)。

你可能感兴趣的:(国产测序仪之赛纳生物测序技术路线介绍)