日前 Nature Reviews Genetics 刊出了一篇综述,盘点近十年来测序技术的发展。从最初的“高山仰止”到如今走进寻常百姓家,正是测序公司和科研人员们孜孜不倦的努力,推动了行业不断向前发展,而其中的佼佼者,也在特定的历史时期留下了属于自己的印记。
自2003年人类基因组计划完成之后,测序技术发展迅猛,多种测序原理产品在市场上出现,接受市场的检验。测序读长不断加长、通量不断提升、时间不断缩短,促进测序成本快速下降,大量基因组序列被破译,测序物种数量和物种多样性与日俱增。
“基因科技造福人类。”从时间的纵轴上看,NGS测序仪的出现具有非凡意义,测序技术的发展自此势如破竹、高歌猛进。最初个人全基因组测序费用高达令人咋舌的1亿美金,发展到2008年,一个100Gb数据量的人基因组只需几十万美金,降幅达99%。到今天,一个100Gb数据量的人基因组只需要1000美金左右,仅相当于1亿美金的五万分之一!
一、NGS技术发展史在测序技术发展初期,就像是春秋战国时期的百家争鸣,各种idea都会受热捧,大家都很有热情去尝试新技术。比较有代表性的是以下几种:
第一台NGS测序仪是在2005年出现的,454公司推出第一个基于焦磷酸测序原理的高通量基因组测序系统——Genome Sequencer 20 System,这是核酸测序技术发展史上里程碑式的事件。随后,罗氏公司以1.55亿美元收购了454公司,并在2006年推出了更新的GS FLX测序系统。
随着其他测序技术的出现,454技术读长长(最长可以到1000bp),且准确度高,在二代测序中属于佼佼者,却因其成本较高,市场接受度不高,导致2013年罗氏公司表示,它将在未来3年内关闭454生命科学测序业务,并裁掉约100名员工。今年年中其位于美国康涅狄格州布兰福德的454工厂也将最终关闭。
2006年,Solexa公司也推出了自己的NGS系统——Genome Analyzer,简称GA。这套基于DNA簇(DNA cluster)、桥式PCR(Bridge PCR)和可逆阻断(Reversible terminator)等核心技术的系统具有高通量、低错误率、低成本、应用范围广等优点。2007年,Illumina公司以6亿美元的高价收购了Solexa,使GA得以商品化。
GA最早期的版本一次运行可获得1Gb的数据,因此也有1Gb Analyzer的含义,而最新的HiSeqX10平台则能够在3天的运行中获得16Tb以上的数据,读取的碱基长度达到150bp。
在上述两家公司之前,测序市场的垄断地位一直由美国应用生物系统公司(ABI)牢牢掌控。自公司的共同创始人Leroy Hood在上世纪80年代中期设计了第一台自动荧光测序仪之后,生命科学研究就摆脱了手工测序的繁琐和辛劳,骄傲地迈入自动测序的新时代。
但是,2005年454推出了FLX焦磷酸测序平台,ABI的领先地位被撼动,于是,后者迅速收购了一家测序公司——Agencourt Personal Genomics,并在2007年底推出了SOLiD 新一代测序平台。从SOLiD到SOLiD 3,短短一年多时间,它已经上演了一出精彩的“一级方程式赛车”。到SOLiD 5平台的测序通量已达到30Gb/天,成本低于60美元/Gb,准确率高达99.99%。并且由于SOLiD系统采用的不是PCR反应进行DNA合成与测序,因此对于高GC含量的样本,SOLiD系统具有非常大的优势。
可以说,测序市场在2010年前后形成了454、Solexa和SOLiD三足鼎立的局面。但是后续SOLiD系统通量难以提升,且读长短、成本高,现已退出了历史舞台。
后续还出现了Complete Genomics公司的Black Bird测序仪、Life Technologies 公司的Ion Proton(如今被Thermo Fisher收购)系列测序仪等,不过都由于自身的短板导致市场份额逐渐缩小。
直至2013年3月18日,华大基因宣布以1.176亿美元完成对美国纳斯达克上市公司Complete Genomics的全额收购。历经两年的技术改进和研发,在第十届国际基因组学大会(ICG-10)上,华大基因正式发布了自主研发的新型桌面化测序系统BGISEQ-500。
BGISEQ-500具备精准、简易、快速、灵活、经济等特点,单项应用最快可在24小时内完成,针对个人基因组检测精度可达99.99%,充分满足科研和临床领域的不同测序需求,在测序准确度、一致性等关键指标上达到甚至超过成熟商业测序系统。
在研发过程中,华大基因不断突破技术壁垒,持续获得关键技术和核心应用的自主知识产权,包括DNA纳米球文库构建技术、Pattern Array模版阵列技术、cPAS测序技术等一系列全球顶尖的测序原理和配套软硬件,为BGISEQ-500提供最出色的测序性能和最坚实的技术支持。基于BGISEQ-500的应用也已经逐步推出,首个面世的RNA-Seq产品因其优异的准确性、重复性和一致性,获得科研用户的一致好评和热忱推荐。
为了解决大多数科研用户日益增长的测序需求与现有的测序瓶颈之间的矛盾,华大基因基于BGISEQ-500提出了测序应用整体解决方案BGISEQ-500n。其针对不同的测序应用需求,通过对n台BGISEQ-500的优化配置,构建灵活的大、中、小型测序平台,力求为广大科研工作者提供最高效、最便捷的一体化测序解决方案。BGISEQ-500n不仅具备BGISEQ-500的样品处理、样品检测、测序结果分析等一系列软硬件工具,还将整合包括实验室构建、平台运行测试、样本数据库构建、数据分析、人员培训等一系列标准化的配套应用模板。此外,BGISEQ-500n还将提供强大的多组学测序网络,并连通生物信息分析云平台BGI Online,提供灵活的存储和计算解决方案,支持流畅的异地化部署。
二、NGS原理特点(短读长测序)模板需要放大信号,即我们通常说的建库,需要把待测序的核酸扩增,如下图所示,NGS技术模板扩增主要有以下四种策略:
1.乳液PCR【454(Roche),SOLiD(Thermo Fisher),GeneReader(Qiagen),Ion Torrent(Thermo Fisher)】
在乳液PCR,片段DNA模板与dNTP、引物和DNA聚合酶包在一个油滴中。在凝胶中进行PCR扩增,最后得到成千上万份相同的DNA序列。
2.固相桥式扩增【Illumina】
片段DNA分散到Flowcell上,与固定的引物结合,进行桥式扩增,从而形成很多DNA簇。
3.固相的模板移位【SOLiD Wildfire(Thermo Fisher)】
片段DNA与固定的引物结合,PCR扩增延长引物得到第二天链。然后部分变性,使得自由端可以与邻近的引物结合,再次扩增,起到放大的效果。
4.DNA纳米球【Complete Genomics】
片段DNA加两次接头,然后进行滚环扩增,形成一个DNA纳米球,最后纳米球通过杂交的原理固定在阵列的flow cell。
测序原理简单说,SBL测序就是用1-2个已知碱基标记的探针与目标DNA杂交,然后再与下一个标记的探针连接,检测标记探针的信号,从而知道目标DNA的序列信息。
SOLiD的全称是Sequencing by Oligo Ligation Detection,即寡聚物连接检测测序,其基本原理是通过荧光标记的8碱基单链DNA探针与模板配对连接,发出不同的荧光信号,从而读取目标序列的碱基排列顺序。
CG的测序原理叫组合探针锚定连接(cPAL),利用四种不同颜色标记的探针去读取接头附近的碱基,探针能够与DNA片段结合,T4 DNA连接酶连接探针和anchor,使探针稳定结合,从该探针携带的荧光基团的颜色为判断出该位置是何种碱基。当一轮反应结束后,去除anchor-prob产物,重复上一轮步骤测序下一个碱基。
2.基于合成的测序(SBS)SBS这个术语是用来描述依赖DNA聚合酶来测序的方法,但是SBS方法又可以分为循环可逆终止(CRT)和单碱基添加(SNA)。
虽然Qiagen公司的GeneReader也是采用CRT的测序原理,但我们熟知的还是Illumina的CRT测序原理。四种dNTP被不同的荧光标记,每个循环就结合一个互补的碱基,拍四次照,四个照片重合,出现哪种荧光标记就可以确定是哪个碱基。反应之后荧光基团会被切除,这样就露出了3’羟基基团(-OH),可以与下一个碱基连接。
另一种SBS测序方法叫单碱基添加(SNA),454焦磷酸测序和Ion Torrent都属于这种测序原理。SNA的方法依赖单个信号来标记每个测序的碱基。因为它不能终止反应,所以每次只能允许进一种碱基来防止继续延长。这样要是单碱基重复就会继续读取。
454是第一台NGS测序仪,它的SNA系统是含有特定引物的珠子连同酶混合物一起进入PicoTiterPlate,当有一个碱基连入DNA链,就会产生一个生物荧光信号,通过相机捕获。
Ion Torrent是第一台不用光学传感的测序仪。它是通过测序过程中产生的氢离子,使用CMOS-ISFET检测器来检测PH值来识别不同碱基。所以要是有连续碱基重复的情况下,准确度不高。
三、长序列读取技术读长短一直是二代测序的软肋,对于高度杂合的基因组、高度重复序列、高GC的区域、拷贝数变异、大的结构变异等问题,二代测序都解决不了。读长长也有利于转录组的研究,可以直接获得全长转录组。
目前市场上出现的长读长技术主要有两类:一是单分子实时测序技术,主要有两家公司:Pacific BioScience和Oxford Nanopore;二是标记大片段,通过短读长数据拼接形成大片段,CG公司早在2012年就发表了这个技术,但后续推出商业化试剂盒的是Illumina和10X Genomics。
单分子长片段测序2013年英国Oxford Nanopore Technologies公司宣布将启动MinION测序仪的试用计划,参与者只需支付1000美元的押金以及运费,就可以收到一台MinION测序仪,包括测序USB装置、流动槽和软件。测序仪很小,是真正的掌上测序仪。但两年多了,市面上还没有看到这个测序仪的大规模使用,可能在性能方面没有达到预期。
目前开发者利用该测序仪体积小、建库快、实时产生数据等特点获得资本投资。2014年埃博拉病毒爆发,MinION测序仪以最快的速度破译病毒序列,这可能是目前为止它最突出的应用,希望未来会有新的突破。
目前比较受市场热捧的三代测序是PacBio的RSⅡ。该测序技术不需要对目标DNA进行PCR扩增,而是直接在目标片段两端加上两个发卡结构的接头,形成一个连续的环状。单个DNA片段分布到Pacific Biosciences公司发明的一种直径只有几十纳米的纳米孔【zero-mode waveguides (ZMWs)】,单分子的DNA聚合酶被固定在这个孔内。A、T、C、G这四种荧光标记的脱氧核苷酸非常快速地从外面进入孔内又出去,当某一种荧光标记的脱氧核苷酸被掺入到DNA链时,这种特定颜色的荧光会持续一小段时间,直到新的化学键形成、荧光基团被DNA聚合酶切除为止。共聚焦显微镜实时、快速地对集成在板上的无数的纳米小孔同时进行记录。
人工合成长片段测序另外一种长片段测序技术就是先把大片段DNA(>10Kb)用接头标记,然后建小片段文库得到短序列,根据接头信息拼接还原大片段。
Illumina采用384孔板对大片段进行物理分离,使得每个孔里尽量只有一条DNA片段,每个孔分别标记,单独建小片段文库,最后所有文库混合形成一个文库,在HiSeq测序平台上测序。
10X Genomics则采用了乳液PCR的方法在单管里面操作,大片段DNA与凝胶珠子、引物、酶、dNTP等分布在一个个油滴里面,形成一种物理分隔。每个油滴里面有一种标签,形成一个小片段文库,最后加热使凝胶溶解、解除油滴封闭,混合产物在HiSeq测序平台上测序。这个平台的好处是采用了14个碱基的标签,油包水的方法可以使标签使用率最大化,且减少耗材和人工操作,更加利于推广。
单分子实时测序VS合成大片段测序 四、与NGS存在竞争或互补关系的技术测序不是万能的,不能解决所有问题。除了NGS之外,下面这4种技术各有优点,可以弥补它的不足之处。
1. DNA芯片基因芯片早在上世纪80年代就在生命科学领域应用了。利用碱基互补原理,以单链DNA(ssDNA)作为探针,与目标DNA杂交,检测荧光信号来确定目标分子的强度。应用很广泛,SNP分型芯片可以用于疾病筛查(如心血管疾病、癌症、病原菌)和GWAS分析;低分辨度的芯片还可以做结构变异、拷贝数变异、蛋白与DNA互作研究。表达谱芯片可以检测已知基因的表达量。
因芯片具有可重复性高、价格低、操作简单等特性,目前在基因组研究中应用广泛。表达谱芯片有可能被RNA-seq取代。
2. NanoString美国NanoString 是继生物芯片技术和新一代测序技术(NGS)后,在基因表达谱分析上展示出强大应用前景的新技术公司。nCounter Analysis System是直接对基因表达进行多重计数的全新数字式技术,利用分子条形码和单分子成像来检测及统计每一个反应体系中特定转录本的数量,表现出极高的灵敏度、精确度和重复性。该技术上无需使用酶,无需反转录,也不需要做PCR 扩增,可进一步减少误差的产生,因此nCounter 在表达谱定量分析领域具有无可比拟的优势。
3. qPCR实时荧光qPCR早在上世纪90年代就在临床和科研领域广泛推崇使用了。因它具有高灵敏性和特异性,被美国FDA承认并推崇,是当今世界用于临床的最先进核酸分子诊断技术。
4. Optical MappingOptical Mapping技术是基于限制性内切酶图谱的技术,可以称之为光学化或数字化酶切指纹图谱技术。将DNA固定在界面上,在界面表面进行酶切反应,然后将DNA进行荧光染色,并在显微镜下观测。每条DNA被酶切后的片段大小及顺序形成单分子限制性酶切指纹。软件利用酶切指纹组装成最终的指纹图谱。
该技术主要是用来辅助基因组序列组装:辅助延伸scaffold,使基因组图谱更精细;发现染色体的倒置、插入、缺失和置换;识别并纠正错误组装序列;检测gap大小及位置。
美国BioNano 公司开发的Irys系统在它的基础上进行改进,只是在DNA单链上切口(不切断),加入荧光基团,然后让整条DNA链通过纳米通道。他们的理想是最终真实展现染色体的情况,最新研发结果是可以让酵母12M的染色体完整展现。
五、结语虽然目前测序技术处于快速发展的阶段,新技术层出不穷,周期不断压缩、成本逐年下降,使得临床医生可以把基因组数据转化成具有临床指导意义的结果。但我们还面临新的挑战,如果想在临床上进一步扩大应用,那么时间是一个问题。因为目前测序技术从样品准备到数据分析完成还是需要几周的时间,但是对于恶性肿瘤的诊断和一些疑难杂症的诊断,可能只有几天的时间。
另一个挑战就是数据存储和数据分析。2013年有研究者推测,全球每年会新增15PB的数据。这么庞大的数据需要有创新性的存储系统和生物信息分析解决方法。
此外,消费者会对遗传检测结果作何反应?假阴性和假阳性结果对患者会带来什么影响?这些基因组数据的使用效果和伦理问题,是每一个业内人士都需要思考的