【生信知识】---MinION纳米孔测序技术详解

前言:第三代测序技术正在逐渐成熟。目前的测序读长可达150kbp左右。Nanopore公司的MinION测序仪,优势在于测序读长长,测序速度快,设备小巧而广受欢迎。

1.MinION测序技术简介
MinION纳米孔测序仪的核心是一个有2,048个纳米孔,分成512组,由专用集成电路控制的flow cell。测序原理见图1a所示:首先,将双分子DNA连接lead adaptor(蓝色),hairpin adaptor(红色)和trailing adaptor(棕色);当测序开始,lead adaptor带领测序分子进入由酶控制的纳米孔,lead adaptor后是template read(即待测序的DNA分子)通过纳米孔,hairpin adaptor的作用是DNA双链测序的保证,然后complement read(待测序分子的互补链)通过纳米孔,最后是trailing adaptor通过。在上述测序方法中,template read和complement read依次通过纳米孔,利用pairwise alignment,它们组合成2D read;而在另外一种测序方法中,不使用hairpin adaptor,只测序template read,最终形成1D read。后一种测序方法通量更高,但是测序准确性低于2D read。每个接头序列(adaptor)通过纳米孔引起的电流变化不同(图1c),这种差别可以用来做碱基识别。

图1 MinION的2D read数据产生

2.MinION测序技术应用
1)检测碱基修饰
纳米孔测序技术可以检测四种胞嘧啶(cytosine)碱基修饰,分别为5-methycytosine,5-hydroxymethycytosine,5-formylcytosine和5-carboxylcytosine。检测准确率为92%-98%。
2)实时测序监控
对于临床实践,实时获取和分析DNA/RNA序列是一件很重要的事情。对于传统的NGS测序,做到这一点非常不易。但对于MinION,实现起来相对容易。这不仅是因为MinION体积小,易操作等,更是因为在测序过程中单分子穿过纳米孔,其电流变化可以检测并识别,这种设计允许用户在测序过程中根据实时结果做出一些判断。实时测序监控对于MinION针对特定目标序列测序有重要的应用(图2):当DNA片段通过纳米孔时,如果电流变化呈现与目标序列一样的趋势,则通过纳米孔。如果DNA片段与目标序列呈现不同的电流变化趋势,则不能通过纳米孔。通过这样的方式,实现目标序列的富集,从而显著减少测序时间,对于在野外和即时诊疗有重要意义。

图2 “Read Until”策略筛选双链DNA分子

3)结构变异的检测
NGS的短序列特征使结构变异的检测往往不准确。这个问题在癌症的检测中尤其严重,这是因为癌症组织中充斥各种结构变异。研究人员发现利用MinION测得的几百个拷贝的长read得到的结构变异结果比NGS平台测得的上百万read得到的结果更可靠。
4)RNA表达分析
对于RNA表达分析,NGS平台测得的短序列带来的问题是序列需要进行拼接,才能得到转录本。这给可变剪切研究带来困扰。因为通常情况下NGS测序不能产生足够的信息将不同形式的可变剪切区分开来。而利用MinION测序仪产生的长read,可以更好地解决这个问题。研究人员利用果蝇的Dscam1基因为例,其存在18,612种可变剪切形式,利用MinION测序仪可以检测到超过7,000种可变剪切形式,而这样的结果利用NGS的短序列测序是不能够获得的。

3.生物信息学配套软件

近些年来,随着生物信息分析方法的发展,MinION测序reads成功比对参考基因组的比例已经从66%提升至92%。文章下面对各种工具的适用场景进行了分别介绍。工具概述见表1。


表1 MinION测序数据分析工具

1)碱基识别工具
Metrichor是ONT公司推出的基于隐马尔可夫模型进行碱基识别的软件。它的使用需要网络连接。MinION注册用户需要获得开发者账号才能获得软件的源代码。2016年初,两个实验室分别开发了Nanocall和DeepNano软件。这两个软件都可以在本地运行,不需要网络连接。Nanocall基于隐马尔可夫模型,可对1D read在本地进行碱基识别;DeepNano基于recurrent neural network framework,可以获得比隐马尔可夫模型更准确的碱基识别。
2)序列比对工具
传统的NGS序列比对软件不能满足MinION序列比对的需求。这是因为MinION测序数据错误率相对高且序列长,即使调整参数也不能取得好的效果。在这种情况下,适合MinION测序数据的比对软件应运而生。
MarginAlign是通过更好地估计MinION测序reads测序错误来源从而提高与参考基因组的比对效率。通过评估检测到的变异,发现其显著提高了比对的准确性。由于MarginAlign是基于LAST或BWA mem的比对结果进行优化,结果的最终准确性依赖最初的比对结果。
GraphMap是另一个用于MinION测序数据比对的软件。它利用的是一种启发式(heuristics)方法,对高错误率reads和长reads进行了优化。一项研究表明GraphMap比对的灵敏性可与BLAST媲美,且它对reads测序错误率的估计与MarginAlign相当。
3) 从头组装工具
MinION测序数据不适合利用NGS数据组装的de Bruijn图法进行组装,主要存在两方面的原因。第一,de Bruijn图法等方法依赖测序reads拆分的k-mer测序准确,而高错误率的MinION测序reads不能保证这一点;第二,de Bruijn图的结构不适用长reads。
MinION测序数据的长reads更适合Sanger测序时期基于有overlap的共有(consensus)序列组装的方法。需要的是在组装前进行测序reads的纠错。第一个基于这种原理进行组装的研究组利用MinION数据组装了一个完整的E. coli K-12 MG1655基因组,序列准确率达到99.5%。他们利用的流程称为nanocorrect,首先利用graph- based,greedy partial order aligner方法进行纠错,然后利用Celera Assembler将纠错后的reads进行组装,最后利用nanopolish对组装结果进行进一步提升。
4)单核苷酸变异检测工具
Reference allele bias是一种在变异检测中倾向于少检测出变异的现象。该现象在测序reads错误率高的情况下尤为严重。
MarginAlign中的marginCaller模块是研究机构开发的适用于MinION测序数据的变异检测软件。MarginCaller利用maximum-likelihood参数估计和多条测序reads序列比对来检测单核苷酸变异。
当计算机模拟出测序错误为1%时,测序深度在60X,marginCaller检测出的SNV具有97%的准确率和完整度。另外一项研究中,研究者利用GraphMap方法,检测人基因组的杂合变异,可以达到96%的准确率。利用计算机模拟的数据,GraphMap同样可以高准确率,高完整度地检测出结构变异。
Nanopolish也可以用来检测变异。它用的是event-level alignment算法。在该方法中,从参考基因组序列开始,依次评估参考基因组序列产生的电信号与测序reads的相似性进而依次修饰参考基因组序列,生成一个consensus read。直到consensus read与测序read产生的电信号足够相似,将consensus read与参考基因组序列比较,得到变异。该方法在埃博拉病毒的研究中有大约80%的准确性。
PoreSeq采用与Nanopolish类似的算法。它可以利用更低深度的测序数据获得高准确率和高完整度的SNV检测。在一项研究中,PoreSeq在16X测序深度下获得99%准确率和完整度的SNV检测,与marginAlign相比,它显著降低了测序深度。
5)共有序列的测序(consensus sequencing)方法
MinION测序数据目前只有92%的准确性。在低深度测序的情况下,不能够满足类似单体型(haplotype phasing)和人样品的SNV检测的要求。文章提到的解决问题的方法是rolling circle amplication,它的原理是将一个片段进行多次扩增,在一个DNA分子上生成多个拷贝,这样最终获得的共有序列测序结果的准确率可以达到97%。

原文链接:http://www.seqchina.cn/467.html

你可能感兴趣的:(【生信知识】---MinION纳米孔测序技术详解)