作者:芯片测序组 于海礼
快速和准确地获取生物体的遗传信息对于生命科学研究一直具有十分重要的意义,而获取遗传信息的主要手段之一是测序技术,因而测序技术在生命科学研究中扮演了重要的角色。
在此报告中主要介绍2个部分的内容:一、测序技术的发展,包括第一、二、三代测序技术(Sanger测序、高通量测序、单分子测序);二、个人化基因组测序仪PGM,主要介绍它的原理、特点、流程及应用。
本图所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来,整个测序技术的发展历程。测序技术最早可以追溯20世纪50年代,早在1954年就已经出现了关于早期测序技术的报导,即Whitfeld等用化学降解的方法测定多聚核糖核苷酸序列。但是直到1977年 Sanger等发明的双脱氧核苷酸末端终止法和Gilbert等发明的化学降解法,才标志着第一代测序技术的诞生。此后在三十几年的发展中陆续产生了第二代测序技术,主要包括Roche公司的454技术、Illumina公司的Solexa技术和ABI公司的SOLiD技术。最近,Helicos公司的单分子测序技术、Pacific Biosciences公司的单分子实时测序技术(Single Molecule Real Time, S M R T )和 Oxford Nanopore Technologies公司的纳米孔单分子测序技术被认为是第三代测序技术的主要代表。而Ion Torrent的PGM由于其独特的测序方式被认为是第2.5代测序技术。
第一代测序技术--双脱氧核苷酸末端终止测序法(又称为sanger测序法)是Sanger在1977年发明的技术。其原理是:核酸链的延伸是由于dNTP可以在5´磷酸基团和3´羟基形成磷酸二酯键,当核酸链插入一个2´和3´都不含羟基的ddNTP后,在下游的DNA合成反应中不能形成磷酸二酯键,因此可以被用来中断DNA合成反应。在4个DNA合成反应体系中分别加入一定比例的带有放射性同位素标记的某种ddNTP,通过凝胶电泳和放射自显影后,可以根据电泳带的位置确定待测分子的DNA序列。此后,在Sanger法的基础上,80年代中期出现了以荧光标记代替放射性同位素标记、以荧光信号接收器和计算机信号分析系统代替放射性自显影的自动测序仪。尽管第一代测序技术有其优点:测序准确、读长长,而且在噬菌体基因组测序和人类基因组计划项目上大展身手,但是由于成本高、速度慢、通量低,已不能满足科学家对测序的需求。
故业界催生了第二代测序技术—高通量测序技术(又称为深度测序)。它以通量高和速度快为主要特点。这里将主流的第二代测序平台(Roche公司的454技术、illumina公司的Solexa和ABI公司的Solid技术平台)的原理和流程做一简单的介绍:由于第二代的读长相对较短,所以针对比较长的核酸序列如基因组DNA,就需要使用不同手段(如:超声、酶切、喷雾等)将其处理成合适长度的片段;将其补平和标签化,然后采用每个平台独特的扩增技术将核酸片段大量扩增:454、Solid以及Ion采用的是乳液PCR,Solexa采用的是桥式PCR;第二代测序平台的另外的每个平台的独特之处是测序的检测手段:454采用焦磷酸测序,一个磁珠等于一条读长;Solid采用连接酶测序,Solexa使用的是可逆末端终止反应,Ion采用的是H离子检测。与第一代技术相比,第二代测序技术不仅保持了高准确度,而且大大降低了测序成本并极大地提高了测序速度。例如:使用第一代Sanger的测序技术完成的人类基因组计划,花费了30亿美元巨资,用了三年的时间;使用第二代SOLiD的测序技术,完成一个人的基因组测序现在只需要一周左右的时间。但是第二代测序技术也有其短板:测序读长较短,不利于后续生物信息学分析;同时由于采用的是PCR技术,存在扩增效率不一致的现象,对于表达分析会有影响。
目前正在研发的第三代测序技术,最大的特点是单分子测序,不需要对核酸片段进行扩增,直接对其进行测序。其中,Heliscope技术和SMRT技术都基于边合成边测序的的思想,利用荧光信号进行测序,而纳米孔单分子测序技术使用核酸外切酶测序,利用切下来的不同碱基产生的电信号不同进行测序。虽然第三代测序有许多优点如直接、快速、无扩增、读长长等,但是由于技术不成熟,存在错误率高,可靠性差的不足,有待于进一步的改进。
总结一下各代测序技术的特点。对于某一种测序技术来讲,测序成本、读取长度和测序通量是评价测序技术先进与否的重要标准。第一代测序技术:虽然读长长,但是单碱基测序成本高,通量低;第二代测序技术:也是基于边合成边测序,但是它的通量大为提高,测序成本也得以降低,不完美的地方在于需要PCR扩增,增加了测序的错误率;理论上第三代测序技术解决了这个问题,单分子测序,无需扩增,但是由于对于技术和设备的要求很高,目前还需进一步改进。纵观测序技术的发展,高通量、高速度、高准确率、低成本、长读取长度是测序技术的的发展方向。
本科室测序平台—个人化基因组测序仪PGM(Ion Torrent Personal Genome Machine):一种革新性的半导体芯片测序技术平台,通过密布于半导体芯片上的微反应孔和专有的大规模并行芯片感应器进行测序。
测序原理:
在半导体芯片上布满小孔,每一个小孔就是一个测序反应池,当一个被单克隆序列覆盖的磁珠进入小孔后,开始测序反应:PGM按照顺序依次流经四种碱基,当发生碱基插入时,便有H离子的释放,从而引起小池内的PH的变化,PH的变化被反应池下面的感应器所感应,依次引起电势和电压的变化,然后最终被转换为碱基插入序列。
测序特点:
1、通量更易升级:采用的是半导体测序,由于半导体升级遵循摩尔定律,测序通量会迅速增加,例如上市第一年,从314芯片的10M通量增加到了318芯片的1G,即通量增加100倍。
2、测序反应更简单:无需标记核苷酸,无需激光光源,无需光学系统,无需照相系统,无需荧光,无需酶促级联反应,仅仅是一个自然的碱基插入反应,检测释放的H离子。
3.测序更快速:碱基的检测非常快速,碱基插入只需要几秒的时间,除了2天文库制作时间,整个上机测序可在2-4.5小时内完成。
PGM有不同通量的芯片—314、316、318,每种芯片的通量和使用领域不同,用户可以根据自己的实验需求,选择不同的芯片,更有弹性,更灵活。
测序流程:
PGM的测序流程与第二代测序的流程是一致的。由于读长短,也需要将较长的核酸进行片段化以及标签化,对片段扩增采用的是与454一样的乳液PCR, 乳液PCR最大的特点是可以形成数目庞大的独立反应空间以进行DNA扩增, 理想状态下,每个小水滴只含一个DNA模板和一个磁珠。之后对有核酸片段覆盖的磁珠进行富集,将其Loading到半导体芯片的小孔内,上机测序,通过Torrent服务器生产标准的DNA序列。
测序应用:
随着PGM测序芯片的通量的增加,PGM在许多领域都可以大显身手,譬如:病原微生物基因组测序,扩子测序,目标区测序,全基因组或外显子组突变验证,染色质免疫共沉淀测序,RNA测序等。下面简单介绍几种PGM测序应用。
应用举例1-病原微生物基因组测序:
2011年5月德国爆发了“毒黄瓜事件”。6月3日,Life Technologies公司与 德国明斯特大学医院合作,使用Ion Torrent (PGM™),用了2个小时进行的DNA测序发现一种新混合型致病大肠杆菌菌株O104:H4是导致德国致命疫情的原因,此后,科学家们研制出针对性的疫苗 。华大基因也使用PGM在第一时间获得这种致病大肠杆菌的基因组序列。
应用举例2-RNA测序:
利用PGM测序对人类尿液中的miRNA biomarker进行筛选,同时比较发现PGM测序技术比Microarray analysis发现biomarker更有优势。
应用举例3-TCR repertoire测序:
T细胞受体(T cell receptor,TCR)是T细胞表面特异性识别抗原和介导免疫应答的分子,是人类基因组中多态性最高的区域之一,决定着人的免疫系统如何适应环境的变化。T细胞受体库的多样性直接反映了机体免疫应答的状态。而多样性的来源主要是基因重排和V-D及D-J的连接区核苷酸的随机插入或删除。目前鼠和人的多样性在2e6和2e7。
目前,已有许多利用PGM对TCR repertoire进行测序的高水平文章,譬如Blood,nature等。
我们科室针对TCR repertoire也开发了自己的测序技术,其策略如下:
1、逆转录:针对TCR mRNA的C区设计通用逆转录引物,对mRNA进行逆转录。
2、多重PCR:在逆转录cDNA的C区内部设计融合引物,此引物包含了adaptor,多个barcode,测序所用的key以及Primer A,正向引物也是融合引物,它包含了人或者小鼠的所有可能出现的V区引物以及TrP1,经过多重PCR反应后,产物可以直接进行乳液PCR,而不需要进行融合反应。
3、乳液PCR和测序步骤按试剂盒说明书进行。
Mouse Location sequence:我们针对同一品系不同小鼠不同组织器官中T细胞的TCR repertoire测序,发现在同一品系不同小鼠的TCR repertoire(图A和B)相似性较强,说明同一品系的小鼠在相同的生活环境下,所经受的外界刺激是一致的,其TCR repertoire也有很高的相似性。而同一只小鼠的不同器官中,TCR repertoire呈现聚类性:即在某些器官中,TCR repertoire有很高的相似性。
Gastric Cancer TIL sequence:我们针对胃癌病人的癌组织、粘膜组织和外周血的T 细胞的TCR repertoire测序,以期找出TCR repertoire与预后的关系,图A和B是健康供体外周血和胃癌患者外周血、癌组织、粘膜组织TCR的V和J的频率;图C和D分别是胃癌患者外周血、癌组织、粘膜组织TCR核酸序列和CDR3氨基酸序列的多样性指数,图E说明的是粘膜组织T细胞的多样性与预后的关系。最后,我们发现粘膜组织的TCR repertoire与患者生存期降低有很大相关性。
最近,Life公司又推出了PGM的升级版-Proton,同时也是PGM的互补平台,它的通量更高,譬如PII可以达到100G,而PIII会更高。这使得ION 平台应用范围更加广泛,从小基因组到人类基因组,从低通量到高通量,可以全部覆盖。也就是To Enable All Applications!