摘要:2022 年 8 月 5 日,2022 阿里云生命科学与智能计算峰会在北京望京昆泰酒店举行,圣庭医疗联合创始人 & 首席科学家谷红仓博士,带来了题为《高通量基因测序在药物研发和靶向治疗中的应用》,以下是他的演讲内容整理,供大家阅览:
杭州圣庭医疗联合创始人 &首席科学家 谷红仓博士
01 高通量测序技术(NGS)背景介绍
人们对基因作为遗传物质的研究历史可以追溯到上个世纪中叶, 1944 年 Avery 博士等人首次证实 DNA 是遗传物质。1953 年,James Watson 和 Francis Cricket 发现了 DNA 双螺旋结构,因此两位科学家也常常被称为分子生物学之父。1977 年,Allan Maxam 和 Walter Gilbert 发现了化学降解测序方法,由于化学降解测序操作流程复杂和使用大量的放射性物质,很快被弃用。同期,Fredirich Sanger 报道了双脱氧链终止法测序法又称 Sanger(桑格)测序法。与化学测序法相比,桑格测序简单快捷和准确性高,应用越来越广泛。两种测序法共同被称为一代测序。
1990 年,美国的科学家们提出人类基因组计划。当时尚处于一代测序技术刚刚兴起,一次测序的长度很短,一般只有 500 BP。到 2003 年,人类基因组计划历时十多年完全采用桑格测序仪完成,总计耗费 30+亿美金。中国于 1999 年加入人类基因组计划,贡献 HPG-1%,这对于当时改革开放初期的中国已是非常了不起的贡献。我国许多著名的科学家包括杨焕明院士和陈润生院士都参与了该计划。
人类基因组计划催生了高通量测序的发展。业内人士看到了测序的巨大商业价值,许多生产测序仪的公司应运而生,从 2005 到现在不到 20 年的时间,大约出现了十几家测序仪公司,它们中的大部分在成立后的十年之内破产,目前 lllumina 占据最大市场份额。华大在收购美国 Complete Genomics 公司之后,对其技术进行改造,测序结果越来越好,目前市场份额越来越大。
2001 年至 2021 年,基因测序费用迅速降低,每百万碱基对测序费用由 2001 年的一万美元降低到 2021 年的一美分,每个人的基因组测序费用由 2001 年的一亿美元降低到 2021 年的 1000 美元,二十年降低了 100 万倍。
测序技术是 21 世纪对生命科学领域影响最大和发展最快的技术。生命科学的最重要的理论是中心法则。中心法则的核心内容是 DNA 可以通过复制的方式传递信息到 DNA,DNA 通过转录的形式把遗传信息传递给 RNA,RNA 经过翻译将遗传信息传递到蛋白质。这个链条上的 DNA 和 RNA 均可进行测序发现其携带的信息。此外,可以通过 Ribosome profiling 和表观遗传推测蛋白相关信息,这也意味着 DNA 测序技术几乎涵盖了生命科学的各个层面。
一代测序采用逐段测序的方式,二代测序又称散弹枪测序。就是通过超声或者是酶切的方式将基因组打成很小的片段。然后将小片段 DNA 的两端各加上一段叫接头的序列,这样可以一次性可对成千上万个 DNA 小片段进行测序,这也是二代测序费用降低、测序速度加快的重要原因。
但因为二代测序较一次性测序数据量太大,传统的一代测序软件无法分析二代测序结果。对比一代测序, 二代测序结果分析流程比较复杂,最初测序的结果是影像文件, 影响文件非常大,首先需要转换成包括核苷酸序列和质控信息的 FASTQ 文件,然后 FASTQ 文件再转成 BAM file 等,经过一系列转换才能进行最终测序结果的分析。
如右上图所示,全基因测序会首先产生 250Gb (1Gb=千兆字节) FASTQ 数据,再加上后续每一步产生的数据转换都会产生海量次级数据,自建服务器必须不停的更新和扩容,否则难以满足计算和数据存储的需求。
此外,生物信息分析中还需面临以下关键挑战:
① 如何高效传输基因测序数据?
② 如何高安全、低成本地存储?
③ 如何应对海量数据的分析需求以及突发的分析任务?自建服务器算力不够强大,导致进程缓慢。
④ 如何构建高效、敏捷、弹性的基因分析平台?随着样本数量增多,外加国家相关法规规定必须对病人的数据存储若干年限,这意味着服务器不能出现任何问题,而地震、火灾等意外对服务器的打击是致命的。
因此,我们期望借助阿里云的强大能力,帮助解决生物信息分析中面临的诸多痛点。云计算强大的算力能够大幅提高计算速度,云上提供了超大安全存储容量,满足了爆发式增长数据动态扩容的需求,且将数据存储于云上能够保障数据安全。此外,它提供了弹性公网 IP,即开即用,无需复杂配置,遇突发流量可实现秒级扩缩容。作为临床基因测序行业负责任的公司,圣庭医疗这两年通过和阿里云合作,解决了我们依靠自建服务器不能解决的许多棘手问题。
02 高通量测序技术(NGS)在靶向治疗上的应用
基因检测目前主要应用于以下四个方面:肿瘤易感、早筛与用药检测慢性病遗传病基因检测产前产后检测与母婴诊断健康管理基因检测其中肿瘤易感基因检测,早期筛查和伴随诊断占据 NGS 检测的大部分业务。
当前,肿瘤研究领域投入力量极大,研究相对比较透彻。对来自 66 种癌症的约 28000 个肿瘤的基因组进行分析后鉴定出 568 个癌症驱动基因。大多数驱动基因具有高度的癌种特异性,不同癌种之间驱动基因图谱差异巨大。不到 2%(10 个)驱动的基因作用广泛,可以导致 20 种以上不同类型的癌症。当然,并不是所有靶点基因都可以做药。
近 5 年,肿瘤靶向治疗已经发展得非常成熟。科学家通过对各个不同基因的基因突变和基因重排研究出了各种药物,且明确了药物的作用机理。在医院,肿瘤科医生会根据病人的基因检测结果来给予对应的药物治疗。疗效相对于传统的化疗药物,效果非常明显。
上图为 2018 年美国国立健康研究院(NIH)的统计数据,数据显示在美国有 75.6%的肿瘤医生在治疗病人过程中使用了基因检测来指导用药,而目前我们国内大型三甲医院的医生使用基因检测结果来决定病人用药的数据应该不落后该百分比。
无论是欧盟、美国还是中国,都使用高通量测序进行基因检测,而且这些国家包括中国都出台了相应的临床指南。指南对如何进行基因测序、如何对测序结果进行分析、如何保存数据和如何解读测序结果等进行了详细的描述。
NGS 的指导的肿瘤精准用药主要体现在三个层面:
⚫ 靶向治疗的精准选择:目前已有多种已被 FDA/NMPA 批准上市的抗肿瘤靶向药物,另外还有许多在研的抗肿瘤的靶向药物。NGS 可以对靶向突变基因信号通路进行精准的解析,还可以发现为什么有些病人对靶向药敏感而另外一些人呈现耐药。
⚫ 免疫治疗综合指导:通过肿瘤免疫负荷(TMB)、微卫星不稳定(MSI)、人类白细胞抗原(HLA)检测结果等区分哪些病人适合免疫治疗,哪些病人不适合免疫治疗,实现对病人的精准用药。
⚫ 分子分型与预后分析:结合基因组突变特征,多因素提示肿瘤分子分析分型,帮助医生确定治疗方案以及进行预后评估。
目前,业内针对对非小细胞肺癌的信号通路、常见突变等研究已经较为透彻,已上市了众多对应靶向药物。
另外,肿瘤治疗前后,肿瘤的基因组并不是一成不变的。可能用药一段时间以后肿瘤细胞中的突变类型和突变频率都会发生改变,因此需要通过对肿瘤病人治疗一段时间后进行基因测序,重新分析肿瘤细胞的突变类型,并制定新的治疗方案。
免疫治疗也是目前比较流行的治疗方式,该方式能够通过激发病人自身的免疫力消灭肿瘤。多项独立的临床研究表明不同类型的癌症免疫治疗中,患者的 OS(生存期)和 PFS(无恶化生存期)均有显著的提高。通过对肿瘤标识物,如肿瘤突变负荷(TMB)进行 NGS 检测可以有效的发现哪些病人可以采用免疫治疗。对适于免疫治疗的病人,其效果可能远优于传统的化疗、靶向治疗。
另外,可以通过基因高通量测序的方式对疾病进行分型。比如对结直肠癌可以通过基因检测,可分为高突变、非高突变,之后还可进行各类型的细分,以进行精准治疗。
循环肿瘤 DNA (ctDNA)基因检测是一种新兴的监测肿瘤治疗效果的方式。其原理是肿瘤细胞在生长过程中会凋亡或坏死,这些死亡的的肿瘤细胞 DNA 会进入血液循环系统中。因此可以通过检测病人的外周血的 ctDNA 有无,在外周血中的含量及 ctDNA 突变类型,从而对治疗效果进行监测和指导用药。右图展示的是肺癌、结直肠癌、乳腺癌等疾病,通过 ct-DNA 的检测并采用适合的治疗方案,能够显著延长病人的生存期。
03 高通量测序技术(NGS)在药物研发上的应用
药物研发流程如上图左侧所示,高通量测序技术既可以应用于前期的靶点发现、也常用于临床一期、二期、三期治疗效果观察或对药物作用的分子的机理进行探索。
该图展示 NGS 如何帮助发现新的药物靶点。在靶点发现上,通常可以通过对大量正常人和病人的基因进行测序、对比,然后对结果进行分析,发现仅在病人中共同存在的基因突变,这些突变是药物作用的潜在靶点。利用计算机和人工智能等手段对靶点进行系统评估,接下来通过一系列体外、体内实验对药物潜在靶点进行验证,最终确立药物靶点。这就是基因测序在药物靶点选择中的应用场景。
上图为 2016-2021 年期间新药设计靶点的 TOP30。
高通量测序投入实际应用的四五年间已经发现很多靶点,我们也可以乐观地预期,将来会有更多靶向药,新药的研发也一定更快速,更高效!
点击这里,观看嘉宾在本次峰会上的演讲视频回放。