癌症基因组学和精准医学的全基因组测序分析


摘要

新一代测序仪(NGS)和计算分析的爆炸性进展,使探索大多数癌症类型的体细胞蛋白改变突变成为可能,编码突变数据密集积累。然而,关于非编码区(包括内含子、调控元件和非编码RNA)体细胞突变的信息有限。癌症基因组中的结构变异和病原体仍未得到广泛的探索。全基因组测序(WGS)方法可用于全面探索所有类型的癌症基因改变和帮助我们更好的理解整个景观的司机在癌症基因组变异和突变特征,阐明这些未知基因的功能或临床影响区域和突变签名。本文介绍了近年来发展起来的肿瘤WGS的技术方法和未来的发展方向,并讨论了其作为分析平台的用途和局限性,以及在癌症基因组学和癌症精准医学中的突变解释。考虑到癌症基因组和表型的多样性,解释WGS中丰富的突变信息,特别是非编码和结构变异,需要结合RNA-Seq、表观基因组学、免疫基因组学和临床病理信息对大规模WGS数据进行分析。


1、介绍

癌症本质上是一种基因组疾病,随着体细胞突变的积累而进化和发展,包括拷贝数改变(CNA)和结构变异(SV),以及表观基因组改变(有或没有遗传性)(种系变异)。许多家族性癌症分离研究和癌症组织的杂合性缺失(LOH)分析已经确定了一些经典肿瘤抑制基因的种系和体细胞突变,如RB1、TP53和APC和拷贝数分析已经发现了一些癌基因和潜在的致癌激活物,如HER2/ERBB2和MYC。其中一些致癌基因突变已成功用于分子治疗,这些致癌基因的特异性和复发性突变现在用于预测对治疗的敏感性、预后和残留疾病。

下一代测序仪(NGS)和处理海量数据的计算分析技术的突飞猛进,使我们能够在研究和临床水平上全面分析癌症基因组图谱,如数百个基因的靶向测序、全外显子组测序(WES)、RNA测序(RNA Seq)和全基因组测序(WGS)。到目前为止,为了探索癌症基因组的变化及其多样性,全世界已经测序和积累了5万多个癌症基因组,包括癌症基因组图谱(TCGA)和国际癌症基因组联盟(ICGC),到2030年,数亿癌症患者将进行基因组测序。到目前为止,在这些项目中,WES是癌症基因组测序的主要平台,已经为所有类型的常见和罕见人类肿瘤积累了大量蛋白质编码区的突变数据。对这些癌症基因组数据的系统研究揭示了许多新的癌症基因和途径,饱和度分析表明,大多数癌症中频繁突变的驱动基因几乎已被阐明。除了通过整合临床数据和使用功能分析来验证这些功能或临床意义外,研究人员目前正专注于罕见突变驱动基因和驱动基因罕见变体的“长尾”研究。对WES数据进行的泛癌症分析表明,在常见癌症中,致癌物暴露的癌症,如黑色素瘤和肺癌,在编码区中的体细胞突变数量要高得多,而儿童肿瘤和白血病的突变数量要少得多,在其整个编码区中只存在几个蛋白质改变的突变。TCGA和ICGC提供了超过20000种癌症编码区的全面突变数据,而COSMIC数据库已经广泛地管理了靶向测序和WES的突变,总结了超过1000000种癌症样本的编码突变。然而,关于跨越人类基因组98%的非编码区(包括非翻译区(UTR)、内含子、启动子、调控元件、非编码功能RNA、重复区和线粒体基因组)的体细胞突变的信息有限癌症基因组中的体细胞结构变异(SV),包括大的缺失/插入、倒位、复制、易位和病原体(病毒)整合,也仍然没有得到广泛的研究(图1A)。WGS方法可以涵盖所有这些未经探索的突变(表1),并帮助我们更好地了解癌症基因组的“整体”情况,阐明这些未经探索的人类基因组区域的功能(图1A)。这种方法与数学分析和其他组学分析相结合,可以阐明潜在的致癌作用并实现癌症的分子亚分类,这有助于发现基因组生物标记物和个性化的癌症药物。本综述描述了癌症WGS的最新技术方法和癌症WGS的未来方向,并讨论了其作为癌症基因组学和癌症精确医学的分析平台和突变解释的实用性和局限性。

图1 A、下一代测序仪(NGS)的全基因组测序(WGS)可以检测非编码突变、结构变异(SV),包括拷贝数改变(CNA)、线粒体突变和病原体检测,以及蛋白质编码突变;B、 WGS分析中癌症基因组结构的代表性Circos图,表明所有人类染色体(1-22 XY)中存在SV和CNA。在1号和14号染色体上观察到染色体碎裂。单核苷酸变异


2、下一代测序技术与全基因组测序分析

表1总结了通过每个基因组分析平台(DNA芯片、100个基因的目标测序、WES、RNA Seq和WGS)检测到的突变及其性能。WES分析通过溶液内杂交、微阵列捕获或PCR扩增捕获跨越人类基因组约50Mb(1%-2%)的蛋白质编码外显子,通常每个样本的序列深度约为100×,比30× WGS更准确,因为NGS调用突变的准确性主要取决于测序深度。然而,由于难以检测复杂或重复的基因组区域以及非靶向区域,预计会出现一些捕获偏差。另一方面,WGS在技术上很简单。DNA通过物理剪切随机断裂,每个人类全基因组的30-50×序列深度(90-150 Gb)通常对癌症基因组和正常基因组进行测序,可以覆盖整个人类基因组的99%。普通NGS技术读取的500-600bp DNA片段的两端为100-150 bp,但NGS的WGS仍然依赖于PCR,带有PCR偏差,这表明富含GC或AT的区域很难测序。最近开发了无PCR方案,该方案显示较少的GC偏差,并且比PCR方案更全面,尽管库制备需要ug级DNA作为输入。目前第二代NGS技术(Illumina SBS技术)的最大限制是其短读取长度(100-250 bp)。大约50%的3Gb人类基因组被重复区域和50%的假基因占据,当短序列读取与冗余参考基因组对齐时,这些重复或复杂区域周围可能发生对齐错误,导致突变调用错误。第三代NGS技术,如PacBio SMART单分子测序18和纳米孔测序,可产生10 kb和更长的reads,无PCR偏差,有望用于人类WGS的分析;然而,考虑到2017年人工WGS的成本略低于1000美元(表1),它们目前在每次读取中的错误率很高(5%及以上),WGS分析的成本仍然高得令人望而却步。


3、肿瘤全基因组测序的计算分析

癌症WGS最具挑战性的问题之一是计算分析。Cancer WGS需要产生超过90-150 Gb ×2(癌症和正常DNA)的序列数据,对应于大约1 TB的原始数据。需要大量的计算机资源来处理WGS数据集,并及时为数千个癌症WGS执行对齐和变量调用。学术基因组中心通常会增加WGS的计算机资源,但这些学术资源不足以分析成千上万的WGS数据集。云计算系统可以解决这些问题,促进全球基因组数据共享,尽管在某些领域存在数据传输技术问题以及道德和法律问题。

图2显示了一组具有代表性的计算管道和cancer WGS的分析工作流。作为初始步骤,BWA-mem和其他程序将来自NGS(FASTQ文件)的原始序列数据(90-150 Gb ×2)与3Gb人类参考序列(hg19或新hg38)对齐,生成BAM文件,并从BAM文件中删除PCR重复序列(通常为几%)。体细胞突变由几种特定于体细胞突变类型的算法调用,例如单核苷酸变异(SNV)、短indels、CNA和SV,它们统计比较癌症基因组中的变异等位基因分数(VAF)与正常基因组中的变异等位基因分数(VAF)。准确性主要取决于每个基因组区域的序列深度。精确分析的另一个重要因素是考虑对齐或映射误差。考虑到人类基因组的复杂性和冗余性,特别是非编码区域,当短读与重复和冗余区域对齐时,可能会出现高频率的对齐错误。WGS最严重的问题是其结果依赖于这些突变调用算法,每条管道调用不同的体细胞突变,特别是在低深度、复杂区域和体细胞短索引中。ICGC工作组对全球10多条分析管道进行了广泛的基准测试,并评估了突变调用方法的一致性。体细胞indel调用表现出高度的不一致性,而SNV和SV调用在管道中表现出相对一致性,这表明体细胞突变调用仍然是一个未解决的问题。工作组提出了癌症WGS计算分析指南。对于与癌症风险和遗传性癌症诊断相关的种系变异,需要另一个调用管道,因为只分析正常的基因组测序数据,VAF基本上在50%左右。GATK单倍型受体(https://software. broadinstitute.org/gatk/)通常用于种系变体调用,包括来自WGS的SNV和INDEL。


4、编码区和剪接位点的突变

全基因组测序可以在编码区和外显子-内含子功能附近的剪接位点以及WES检测体细胞SNV和短INDEL(1-10bp)。WGS可以检测内含子区域的体细胞突变,其影响很难评估和解释。然而,结合RNA-Seq数据的分析可以评估深层内含子和同义突变的影响,并研究基因组改变的转录或功能后果(图3)。除了外分泌子连接位点(GU-AG共有位点)的突变外,深内含子区域的突变还可以产生新的剪接供体或受体位点,从而产生新的剪接形式。编码区和内含子区的同义突变可以改变调控剪接和癌症相关基因功能的外显子基序。需要对WGS和RNA-Seq进行系统的联合分析来解释这些非编码突变。

图3 全基因组测序(WGS)和RNA序列中的非编码突变和基因表达。内含子突变可以影响剪接形式。50UTR和启动子区域的突变可改变转录活性,基因间区域的增强子、沉默子或绝缘体等调控元件可影响染色质结构和转录活性。30UTR突变可通过改变miRNA结合和其他机制改变RNA稳定性和蛋白质翻译。非编码RNA,特别是miRNA和lincRNA的突变可能改变编码RNA/蛋白质和调控元件的相互作用,并改变染色质结构


5、非编码区突变

蛋白质编码基因的前mRNA通常包含广泛的非编码序列,以内含子、5'非翻译区(5' UTR)和3'非翻译区(3'-UTR)的形式存在(图3)。它们参与RNA转录、剪接和蛋白质翻译过程的调控。3'-UTR突变往往发生在癌症驱动基因中,并且可能通过miRNA结合控制RNA稳定性和蛋白质翻译(图3)。人类基因组包含编码约20000个非编码RNA(ncRNA)的基因,包括tRNA、核糖体RNA、microRNA和长非编码RNA(lincRNA)。这些功能性ncRNA有望参与染色质结构、转录调节、RNA剪接和翻译机制。

一些研究报告说,位于附近并与癌症侵袭有关的LincRNA NEAT1和MALAT1中积累了体细胞突变。此外,基因间区域包含各种调控元件序列,这些序列对调控基因表达和相关染色质结构至关重要。针对癌症的全基因组关联研究(GWAS)已经确定了数百个癌症易感基因座和种系变异体,其中许多位于基因间区域,预计它们与控制这些基因座周围基因表达的调控元件有关。ENCODE项目、Roadmap表观基因组学联盟和FAMTOM的推断表明,20%-40%的人类基因组可能是调控元件。人们的努力已经转向通过ChIP-Seq或开放染色质元件(结构)来发现基因组变体和调节蛋白之间的相互作用,这可以指示哪里存在细胞类型特异性或癌症特异性的活性调节序列。

黑色素瘤样本的全基因组测序分析显示,位于翻译起始ATG位点上游~124bp和~146bp处的启动子热点突变,并增强了TERT启动子活性。这些启动子突变经常在胶质母细胞瘤、膀胱癌、甲状腺癌、肝癌和黑色素瘤中检测到,尽管这些启动子突变和TERT表达之间的关联强度在不同的癌症类型中是不同的。在T细胞ALL的一个子集中,非编码区的体细胞突变引入了转录因子的结合motifs,并在TAL1基因上游产生了一个超级增强子。最近使用TCGA和ICGC的WGS数据集对非编码体细胞突变进行的系统或统计分析表明,一些非编码区经常发生突变,如PLEKHS1、WDR74、TFPI2和BCL6的启动子或调控元件。在人类基因组中有许多CTCF/内聚结合位点(CBS),它们作为绝缘体来调节附近基因的基因表达。多种癌症类型累积CBS突变,这些突变也可能参与双链断裂和SV的产生。为了识别非编码突变并解释其影响和后果,需要通过整合许多针对非编码调控区的数据集,如ENCODE、FANTOM、ChIP-Seq数据集(表观基因组数据)和基因表达数据集(RNA-Seq)来采用更系统的方法。


6、CNA

拷贝数改变(CNA)影响较大的DNA片段(10 kb及以上),是癌症基因组中最常见的标志之一,并导致癌基因的激活和位于局灶CNA中的抑癌基因的失活。CNA相关癌基因和肿瘤抑制基因包括8q24.21(MYC),11q13.3(CCND1),7p11.2(EGFR),17q12
(ERRB2 = HER2) and7q31.2(MET)的局灶性扩增,而局部缺失涉及13q14.2(RB1),9p21.3(CDKN2A) 和10q23.31(PTEN)。阵列CGH和DNA或SNP芯片分析可有效检测癌症基因组中CNA的获得或丢失,我们应在全面的癌症基因组分析中讨论CNA。目前的挑战是确定驱动基因CNA的癌基因和抑癌基因靶点,这些靶点通常包含许多基因,并阐明CNA的功能作用。CNA不仅影响蛋白质编码基因:与这些癌症相关基因过度表达相关的一些癌基因(如KLF5和MYCARE)附近含有超增强子的非编码区的拷贝数增加。WES的计算工具可以检测到CNA,但其分辨率不高,有时很难检测到特定的CNA,因为外显子捕获没有覆盖许多复发的CNA区域,并且存在一些偏差。另一方面,WGS可以通过计算与癌症/正常DNA中特定基因组区域对应的读取,以无偏见的方式分析CNA。即使是低深度WGS(×0.1)也能有效检测癌症基因组中的CNA。无创产前基因检测(NIPT)的神学基础是在孕妇血浆中检测胎儿的CNA,这种低深度WGS方法作为液体活检或ctDNA(循环肿瘤DNA)分析应用于癌症患者。事实上,WGS的NIPT可以检测癌症孕妇血浆低深度WGS中的癌症CNA。


7、结构变体

白血病和肉瘤中的不同重排或SV导致原癌基因产物的激活或肿瘤特异性融合基因的产生,其中一些是临床诊断工具,如滑膜肉瘤中的STY-SSX1融合和尤因肉瘤中的WS-FLI1融合。慢性粒细胞白血病中的费城染色体,染色体9q34和22q11之间的易位导致BCR ABL融合基因,ABL激酶抑制剂伊马替尼首次成功地将其靶向于慢性粒细胞白血病。2p1上的一个小的倒位产生了EML4-ALK融合基因,该基因在1%-2%的肺腺癌中被发现,并且激酶抑制剂将这种激酶融合基因作为ALKIN肺癌的靶点。在少数具有独特临床和病理特征的肺癌中也发现了涉及ROS1在6q22(主要是转位)和染色体10q11.2(主要是倒置)的SV。它们产生融合激酶作为驱动基因,是肺癌的分子靶点;40%-70%的前列腺癌存在涉及ERG在21q22和多个ETS家族基因的SV,产生TMPRSS2 - ERG和ETS家族基因融合。最近对髓母细胞瘤的分析发现,通过增强子劫持,复发性SV激活了原癌基因。在肝癌和肾癌中,肿瘤的启动子区域经常受到SV的影响,导致肿瘤的过度表达。SV影响特定类型淋巴瘤中的SCD274(PD-L1)基因,诱导PD-L1的稳定性并与癌细胞的免疫逃逸相关。


8、重复或重复区域的突变分析

重复序列约占人类基因组的50%。这些序列是高度可变的,并已被用于基因组连锁图谱绘制和诊断具有DNA错配修复缺陷的癌症,作为微卫星不稳定性(MSI)测试。由于短读序列的对齐问题,使用WGS和NGS方法分析这些重复区域中的突变和变体仍然很困难。最近的一项研究分析了23种癌症类型中约1000个WGS数据中的MS突变,并确定了反复发生MSI的DNA修复和致癌途径中的基因,并发现了经常显示MSI的非编码位点。转座基因是人类基因组中一种常见的成分,可以在其他位置复制和插入自身的拷贝。这些转座子在基因组进化和多样性的驱动力中发挥了重要作用。一些研究利用癌症WGS数据分析了转座子介导的体细胞突变和SV,并确定了每个肿瘤4-5个体细胞逆转录转座子插入。这些体细胞逆转录转座子插入往往发生在癌症中通常发生突变的基因中,并可改变其表达。


9、病原体检测与整合

病毒和细菌感染以及随后的慢性炎症是癌症发展的最强病因。乙型肝炎病毒(HBV)或丙型肝炎病毒(HCV)感染与肝癌有关。人类乳头状瘤病毒(HPV)感染引发并促进宫颈癌的发生。幽门螺杆菌和EB病毒(EBV)感染与胃癌的发生有关。因此,在癌症基因组中检测来自导致慢性炎症的已知和未知病原体(病毒和细菌)的DNA或RNA序列非常重要,WGS可以检测病原体与宿主人类基因组的基因组整合。从技术上讲,对人类基因组序列的未对齐读取是从WGS或RNA-Seq数据中提取和累积的,它们可以与已知的病原体基因组序列进行匹配,无论是否进行预组装。尤其是对于消化器官中的肿瘤,肠道菌群的细菌检测和宏基因组分析对于理解肿瘤发展和治疗耐药性中的基因组-环境相互作用非常重要,例如结直肠癌中的梭杆菌和胰腺癌中的丙型变形菌纲。WGS的肝癌检测到HBV DNA基因组的几个整合位点(3kb),它们优先整合到T和MLL4位点的基因组区域。WGS检测宫颈癌64和头颈癌的HPV DNA基因组及其整合。一些罕见的癌症具有强大的病毒成分,如伯基特淋巴瘤和鼻咽癌中的EBV,以及成人T细胞白血病/淋巴瘤中的RNA逆转录病毒HTLV-1。据报道,腺相关病毒(AAV)也整合在肝癌基因组中,尽管其发病机制尚不清楚。除了来自病毒基因组的癌蛋白外,这些病毒整合/相互作用可能导致局部基因组不稳定,随后出现拷贝数变化、整合位点周围的过度表达以及人类或人类病毒基因融合事件。


10、线粒体基因组突变

全外显子组测序并不是为了捕获16kb的线粒体基因组,线粒体基因组包括13个蛋白质编码基因,这些基因配备了自身蛋白质合成所需的所有元素。由线粒体DNA(mtDNA)基因编码的蛋白质与其他核基因一起形成呼吸链复合体,这是细胞的主要能量生产系统。长期以来,人们怀疑线粒体参与了癌症的发生,能量代谢的改变是癌症的一个共同特征。一些研究检测了单个癌症类型或WES数据集合中的线粒体DNA拷贝数,并证明对线粒体DNA中有害的编码突变存在选择性压力,支持肿瘤细胞需要功能性线粒体。这些研究还观察到强烈的链偏倚突变,与作为突变主要来源的内源性复制偶联错误相一致。线粒体DNA向核基因组的传递发生在经肿瘤转化的细胞中,线粒体核基因组的融合发生在每个DNA碱基对上的速率与染色体间核SV相似。


11、突变特征

癌症中的体细胞突变是多种突变过程的结果,包括DNA复制机制的内在错误、外源或内源性诱变剂暴露、DNA酶修饰和DNA修复缺陷。不同的突变过程产生独特的突变类型组合,称为“突变特征”。每个突变特征模式都以组织特异性方式与每个癌症病因相关。例如,C>A/G>T突变,如R293S,是通过黄曲霉毒素暴露而发生的肝癌中最常见的p53基因替换。与WES不同,WGS在常见癌症中检测到数千个体细胞SNV,最近的全面突变搜索和非负矩阵分解数学分析已经提取了30多个癌症基因组的突变特征,这些特征显示在COSMIC数据库中(http://cancer. sanger.ac.uk/cosmic/signatures)。研究人员试图从生物学和流行病学的角度揭示每一种突变特征。在这些已确定的突变特征中,有些已确定与特定的突变过程相关。信号1代表一个时钟样的突变过程(老化),在所有类型的癌症中都可以观察到。signatures 24代表与黄曲霉毒素相关的签名,signatures 22代表与马兜铃酸(包含在中草药产品中)相关的签名,signatures 4代表与吸烟相关的签名,signatures 3代表与BRCA1/2突变相关的DNA双链断裂修复缺陷,signatures 6代表与DNA错配修复缺陷相关的签名(图4)。通过观察癌症WGS数据中的全基因组体细胞突变特征,我们可以推测致癌过程中多种内部(老化和内在DNA修复)和外部(环境暴露)致病步骤中个体癌症发展的致病因素。

图4 COSMIC数据库中的突变特征和病因。使用6种替换亚型显示每个特征的轮廓:C>A、C>G、C>T、T>A、T>C和T>G。此外,通过将5'和3'碱基上的信息立即合并到每个突变碱基上,检查每个替换,生成96种可能的突变类型。宇宙数据库中癌症WGS的NMF分析(http://cancer. sanger.ac.uk/cosmic/signatures)展示了目前30个突变特征,并显示了6个代表性特征及其与癌症发展相关的病因(老化、环境暴露和固有DNA修复缺陷)


12、基因组不稳定性和突变特征预测纤维蛋白起源

癌症的全基因组测序分析揭示了一种独特的特征模式,称为染色体三联体,其中,一个细胞中的一条或几条染色体产生几十到几百个聚集的SV(图1b)。这种复杂SV的机制是,在一个或多个致癌阶段,不同的染色体或基因组区域分裂成许多片段,然后通过DNA修复机制不准确地拼接在一起。在遗传性p53突变患者的癌症中检测到染色体特征,表明该事件与p53的功能和各种DNA损伤反应信号通路中的基因组稳定性有关。乳腺癌、卵巢癌和胰腺癌的WGS分析表明,特征与DNA维持基因(BRCA1、BRCA2和PALB2)失活有关,也与对DNA损伤剂和PARP抑制剂的高反应性有关。最近的研究表明,体细胞替代、插入/缺失和SV模式,或“突变特征”,与BRCA1/BRCA2DYS功能相关。通过结合WGS的特征信息,评估了与BRCA1/2缺陷相关的同源重组缺陷。Polak等人通过比较体细胞突变的基因组分布和特征与表观基因组路线图联盟测量的424个表观遗传学特征,从106种不同的细胞类型中获得,从WGS数据预测癌症的起源细胞(COO)。与肿瘤起源细胞类型相对应的染色质特征的基因组分布与局部突变密度密切相关,他们选择表现出最显著富集的组织作为单个癌症全基因组最可能的起源组织。


13、癌症基因组测序的免疫基因组分析

使用免疫检查点抑制剂的免疫治疗和新兴的新疗法已经在某些类型的癌症中显示出巨大的前景。基因组生物标记物已通过对预处理或复发癌症标本的基因组测序分析进行了广泛研究。PDL1(CD274)的过度表达或基因改变可能与某些类型的癌症(如淋巴瘤)对抗PD-1/PD-L1药物的反应有关。全基因组水平的突变负荷与更多的新抗原呈递相关,是黑色素瘤、肺癌和MSI阳性结直肠癌的良好基因组标记。据报道,基因组范围的CNA模式,即非整倍体,与肿瘤浸润性免疫细胞减少(通过RNA-Seq评估)以及免疫治疗反应性降低相关。与IFN-γ途径和HLA表达相关的一些突变,如asHLA、B2M、JAK1/2,可能与免疫检查点抑制剂的耐药性有关,但肿瘤免疫学和免疫检查点抑制剂的机制相当复杂和多样。为了了解癌症的免疫基因组学,探索预测免疫治疗反应的基因组标记,进行全面的免疫“特征”分析,包括免疫细胞和新抗原特征的数量和质量,需要从WGS和RNA-Seq数据中获取一些治疗前和治疗后的肿瘤标本和免疫细胞。


14、肿瘤全基因组测序的结论和未来方向

随着测序成本的持续降低和计算机资源的扩展,用于癌症基因组研究和临床应用的WGS分析将变得更加普遍和复杂。癌症WGS为了解癌症基因组的生物学基础以及人类基因组中未开发的非编码区和SV的功能提供了丰富的信息。SV和非编码突变的转录或功能后果有很大的潜力,应通过RNA-Seq的综合分析和DNA甲基化数据、蛋白质表达数据的多组学分析,进一步探索SV和非编码突变的转录或功能后果,和染色质结构或表观基因组数据来解释突变结果,并理解癌症的生物学和免疫学。考虑到癌症基因组和表型的多样性,解释癌症WGS的突变数据还需要分析更多的WGS数据,并在更大的样本集中整合多组学数据、功能数据、免疫基因组数据和临床病理数据。


end

你可能感兴趣的:(癌症基因组学和精准医学的全基因组测序分析)