Mechanisms underlying mutational signatures in human cancers

Corresponding author: Serena Nik-Zainal
CRUK Advanced Clinician Scientist and Honorary Consultant in Clinical Genetics
Home department: Academic Department of Medical Genetics, Lv 6, Addenbrooke’s Treatment Centre,University of Cambridge

定义:Each mutational process leaves a characteristic pattern——mutational signature——on the cancer genome, which is defined by the type of DNA damage that has occurred as a result of a plethora of exogenous and endogenous DNA damaging agents, as well as by the DNA repair or replicative mechanisms that were successively activated.

癌症发展过程中的主动突变过程:在这个假设的癌症基因组中,箭头表示突变过程的持续时间和强度。最后的突变画像是所有不同的突变过程(A-D)在整个生命周期中一直活跃的总和。正在进行的突变过程反映了癌症中活跃的生物学过程,可以作为生物标志物来监测治疗反应或作为治疗抗癌目标。相比之下,历史突变过程不再活跃。signature A代表了甲基化胞嘧啶的脱氨作用,这是贯穿生命的过程。signature B可以与吸烟的签名相匹配,signature C可以表示APOBEC导脱氨的爆发性发生,signature D表示DNA修复途径出现了错误。

突变特征不仅解释了在癌细胞中出错的机制,而且还解释了这种扰动对癌细胞的影响程度。然而,对潜在的个体突变过程仍缺乏深入的了解。为了区分正在进行的突变过程和历史上的突变过程,更好地理解特定的突变签名是如何产生的是很重要的。历史上的突变过程提供了过去暴露的信息,因此,作为这些过程基础的突变签名具有关于癌症预防和公共卫生的重要信息。然而,因为它们不再积极促进癌症的发展,它们作为生物标志物或治疗靶点的价值有限。相反,正在进行的突变过程可以作为预后指标,作为治疗敏感性的预测因子或疾病控制的目标。

从复杂数据集中提取mutation signature

A mathematical approach for extracting mutational signatures
非负矩阵分解(NMF)和模型选择只是以前开发的许多方法之一,这些方法用于分解或减少复杂的多维数据集,以便识别共同的、定义组成池数据集的底层模式。
Quantifying the amount of each signature in each cancer
对于每个突变特征,NMF允许估计每个特征对单个癌症最终突变目录的相对贡献(见上图)。每个特征的数量可以在每个癌症中以比例贡献或绝对值的形式量化。因此,NMF既能突出主要由单一突变特征驱动的癌症,又能识别具有许多不同特征组合的癌症(见图)。NMF甚至可以识别无处不在的最低水平的签名。

Mutational signatures of base substitutions

6种单碱基突变谱:C·G→A·T, C·G→G·C, C·G→T·A, T·A→A·T, T·A→C·G and T·A→G·C
在肺癌中smoking-related damage主要是G·C→T·A 11
在皮肤癌中ultraviolet (UV) radiation exposure相关的主要是C·G→T·A transitions8
同时突变点侧翼的碱基类型也会影响mutation rates,共有16种不同的侧翼类型(A, C, G or T at the 5′ base and A, C, G or T at the 3′ base)。因此总共有6*16=96种不同的mutated trinucleotides。
在最近的研究中,通过对30种不同的肿瘤>7000个样本的测序发现了21种不同的signature9。每一种碱基替换signature代表了96种元素的模式。
每种类型的DNA损伤都有自己对特定核苷酸的偏好,可以产生可识别的突变模式。最显著的碱基替换签名如下图所示,展示了每个签名的96个元素模式,以及构成决定突变过程的DNA损伤和修复或复制组件。

Summary of known mutational signatures, and the components of DNA damage and repair that constitute the mutational processes.

Mechanisms underlying substitution signatures

DNA不断受到来自各种外源性和内源性来源的攻击。每一种诱变剂都能直接或间接地对基因组中的核苷酸造成损害。此外,每一种诱变剂都表现出破坏特定核苷酸的倾向,从而产生可识别的诱变模式。

Endogenous DNA damage.

部分突变过程是由于脱氨基deamination作用导致的,这个过程会自发的发生于所有包含第一胺的DNA碱基上,尽管速率会有所不同,常见的脱氨基反应包括5-methylcytosin→thymine(胞嘧啶受到甲基化之后的产物5-甲基胞嘧啶,会在脱氨作用下转变成胸腺嘧啶), cytosine→uracil(胞嘧啶也会因为脱氨作用而转变成尿嘧啶) and adenine→hypoxanthine(腺嘌呤会变成次黄嘌呤H) reactions. 胞嘧啶自发脱氨基的频率约为每个细胞每天190个。

在整个进化过程中,5-甲基胞嘧啶在CpG二核苷酸处的水解脱氨作用频繁发生,这被认为是在人类基因组中观察到的甲基化CpG数量减少的原因。尽管这些位点的绝对数量减少了,但它仍然是最具诱变性的序列基序之一。NpCpG上的C·G→T·A取代是两个最常见的signature——Signatures 1A and 1B,已经在25种癌症中被发现。有趣的是,这些signature的突变符合与患者诊断年龄存在相关性,例如成人癌症(急性髓系白血病、乳腺癌、胶质瘤、头颈部癌症、肾透明细胞癌、恶性黑色素瘤和卵巢癌)和儿科癌症(急性淋巴细胞白血病和神经母细胞瘤),提示突变过程发生在恶性转化早期。

胞嘧啶脱氨成尿嘧啶的过程被认为是由胞苷脱氨酶家族成员(包括活化诱导的胞苷脱氨酶(AICDA)和APOBEC(apolipoprotein B mRNA editing enzyme, catalytic polypeptide)酶催化的。AICDA是这个DNA编辑酶家族中特征最明显的,表现出强烈对5‘端为嘌呤的胞嘧啶的脱氨基偏好。相比之下,APOBECs具有不同的作用,包括限制逆转录病毒和移动逆转录因子,表现出不同的序列特异性,例如,APOBEC1、APOBEC3A、APOBEC3B和APOBEC3C在酵母和人类细胞系等实验系统中表现出对TpC序列的偏好。首先在乳腺癌中发现,在突变胞嘧啶(TpCpN)之前有胸腺嘧啶的特征(Signatures 2 and 13),也在其他16种肿瘤中被发现,胞苷脱氨酶家族 (APOBEC3A, APOBEC3B and APOBEC1)的特定成员可能是这一现象的基础。有趣的是,与Sig2和13相关的突变显示出高度的链协调(strand coordination):连续突变可以是C→T then C→G followed by C→T, or G→A then G→C followed by G→A, but not C→T, G→A followed by C→T。尽管Sig2和13可能是通过APOBECs相同的DNA损伤机制产生的,但Sig13主要由C·G→G·C转位所控制。换句话说,突变胞嘧啶碱基的序列上下文与Sig2 (TpCpN)共享,因为DNA损伤酶可能是相同的,然而,Sig13中的转位相对于签名2中的转位过多,表明两个Sig之间的修复或复制聚合酶的参与略有不同。

腺嘌呤脱氨生成亚黄嘌呤的速率为胞嘧啶脱氨速率的10%。产物在复制过程中优先与胞嘧啶配对,可引起A·T→G·C的转移。有几个特征为A·T→G·C跃迁的Sig(Sig5、12、16和21)已在原发性人类癌症中发现,尽管目前还没有一个Sig被明确归因于这种突变过程。

像活性氧类或氮氧化物种类这样的自由基物种Free radical species是由正常细胞代谢的副产品产生的,包括细胞凋亡和炎症反应,以及接触外源性药物,如电离辐射。他们与DNA的相互作用会导致> 25种不同的氧化DNA碱基损伤。8-羟基脱氧鸟苷(8-oxo-2′-deoxyguanosine)是目前研究最多的活性氧DNA氧化损伤之一。研究表明,它有利于与腺嘌呤的氢键结合,从而在体外产生G·C→T·A转位,这证明了GpGpG序列的特异性。虽然有两个新的Sig(Sig8和18)主要由G·C→T·A突变组成,但来自原发性人类癌症的突变特征尚未被归因于这种氧化性DNA损伤。

Exogenous DNA damage.

DNA损伤的环境来源可以是物理或化学的。非电离辐射携带足够的能量可以激发分子键引起相邻嘧啶间的共价修饰。该修饰导致了 (6–4) pyrimidine photoproducts ((6–4)PPs) 和cyclobutane pyrimidine dimers (CPDs)。与这一发现一致的是,在双嘧啶(两个相邻的嘧啶)中常见C·G→T·A mutations,且与UV相关的皮肤癌中也发现了大量CC·GG→TT·AA double substitutions (Signature 7),CC·GG→TT·AA double substitutions 占这些癌症的25%突变负荷,可用于指示UV-related DNA damage。Signature 7 is caused by deamination of cytosines to uracil within (6–4)PPs or CPDs at sites of stalled transcription complexes,这触发了转录偶联修复(TCR)的活性,这一过程解释了为什么Sig显示出转录链偏倚(即转录链上的突变发生率低于非转录链)。

DNA repair processes.

[图片上传失败...(image-2718af-1558451643100)]
碱基切除修复(base excision repair, BER)中,碱基损伤是由DNA糖基化酶识别、水解裂解并移除改变的碱基,从而产生无嘌呤或无嘧啶位点。未修复的无嘌呤或无嘧啶位点尤其具有诱变作用,因为在复制过程中很容易引入错误的碱基。随后,DNA-(apurinic or apyrimidinic site) lyase APEX1 将DNA链5 '切割到无嘌呤或无嘧啶位点。复制的DNA聚合酶β(Polβ)的催化作用消除5′-deoxyriboso-phosphate residue,然后填充一个核苷酸的gap(上图a)。然而,迄今为止,从人类癌症中提取的96个元素的Sig并没有被归因于BER通路特定成分的缺陷。

核苷酸切除修复(NER)是一种非特异性的修复过程,当检测到大量的DNA畸变时就会被激活(上图b)。一类特殊的与转录结合的NER是TCR。TCR的一个结果是转录链上的修复比非转录链更有效。在几个Sig中,TCR的作用活性是明显的。例如,构成UV相关Sig7的C·G→T·A跃迁显示转录链偏倚;也就是说,在转录链上发现的突变比在非转录链上发现的少。这一偏倚也出现在其他Sig中,包括B[a]Ps (Signature 4) 和 aristolochic acid (Signature 22)。一些显示转录链偏倚的新Sig(Sig5、8、12和16)已被进一步确认,这表明这些可能是由TCR修复引起的。然而,BER最近也显示出转转录链偏倚,这表明有其他机制可以在这些Sig中产生链偏倚。

复制后错配修复(mismatch repair,MMR)系统可以识别和修复错误的碱基,以及在DNA复制和DNA重组修复活动中出现的错误indels(上图c)。MMR将复制相关错误的发生率降低了100倍,至1/10-9次方。因此,MMR通路的缺陷增加了自发突变率。MMR相关蛋白的突变影响基因组稳定性,导致微卫星不稳定。与MMR相关的基替换Sig以前从未在实验系统中显示过。然而,从原发性人类癌症中提取的碱基替代特征(Sig6)——其特征是NpCpG序列上下文的C·G→T·A转移和CpCpC的C·G→A·T转位——与MMR缺陷(MMR基因的双等位体突变,尤其是那些影响MLH1甲基化的突变)有关。此外,含有高比例这种特征的癌症也显示出数千个1-bp的小indel,这是一个与微卫星不稳定性相关的特征。最近,新发现的Sig20和26与MMR缺陷有关,但证据还需要进一步验证。

DNA replication errors.

考虑到人类基因组的大小(~3×109个核苷酸),即使是DNA合成过程中最小的错误率也可能导致许多突变,这就强调了复制机制是突变的一个来源。DNA聚合酶利用模板DNA链,在DNA复制和与DNA修复相关的合成过程中,选择核苷酸与新生链结合;然而,复制不匹配replication mismatches可能在新生的链上生成。高保真的DNA聚合酶Pol δ and Pol ε的错误率是1 in 107次方。Pol ε的体细胞和生殖细胞突变与结直肠癌和子宫内膜癌的Sig10有关,它们在TpCpG上形成了C·G→A·T和C·G→T·A突变的显著模式。

在癌症发展过程中,细胞周期调控的常规约束的丧失导致对dNTP池的需求增加。dNTP池的扰动可以造成insertion–deletion loops and erroneous base incorporation,会影响Pol δ and Pol ε的 proofreading efficiency。

低保真的聚合酶,如Pol η, Pol ι, Pol κ and DNA repair protein REV1,可以损害DNA和DNA模板。与核DNA复制聚合酶相比,这些translesion polymerases聚合酶具有更高的错误率(其错误率介于1 / 104和1 / 10之间),因为它们缺乏校对能力,而且对不匹配的、不合适的核苷酸识别能力较差。这种被称为DNA损伤耐受的现象对于以引入错误为代价完成复制是至关重要的,这些错误稍后可能通过切除修复路径得到修复,并避免复制叉崩溃。然而,通过提供这种逃逸途径,translesion polymerases聚合酶可以产生无数潜在的突变谱。

Mutational signatures of indels

Indel signatures.

重复序列中的小1-3-bp indels与碱基替换Signature相关,该签名的特征是在NpCpG(Signature 6)处有额外的C·G→T·A的突变(Signature 6),在结直肠癌、子宫癌、肾癌、肝癌、前列腺癌、食管癌和胰腺癌中,Signature 6和small indels更多可见。相反,larger indels (between 4 bp and ~50 bp) 与Signature 3有关,这一特征在乳腺癌、卵巢癌和胰腺癌中都有报道。

Mechanisms of indel signature formation.

上述两个对比鲜明的indel特征被认为是由于DNA修复机制的缺陷而产生的。例如,人类MMR的缺失会导致微卫星不稳定,这是一种indel现象,可以通过单核苷酸或二核苷酸重复序列重复长度的变化来识别,这在结直肠癌中很常见。

重叠的微同源性通常被认为是DNA双链断裂(DSBs)的非同源末端连接(NHEJ)修复的一个特征,其中同源性的短片段被对齐以介导两个DNA片段的连接(上图d)。Sig3与BRCA1(乳腺癌1,早发)和BRCA2的失活突变有关。BRCA1和BRCA2蛋白产物参与无错误的同源重组DSB修复,其中BRCA1控制DNA末端切除,BRCA2是将RAD51装载到ssDNA上所必需的。因此,在BRCA-或BRCA2缺失的癌症中,微同源性介导的indels的增加频率可能反映了对这些癌症中DSB修复的替代方法的需要。然而,目前尚不清楚同源重组通路的这两种不同成分的缺陷如何导致与较大的微同源介导的indel信号相关的体细胞碱基替换的最终特征读出(Sig3)。这一特征可能反映了BRCA1或BRCA2在对DNA损伤反应中的补充作用,也可能是容易出错的聚合酶招募增加的结果,以弥补无法使用同源重组来绕过损伤。

Mutational signatures of structural variations

体细胞获得性重排的情况极为多样,从非常少的突变到每一个癌症有数十或数百个突变。一些与癌症相关的重排是功能驱动事件,并受到强烈的选择,包括致癌区域的扩增、全外显子或全基因缺失、涉及肿瘤抑制基因的整个染色体臂的丢失以及产生致癌融合基因的易位79。然而,大多数的重新安排都是乘客事件。由于当前重组调用算法的局限性,从下一代测序数据调用体细胞重排的能力仍然充满了挑战。因此,癌症基因组数据集在结构变异方面并不像在碱基替换突变方面那样具有全面的特征。然而,体细胞重排的模式、它们在整个基因组中的空间分布以及现有重排数据集断点处的连接特征揭示了参与体细胞结构变异产生的一些损伤和修复机制。

DSB(DNA double-strand breaks)通过直接或间接的机制产生结构变异,这些机制可以决定最终的molecular signature。初级DSB是由于直接损伤导致糖-磷酸骨干断裂(例如,通过电离辐射),而次级DSB是复杂的DNA损伤的结果,当遇到复制叉时,会导致复制崩溃。每一种DSB修复机制都会在基因组中留下characteristic imprint of activity。

微同源介导的末端连接(MMEJ)是NHEJ的一个亚型,是一种利用5-25bp的微同源序列来介导易错配的末端连接的DNA双链断裂修复机制。在细胞周期中,不同于同源重组,MMEJ修复是在G1/早S期活跃,其中,由于有限的末端处理活动,暴露在DNA末端的ssDNA之间的微同源性促进了ligation。MMEJ通常参与原发性癌症和细胞系的体细胞结构变异,以及实验性DSB修复模型,特别是在同源重组有缺陷的系统中。NHEJ在细胞周期中近乎恒定的作用使其在所有形式的结构变化中几乎无处不在。

Tandem duplications.

在乳腺癌和卵巢癌中,有微同源连接的串联重复(即从头到尾重复相同的序列)的报道。其中一些癌症显示出BRCA1的双等位基因缺失。有趣的是,与RAD51介导的同源重组不同的特异性同源重组子通路参与了串联重复的产生。在这个途径中,DNA在DSB结束,DSB发生在复制叉上,侵入姐妹染色单体,在一个被称为断裂诱导复制(BIR)的过程中重新启动复制(下图a)。被侵入的DNA链可以通过分支迁移得到释放,新的双链DNA延伸端通过MMEJ修复,形成串联复制。 这种结合被称为合成依赖末端连接(synthesis-dependent end-joining, SDEJ),以前曾被认为是哺乳动物基因组的串联复制的一个机制。具体来说,SDEJ的启动方式类似于所有同源重组事件,方法是切除DNA末端,然后是姐妹染色单体的链侵入和D-loop上的DNA延伸。然而,与DSB 的合成依赖链退火模型不同的是,后随链的合成也是在姐妹染色单体上进行的,所释放的DNA分子将部分为双链。当连接到相反的DNA末端(使用MMEJ)时,随着复制扩展到原始断点之外,就会产生串联复制。
[图片上传失败...(image-f35049-1558451643100)]

Clustered structural variations.

体细胞结构的变化——例如,乳腺癌中的HER2(也称为ERBB2)等致癌扩增——是区域性或拓扑聚集(regional or topographically clustered)的,这些体细胞事件显示高水平的拷贝数(>5)和许多类型的微观重排在一个宏观区域。导致癌症基因扩增的确切机制尚不清楚。Barbara McClintock在1938年首次提出的模型表明,由DSB启动的染色体内breakage–fusion–bridge可以促进变异的发生,从而导致局部扩增(上图b)。如果这个假设是正确的,那么DNA复制很可能在癌症发展过程中穿插着结构变异的积累,即使结构变异可能是在相当短的时间内积累起来的。这一假说不同于一种叫做"染色质碎裂chromothripsis"的现象,染色质碎裂是由数十到数百个局部聚集的结构变异组成,这些变异表现出一种带有DNA片段分散损失的 copy-number 'oscillations'(约2-3个拷贝数)的特征模式。这种结构变异也是局部的,但与基因扩增不同,因为它据说是在癌症历史上的一个灾难性时刻出现的。染色体内和染色体间的重新排列都是由染色体减数分裂引起的,这可能导致小的圆形标记染色体(double-minutes)的形成,随后可能会扩增(即拷贝数的增加),特别是当它们含有致癌基因时。最近,“chromoplexy”一词被用来描述复杂的重排现象,这种重排包括多个染色体连接在一个重排链中,没有特定的病理生理机制涉及到这个描述性的术语。
重排显示出带有碱基置换超突变的显著共域化现象,这种现象被称为kataegis。它们包含C→T·G·transitions和C·G→G·C transversions,明显倾向TpC序列。虽然背后的确切机制是不确定的,但根据在诱导的DNA DSB周围发现了在这个特定的序列上下文中过量的碱基取代,推测这些聚集突变发生在暴露ssDNA(胞苷脱氨酶APOBEC家族的特定底物)的末端切除的DSB上。

Chromosomal instability.

从历史上看,染色体不稳定性是在宏观或染色体尺度上使用光谱核型等技术定义的一种特征。从生物学上讲,染色体不稳定性被归因于在涉及结直肠癌细胞的研究中,由于激活癌基因如HRAS、CCNE1(编码细胞周期蛋白E)、MOS和细胞分裂周期6 (CDC6)而引起的复制压力。这些激活的癌基因诱导细胞周期蛋白依赖性激酶2 (CDK2参与复制起始的激活)的deregulation,有趣的是,致癌基因诱导的复制压力已被证明会导致遗传不稳定和DSB的形成,特别是在易碎位点,这是基因重组的热点。目前,尚不清楚染色体不稳定性如何转化为碱基对水平上的基因组特征。

Structural variation and immune loci.

double-ended DSBs的产生可能是生理性的。它是免疫系统细胞IG位点成熟的必要组成部分。这种有意的活性可以通过V(D)J重组活化蛋白1 (RAG1)和RAG2,以及通过激活诱导的cytidine deaminase (AID)介导的类开关重组或somatic hypermutation实现。有趣的是,这些蛋白的作用可以作为各种血液恶性肿瘤的标志。例如,RAG蛋白支持IGH位点和驱动滤泡性淋巴瘤的b细胞CLL/淋巴瘤2 (BCL2)基因之间的重新排列(上图c),而AID蛋白是C-MYC-IGH染色体易位所必需的(上图d)。在这些恶性肿瘤中,利用全基因组方法对淋巴细胞易位分布的详细分析,为了解AID介导的重组的非随机性提供了解读。与kataegis相似,置换的焦点被发现与重排是耦合的,但与kataegis不同,它们不是随机的;也就是说,它们在IGH和C-MYC位点上显示复发。它们还表现出对突变胞嘧啶之前嘌呤的偏爱;这种序列特异性不同于kataegis,但与AID介导的易位一致。断点分析表明,MMEJ参与断端ligation.

你可能感兴趣的:(Mechanisms underlying mutational signatures in human cancers)