PCAWG | 泛癌全基因组分析

发表期刊:Nature 

发表日期:2020.02

影响因子:42.778

癌症是全球第二大常见死因,每年超过800万人因癌症丧命。预计在未来十年,癌症发生率将增加50%以上。癌症是体细胞亚克隆自主发展和扩散类疾病的总称。癌症克隆控制多个细胞通路,打破正常细胞的生长和调控等限制,获取自主发展和扩散的特征。单个细胞通路改变不足以引发癌症。每个癌症由潜在的致病异常“池”中的多个异常通路组合而引发。

肿瘤异质性来自于达尔文进化的随机性。达尔文进化的三个先决条件:(1)群体中的特征是变化的;(2)变异从亲本遗传到子代;(3)群体为了生存进行竞争。一部分突变改变细胞表型,一部分突变使克隆获取逃逸正常生理控制的优势。提供选择优势的突变称为驱动突变,反之称为乘客突变。

1.泛癌全基因组分析

选用2834个患者人全基因组测序数据(WGS),去除176个患者低质量数据,共计2658个患者的WGS数据,其中有2583个患者高质量数据。2658个患者共取2605个原发肿瘤和173个转移或复发肿瘤,正常样本平均测序深度为39×,肿瘤测序深度分别为38×和60×。研究群体包括1469男性(55%)和1189女性(45%),平均年龄56岁,覆盖38种肿瘤类型。其中,1222个患者具有RNA-seq数据。

利用以上数据分析somatic SNVs, somatic Indels, somatic CNVs, somatic SVs,体细胞逆转录事件,线粒体DNA突变、端粒长度以及germline SNV, Indel, SVs等事件。

图1 PCAWG分析流程

2.基因组变异检测基准

利用3个核心变异检测流程和额外10个变异检测流程,对63对tumor-normal变异检测,估测3个核心流程的敏感度和精确度。并对其中50对进行高深度靶向测序验证。3个核心流程检测到真实变异的敏感度为80~90%,每个流程检测的95%以上变异是真实的somatic mutations。针对Indel检测,3个核心流程的敏感度是40~50%,精确度是70~95%。SV检测算法的精确度在80~95%。

对3个核心流程的变异结果合并,评估合并集合中突变的属性:Somatic SNVs敏感度为95%(90%置信区间,88~98%),精确度为95%(90%置信区间,71~99%)。Somatic Indels 检测敏感度为60%(34~72%)和精确度91%(73~96%)。合并的Somatic SVs 敏感度为90%,精确度为97.5%。多种方法检测变异提高了低频突变检出的准确性。

图2 不同软件检测somatic SNV和Indel的精确度和敏感度;ab标蓝是文章所用软件  

3. PCAWG数据分析

分析2583个患者数据,共检测到43,778,859个somatic SNVs,410,123个somatic 多核酸突变,2,418,247个somatic Indels,288,416个somatic SVs,19,166 体细胞逆转录事件,8,185个新线粒体突变。通过相关性分析,发现诊断年龄和体细胞突变数量相关:年龄每增长一年,增加约190个SNVs,约22个Indels。

3.1癌症驱动突变全景图

根据突变的性质和已知癌症相关基因,预测肿瘤的驱动基因;利用已知的启动子和增强子分析非编码驱动突变。结果发现,91%的肿瘤至少有1个驱动突变,每个肿瘤平均有4.6个驱动突变(癌种之间变化较大)。对于编码区点突变,每个肿瘤平均有2.6个驱动突变。除此之外, 13%(785/5913)的驱动点突变是非编码突变,而且1/3(237/785)突变发生在TERT启动子上;25%肿瘤具有非编码驱动突变。说明:非编码区驱动点突变频率较编码区低;与TERT启动子相比,其他启动子和增强子并不常发生驱动突变。

根据肿瘤类型,SVs和点突变致力于不同的癌症发生机制。驱动SVs常发生在乳腺癌和卵巢腺癌;驱动点突变常出现在在结肠腺癌和成熟B细胞淋巴瘤。

文章发现抑癌基因的驱动突变多为二次打击事件。例如,954个肿瘤具有TP53突变,736(77%)个肿瘤样本的两个等位基因均发生突变,其中96%(707/736)是等位基因突变和等位基因缺失同时发生。17%的病人在癌症相关基因上具有稀少的胚系蛋白截断体突变,5.4%病人由于somatic mutations导致以上基因次等位基因失活。

图3 驱动基因突变分布:a.由外到内(1)驱动突变总数目;(2)全基因组重复;(3)肿瘤类型;(4)驱动CNA数量;(5)驱动基因组重排数量;(6)驱动编码点突变;(7)驱动非编码突变;(8)致病胚系突变;b.不同癌种中驱动突变数量;c.二次打击事件类型

3.2没有驱动突变的PCAWG肿瘤数据分析

90%以上的PCAWG样本鉴定到驱动突变,仍有181个样本未检测到驱动突变。分析肿瘤样本未找到驱动突变的原因,有以下几点:(1)样本质量低:4/181个样本的正常对照被肿瘤DNA污染,每个对照含有超过5%的肿瘤DNA;同理,肿瘤样本中肿瘤细胞含量较低也会影响突变检出;(2)驱动突变位点覆盖度较低无法满足突变检出:6个肝细胞癌和2个胆管癌在高深度靶向测序后检测到TERT突变;(3)生信分析方法:35个骨髓增生性肿瘤未检测到JAK2V617F突变,由于利用Panels of normals作为对照去除测序影响导致。2~5%的健康人群具有造血克隆,可能涵盖了驱动突变;(4)驱动基因检测力不足,说明某些肿瘤中存在未被发现的基因富集;(5)染色体变异:19/43肾细胞癌和18/81前列腺癌缺少驱动突变,但发生染色体异常,有可能单凭染色体扩增或缺失足以引发癌症。

图4 未检测到驱动突变的病人分析;a.评估正常样本中被肿瘤污染的比例;b. 评估每个肿瘤类型检测敏感性;c. TERT启动子热点突变检测敏感度;d. 显著的拷贝数缺失事件;e. 肾细胞癌和胰腺神经内分泌瘤染色体重排

3.3成簇突变和SVs模式

癌症中,单个灾难性事件可产生多个聚集性突变,导致基因组大量重组。主要包含:(1)染色体重排:不同染色体的DNA双链断裂修复导致重排发生;(2)Kataegis(雷雨):单链DNA局部超突变,导致聚集性核苷酸替换;(3)染色体碎裂:数十数百个DNA断裂同时发生在一个或者几个染色体,产生的碎片随机组合在一起。

467个样本(17.8%)发生染色体重排和平衡易位,主要发生在前列腺癌、淋巴系统恶性肿瘤和甲状腺癌。重排事件导致甲状腺癌的部分融合基因的产生,例如RETNTRK3IGF2BP3等等。

60.5%癌症中发生Kataegis事件,例如肺鳞癌、膀胱癌、肢端黑色素瘤和肉瘤等。Kataegis主要包含(1)由APOBEC活性导致TpC的C>N 突变;(2)聚合酶导致TpT或CpT的T > N突变。81.7%的Kataegis事件与APOBEC3B表达水平相关,5.7%与易错聚合酶相关,以及2.3%事件是GpC 或 CpC的胞嘧啶脱氨导致的。Kataegis事件与SV断点相关,尤其是缺失和复杂重排事件,包括在缺失附近10-25kb内CpTpT的T>N 突变。

Kataegis事件包含4种局部超突变类型:(1)脱靶体细胞超突变和局部CpTpT的T>N 突变;(2)与复杂重排相关的APOBEC;(3)后随链和早期复制区域的APOBEC;(4)后两种类型混合。

587(22.3%)个染色体碎裂样本,主要为肉瘤、脑胶质瘤、肺鳞癌、黑色素瘤和乳腺癌样本。染色体碎裂伴随全基因组重复,相关的驱动基因为TP53。肉瘤和B细胞淋巴瘤患者中,女性发生染色体碎裂的频率高于男性;前列腺患者中,晚期患者具有更高频率的染色体碎裂。染色体碎裂区域包含3.6%驱动基因和7%拷贝数驱动。

图5 PCAWG聚集性突变模式

3.4进化中时间聚集性突变

根据分子时钟分析每个肿瘤的进化史:主克隆发生在早期,亚克隆突变发生在后期;拷贝数扩增区域,分子时间根据突变发生在拷贝之前或者之后进行划分。染色体碎裂通常发生在主克隆,特别是在脂肪肉瘤、前列腺癌和肺鳞癌说明是癌症进化早期事件。在黑色素瘤中,染色体碎裂扩增涉及到较多的癌症相关基因,例如CCND1TERTCDKN2ATP53MYC

在扩增的染色体碎裂事件中,利用SNV的拷贝数目计算扩增发生的时间,SNV发生在扩增之前,将会有很高比例的reads携带SNVs。相反,SNV发生在拷贝数变异之后,将只有一条染色体携带SNV,具有较低的变异频率。肢端黑色素瘤的CCND1扩增区域具有较少的高频突变,而皮肤黑色素瘤更多突变发生在扩增之前。

图6 PCAWG聚集性事件时间

3.5胚系突变对somatic mutations的影响

根据检测到的胚系突变分析胚系突变对体细胞突变率和模式的影响作用。利用欧洲群体中MAF>5%的胚系突变位点进行GWAS分析,发现APOBEC3B突变机制可以利用22q13.1预测,信号最强位点是rs12628403。该位点标记了常见的30kb胚系APOBE3B编码序列缺失和APOBEC3B的3’非翻译区域APOBE3A编码序列融合。除此,文章在22q13.1位置发现一个新的突变位点rs2142833,并验证其与APOBEC3B突变相关性。rs12628403和 rs2142833在欧洲群体中是独立遗传的,rs2142833是APOBEC3B的eQTL。

利用稀有突变(MAF<0.5%)分析欧洲群体中胚系蛋白截短体(PTVs)和体细胞DNA重排相关性。胚系BRCA2和BRCA1蛋白截短体和小于10kb的体细胞缺失和串联重复负荷相关。BRCA1蛋白截短体和模板插入具有显著相关。20/21个BRCA1相关肿瘤出现模板插入表型,且胚系突变和体细胞突变均发生在该基因上。说明BRCA1基因的次等位基因失活驱动模板插入SV表型。

稀有突变关联分析发现胚系MBD4蛋白截短体突变增加CpG位置的体细胞C>T突变。MBD4编码DNA修复基因,移除甲基化CpG上的T:G错配的胸腺嘧啶。

评估LINE调控体细胞反转座子事件,验证114个胚系LINE对体细胞反转座激活能力,包含70个人类基因组相关插入和53个连锁不平衡SNP。16个L1元件介导67%(2440/3669)的转座事件,以两种形式进行体细胞激活,称为Strombolian和Plinian;Strombolian在人群中分布频率较高,引发中小规模的体细胞L1激活;Plinian在群体中频率很低,引发严重的体细胞L1激活。

图7 与somatic mutations相关的胚系突变  

3.6复制的永生

癌症特征之一是逃避细胞衰老,保持端粒长度是癌症永久复制的因素之一。16%的肿瘤在ATRXDAXXTERT基因上发生突变。聚类端粒序列的12个特征得到4个肿瘤亚型,说明ALTTERT介导的端粒变异的不同。

体细胞驱动突变在四个亚型中分布不同。C1主要富集RB1突变和影响ATRX的SV,C2主要富集ATRXDAXX的体细胞点突变,C3样本主要发生TERT启动子突变。RB基因缺失与端粒延长相关。高频发生端粒异常机制的肿瘤主要由于组织中低复制活性。

图8 PCAWG的端粒模式

总结

利用泛癌全基因组测序数据对驱动突变、结构变异、克隆进化以及转座子事件和端粒模式进行详细分析,绘制泛癌基因组特征和阐明引发癌症的多样性因素。

参考文献

ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium. Pan-cancer analysis of whole genomes. Nature. 2020, 578(7793): 82-93.

原文链接:https://www.nature.com/articles/s41586-020-1969-6

你可能感兴趣的:(PCAWG | 泛癌全基因组分析)