Nature Genetics|东亚肺腺癌的基因组全景

今天跟大家分享的是二月份发表在Nature Genetics(IF:25.455)杂志上的一篇文章Genomic landscape of lung adenocarcinoma in East Asians。作者对东亚人群的肺腺癌的基因图谱进行了系统地描述和分析,并和欧洲人群的肺腺癌基因组特征进行比较,为更好理解肺腺癌种族差异的全貌并探索其起源进化规律提供理论指导。

Genomic landscape of lung adenocarcinoma in East Asians

东亚肺腺癌的基因组全景

一.研究目的

不同种族人群之间存在潜在的遗传异质性,且多数研究都主要聚焦于欧洲或北美的肺腺癌患者,这些对于东亚人群的肺腺癌无疑具有重大挑战。因此,全面东亚人群的肺腺癌的基因图谱有利于扩大潜在癌症驱动基因的谱系及进一步指导转移性肺腺癌的诊断和治疗。


二.方法解读

(一)队列数据

1.东亚肺腺癌队列

- 新加坡国家癌症中心 (n=213):210例全外显子(WES)和181例全转录组测序(RNA-seq)数据

- 北京基因组研究所BGI队列(n=92):92例WES和WGS数据(从EGA下载)

- 最后合并为EAS队列 (n=305)

2.TCGA-LUAD队列(n=272)

- RNA-seq数据 (原始数据)

- WES数据 (原始数据)

- 排除标准:22位非欧洲血统患者和1位患者(体细胞变异数目为离异值)

- 最后为EUR队列 (n=249)

(二)识别体细胞变异

- 使用BWA-MEM对reads进行比对(参考基因组为GRCh37)

- 使用GATK标记出排完序的数据中的PCR重复序列

- 使用MuTect软件识别SNVs

- 降低假阳性:筛选覆盖突变位点 reads数>3且满足VAF>0.08的位点纳入后续的分析

- 使用Strelka识别体细胞缺失和插入

(三)深度测序-变异验证

(四)识别驱动基因和比较驱动基因频率

- 使用Oncotator软件注释对体细胞变异

- 使用MutSigCV和20/20+识别显著的驱动基因突变(任意1种算法中 q-value<0.1≥ 5)

- EAS队列中驱动基因的识别条件为:

  - 9项已发表研究中的驱动基因(LUAD)

  - 基于PanCancer和PanSoftware分析中与LUAD相关的

  - 该研究中新识别的驱动基因

- 比较驱动基因频率:Fisher’s精确检验(双侧;FDR<0.01)

(五)识别融合基因和验证

- EAS队列中:使用融合基因calling软件FusionCatcher(去除胚系突变后,排除假阳性的融合基因)

- EUR队列中:TumorFusions数据库

(六)识别拷贝数变异(CNA)

- 使用Sequenza算法评估CNA,肿瘤纯度和倍数

- 使用GISTIC算法识别统计学显著的拷贝数区域

- 比较CNV在不同队列中差异:Fisher’s精确检验(双侧;FDR<0.01)

(七)识别突变特征和聚类

- 使用NMF包对EAS队列中突变特征进行分析

- 使用MutationalPatterns对突变特征可视化

- 使用层次聚类

(八)使用NMF对RNA数据结果进行聚类

- 使用DESeq2对RSEM值进行normalization,并进行log2转换。

- 基于中位绝对偏差MAD挑选变异程度最高的3000个编码基因

- 使用无监督聚类方式(NMF)对每个队列中变异程度最高的3000个编码基因进行聚类 (EAS队列中:rank=4)

(九)主成分分析(PCA)和KM生存分析

- 使用stats包中prcomp函数进行PCA降维

- 使用NMF进行聚类

- 基于NMF聚类结果进行KM生存分析

(十) 识别RNA亚型

- 基于GenePattern网页进行SubMap分析(EAS和EUR中基于NMF聚类后交集的基因)

(十一) GSEA和免疫谱分析

- 使用DESeq2对不同分组(NMF Clusters)进行差异分析

- 基于logFC和hallmark基因集(MSigDB),使用fgsea包进行GSEA(*q* < 0.01)

- 使用imsig包进行免疫谱和其他基因集特征分析(如增殖模块和干扰素模块)

- 比较免疫检查点相关基因的表达量(PD1 (PDCD1), PDL1和 CTLA4);免疫浸润和免疫侵袭水平

- 使用ESTIMATE包计算免疫得分和基质得分

- 使用T细胞炎性表达谱(18个基因)计算GEP得分来预测免疫治疗疗效(基于11个管家基因的标准化后的权重加和得分)

- IHC:检测CD8, CD68, CD3 和 PDL1

(十二) 克隆分析

- 使用EstimateClonality计算每种突变的克隆数量

- 使用晚期突变比例(pLM;晚期突变-总突变)评估肿瘤内异质性(ITH)外,利用肿瘤的克隆数(EXPANDS计算),Shannon指标(测量克隆数量和突变多样性)和MATH得分。

(十三) 与生存相关的特征间相关性分析

- 分类变量:Fisher’s精确检验或χ-squared检验

- 分类和连续性变量混合:Kruskal–Wallis检验

- 基于P值计算FDR q值

(十四) 生存分析预测的准确性和重要性评估

- 单因素和多因素COX风险比例模型计算HR值

- 使用C-index评价多因素COX风险比例模型预测结果的准确性


三.结果解读

1.病人样本和测序简介

于新加坡国家癌症中心共招募213位华裔肺腺癌患者,共获得210例WES和181例RNA-seq数据,与已发表的BGI队列(n=92)合并为EAS队列。此外,将TCGA-LUAD队列(排除23名患者后,n=249)命名为EUR队列。相比EAS队列,EUR队列具有更多的吸烟者(具有更高的吸烟年数;图1a)。总体来说,2个队列在年龄,临床分期和其他临床特征较为相似(图1b)。此外,在EAS队列中,无论是吸烟者还是非吸烟者,其突变负荷均显著低于EUR队列(图1b)。


2.EAS LUAD的驱动基因

为识别驱动基因,作者等人基于MutSigCV和20/20+两种算法识别出27个驱动基因(FDR<0.1)。图1c显示EGFR(47%),TP53(36%)和KRAS(11%)为最常见的驱动基因突变;除此之外,潜在融合基因由FusionCatcher软件进行预测。除具有低丰度的驱动基因外,东亚肺腺癌患者具有较低的TMB水平。此外,作者等人在EAS LUAD中识别出7种新的驱动基因,为PARP4(6%),EPRS(4%),LYST(4%),NCOR2(2%),PBRM1(2%),RASA1(2%)和ZMYM2(2%)。图1d显示在比较EAS和EUR队列中,吸烟者中有15个,非吸烟者中具有4个显著差异的驱动基因。基于上述分析结果,作者等人证实了EAS和EUR-LUAD队列中在驱动基因层面存在差异。

图1. EAS LUADs的驱动基因


3.EAS中驱动基因和临床表型间相关性

作者等人将驱动基因与临床特征相关联,发现EGFR突变多出现与女性,而TP53,KRAS,APC,EPRS,LYST和KEAP1突变常常出现于男性和吸烟者(图1e)。此外,年轻人比老年人更易出现TP53突变,而RBM10突变多发生于年老患者。


4.EAS和EUR间CNAs的祖先差异

接着,作者使用Sequenza和GISTIC 2.0算法对拷贝数变异(CNVs)进行分析。相比EUR队列,EAS队列具有更多低频染色体水平(arm-level);且具有更多的染色体缺失 (图2a)。然而,在EAS和EUR队列中,EGFR,MYC和KRAS(驱动基因)存在更多的CNV扩增,而FAT1,APC和STK11存在拷贝数缺失(图2b)。通过计算倍性,基因组加倍(多倍化)和基因组改变(衡量基因组不稳定性的重要指标之一)来比较比较吸烟者和非吸烟者在祖先间的CNV。图2c显示,相比EUR吸烟者,EAS吸烟者倍性更低,基因组加倍肿瘤的百分比更低,并且展示了较低的基因组不稳定性(GII),以上这些可能作为较少CNV缺失事件的主要原因。相反,非吸烟组中,EAS和EUR队列的CNV差异具有趋势性,但无统计学意义(图2c)。以上结果提示,EAS LUAD基因组改变较低,基因组图谱复杂度较低。


5.EAS LUAD的突变特征(signature)

为研究EAS LUAD的突变特征,作者利用NMF算法发现EAS队列存在衰老、吸烟和APOBEC特征。接着,根据NMF算法将EAS LUAD患者分成3组(图2d)。研究发现男性和KRAS突变多出现于吸烟组;而衰老组则呈现可逆图谱。进一步了解肿瘤生成过程中的突变进展,作者将突变划分为早期(克隆)突变和晚期(克隆)突变,并比较3组之间的相对值。结果显示,APOBEC富集于晚期(克隆)突变,但吸烟特征富集于早期(克隆)突变。

图2. CNVs和突变特征分析

6.EAS LUAD的新型炎症亚型

作者使用无监督算法(NMF)对EAS(n=172)和EUR队列(n=249)的RNA-seq数据计算后聚类,结果表明聚类数目为2或3时最佳。基于2个Cluster时,TRU组和非TRU组具有相似的表达图谱;TRU组(无论是EAS还是EUR队列)有着较好的预后,更接近于正常组织,具有下调的增殖通路,较低水平的TMB和基因组不稳定性(图3c,e,f)。若基于3个Cluster时,EAS和EUR队列中TRU和PI两组间具有明显的相关性(图3b),而第三组(TRU-I组和PP组)截然不同。图3g显示TRU-I组具有上调的炎症通路和较高的炎症反应。相比EAS队列中的其他两组(TRU组和PI组),TRU-I组中TP53突变数量少,基因组不稳定性低。接着,从免疫特征分析出发,TRU-1中的T细胞,巨噬细胞,中性细胞,NK细胞和单核细胞的比例最高(图3d,e);而在预后、TMB水平和驱动因素数量方面与TRU组间无显著差异(图3e)。然而,在EUR队列中,PI组多为免疫炎性型,而PP组多为免疫抑制型。以上结果提示炎症特征可能成为LUAD主要的组间轴,并在筛选优势人群中发挥重要作用。

图3. EAS和EUR队列中转录组Clusters


7.治疗时机上的遗传差异

基于EAS和EUR队列的基因组图谱,提示EAS和EUR队列间存在潜在的治疗差异。在RTK/Ras通路中存在多个可靶向基因,如EGFR。联合突变和CNVs分析后发现,EUR吸烟者中KRAS,ALK和ERBB4突变频率显著高于EAS吸烟者,而EUR非吸烟者中MET突变频率显著高于EAS非吸烟者(图4a)。相反,无论吸烟与否,EGFR突变始终在EAS中更为普遍。因此,RTK/Ras通路在EUR吸烟者中突变频率更高,但在EUR非吸烟者吸烟者较低;尽管无统计差异(图4b)。此外,作者分析了常见的致癌通路,在EUR队列吸烟者具有更高的改变频率(尽管部分无统计学差异,但具有一定趋势)。相反,仅在TGFβ和NRF2通路中,在EUR队列非吸烟者具有更高的改变频率(图4b)。然而,并非所有体细胞突变能够最终成为靶向突变。作者将体细胞突变与OncoKB进行后发现,只有EGFR作为EUR和EAS队列中两人主要的基因改变。尽管EUR队列中存在较高的MET和CDK4扩增率,但药物仍在研发中。除了靶向治疗,免疫检查点抑制剂(ICIs)为LUAD患者提供了全新希望。基于GEP得分可预测免疫治疗反应,作者发现EAS的GEP得分显著高于EUR队列(图4d),EAS队列中EGFR-WT患者的GEP得分显著高于EUR队列EGFR-WT患者,EAS队列中EGFR-MT患者的GEP得分显著高于EUR队列EGFR-MT患者,这些结果均提示EAS队列接受免疫检查点抑制剂的潜力更大(图4e)。由于EGFR-MT患者具有较低GEP得分和较低的免疫治疗应答,因此,作者对EAS EGFR-WT患者进行分群,结果显示EAS TRU-I亚组具有更高的T细胞浸润,PDL1表达和GEP得分(图4e和f),TRU-1组亚型可能作为EAS LUAD接受ICIs治疗的潜在预测标志物。

图4. 治疗策略的祖先差异


8.对多个数据层的综合分析

在该研究中,作者发现了几种高度相关的临床特征和突变特征,以此来进一步对EAS LUAD患者进行分层。以往研究表明较高的肿瘤内异质性(ITH)往往提示着较差的预后。然而,作者等人发现EGFR-MT LUAD往往具有较高的ITH和更好的预后结局。为进一步探索多维特征之间的相关性,作者列举了24种特征(从基本临床特征到基因组特征),并将其分为:临床特征,驱动基因,分子特征,ITH相关特征(除了临床特征外,剩余3种均为为“基因组特征”),根据单因素cox模型的结果绘制了相关网络(图5a)。TMB和CNV这2个Cluster代表了连接多个数据层面的主要轴(图5a)。利用单因素和多因素Cox风险比例模型评价模型预测结果的准确性,发现临床特征和驱动基因是最强的预测因子,其次是分子特征和ITH特征(图5a,b)。此外,使用c-index单独评价这些模型(基于多因素cox风险比例模型)的预测准确性后显示出类似的趋势(图5c),而ITH特征预测准确性最低,这表明单部分数据推断的IHC可能不足以准确预测患者的生存。根据多变量Cox风险比例模型中预测的HR值对EAS LUAD患者划分为3组,并观察到多个基因组特征显著分离(图5e,f)虽然临床特征是强有力的预测因素,但基因组特征本身也能较好地预测患者的生存期,而在无临床特征的多变量模型中仍然可以将患者分为早期和晚期,这一点突出了基因组特征的在预后预测中发挥的重要作用。在EUR队列中展开同样的分析后发现,EAS和EUR队列具有许多类似的趋势:(1)EGFR-MT LUAD具有更高的ITH值;(2)TMB和CNV Cluster之间存在高度关联的网络结构;(3)临床特征是预测患者生存的首要因素,其次是驱动基因 (图5b,c);(4)基因组特征在不同生存亚组间明显分离;(5)从基因组特征出发,LUAD可划分为早期或晚期肿瘤。基于以上结果提示,在最初的LUAD中(EAS和EUR队列中),其基本结构呈现相当保守特征。尽管有这些相似之处,EAS中吸烟状态、样本量或EGFR突变状态等方面生存结果的预测准确性普遍高于EUR(图5c)。由于EUR队列 LUADs具有更高频率的基因组改变,可能成为EUR的生存可预测性差的一个重要原因。此外,在基因组稳定性高的LUAD中使用临床特征和驱动基因的预测生存的准确性更高(图5d)。因此,EAS LUADs中更稳定的基因组可能比EUR更稳定的基因组具有更好的预测准确性。

图5. 生存分组和队列之间差异


到这里文章的主要内容就介绍完了,作者对东亚人群的肺腺癌的基因图谱进行了详细描述和分析,并和欧洲人群的肺腺癌基因组特征进行比较。此外,从驱动基因突变,拷贝数变异,转录组分型和免疫特征对东亚和欧洲人群进行了充分比较,基于这些结果揭示东亚和欧洲人群在肺腺癌间的可能祖先差异因素。此外,评价多种与生存预后相关特征对生存预测的准确性,最后得出基于临床特征可能更为准确的预测肺腺癌患者生存,此外,驱动基因特征也能较好得预测患者生存。该研究的主要精彩之处在于作者揭示了东亚和欧洲肺腺癌特征差异,为东亚肺腺癌患者筛选优势人提供了理论指导。

你可能感兴趣的:(Nature Genetics|东亚肺腺癌的基因组全景)