Nat. Cancer | 细胞表面蛋白图谱与多组学数据整合发现有用的药物靶点
原创 楠烟不可言 图灵基因 2022-01-01 07:03
收录于话题#前沿生物大数据分析
撰文:楠烟不可言
Nature新子刊
推荐度:⭐⭐⭐⭐⭐
亮点:
本研究全面识别和注释编码细胞表面蛋白(SPs)的泛癌基因(GESPs),并描述了GESP表达模式、复发性基因组改变、重要性、受体-配体相互作用和治疗潜力。同时研究还发现GESP的mRNA表达具有癌症类型特异性,并且与蛋白质表达呈正相关,某些GESP亚群作为肿瘤细胞生长的常见或特异性必需基因发挥作用。此外研究人员还预测了受体-配体相互作用在癌症中的实质性解除调控,并使用系统生物学方法,确定了具有治疗潜力的癌症特异性GESP。
近日由宾夕法尼亚大学Lin Zhang研究组在《Nature Cancer》杂志上发表了一篇名为“The Cancer Surfaceome Atlas integrates genomic, functional and drug response data to identify actionable targets”的文章。细胞表面蛋白(SPs)是免疫和靶向治疗的丰富来源。通过系统地整合单细胞和体细胞基因组学、功能研究和靶点可操作性,本研究结合了多种计算方法,系统地表征了 33 种成人癌症的人类表面组。开发了一个可公开访问的表面组数据库 (TCSA),以帮助研究人员探索癌症基因组中的 GESP。
细胞表面蛋白(SPs)是跨越或锚定/嵌入细胞表面质膜的蛋白质,控制细胞与细胞外环境之间的通信。SPs在细胞膜上发挥特定的功能,如营养和离子运输、细胞间相互作用、受体介导的信号转导、酶反应和免疫识别。由于其关键的生物学功能和独特的亚细胞定位,SPs被认为是识别免疫和靶向治疗靶点的关键结构。事实上,60%以上SPs已经成为经批准的人类疾病药物的靶标。此外,SPs(尤其是在体液中)已被用作早期检测、诊断和预测疾病的分析的信息生物标记物。通过抗体或嵌合抗原受体T细胞(CAR T)靶向在肿瘤细胞膜上高度或特异性表达的SP已成为癌症患者的一种强有力的治疗策略。本研究的总体目标是系统地描述癌症的表面组,并为研究开发一个全面的表面组数据库。
在全基因组范围内定义人类表面蛋白组。实验和计算方法已被应用于识别和预测位于细胞表面膜上的蛋白质,尽管每种策略都有其自身的局限性,导致不完整覆盖率和误报。为了克服这个问题并全面定义基因组中的人类表面蛋白组,研究人员整合了来自九个独立资源的 GESP,其中通过不同的策略识别或预测了 SP。随后研究收集了靶向肿瘤细胞 SPs 的 CAR-Ts、ADCs(抗体药物偶联物)和抗体药物的靶点(FDA 批准或临床开发中),发现其中 97.0% 具有核心 GESP得分≥4。接下来,研究人员通过来自 COMPARTMENT、基因本体论 (GO) 和手动文献搜索的信息用于去除细胞内膜(如核膜和线粒体膜)中编码蛋白质的基因。最后,其他特征,如文献证据、蛋白质结构和进化保守性,被用作额外的分数驱动因素,以最终确定 GESP 列表并估计最终的 GESP 分数(图1)。
GESP在正常和肿瘤标本中的表达。为了表征GESP的信使RNA表达,分析了GTEx和癌症基因组图谱(TCGA)项目的RNA测序(RNA seq)图谱。结果发现只有22.1%的GESP在所有癌症类型中普遍表达;相比之下,48.4%的非GESP(16723中的8100个)是可检测的。对于每个基因,研究分析了其mRNA可检测到的癌症类型的数量,发现确实与非GESP相比,GESP在癌症类型中的表达明显减少。组织特异性index36分析一致表明,与非GESP相比,大部分GESP表现出癌症类型特异性。这些结果通过对按蛋白质亚细胞位置分类的每个基因亚组的富集分析得到进一步证实。一致地,基因集富集分析(GSEA)表明,正相关基因在GESP以及位于细胞质中的一组基因中显著富集。这一结果表明,GESP的mRNA表达可用于预测癌症中的蛋白质表达(图2)。
为了系统地识别癌症特异性GESP(CAGESP),研究使用了五种不同的计算策略,通过比较特定癌症类型(TCGA)和所有正常组织(GTEx)中GESP的表达水平,估计每个GESP的表达特异性得分。鉴于癌睾丸基因通常编码癌免疫治疗的免疫原性抗原,正常睾丸组织的RNA-seq图谱被排除在正常组织之外(睾丸生殖细胞肿瘤(TGCT)分析除外)。为了减少肿瘤标本中肿瘤浸润性免疫细胞的表达干扰,排除免疫细胞中高表达的GESP(造血系统恶性肿瘤分析除外),基于来自30种不同类型造血细胞和6种淋巴组织的RNA-seq图谱。总共鉴定了409个独特的CAGESP,它们在至少1种癌症类型中特异表达。尽管大多数CAGESP被确定为单一癌症类型,但我们发现26.4%(128/409)的CAGESP被一种以上的癌症类型所共享,这表明这些CAGESP可能在肿瘤发生过程中受共同致癌信号的调节。在系统回顾每个caGESP后,我们发现,在大多数情况下,使用单个caGESP“唯一”定义肿瘤和“完全”保留正常细胞仍然是一个挑战(图3)。
例如,在CAR-T和ADC治疗开发中广泛使用的caGESP靶点MSLN(间皮素)的低水平表达也在肺、输卵管和唾液腺组织中检测到,尽管间皮瘤、胰腺癌(PAAD)的肿瘤标本,卵巢浆液性囊腺癌和肺腺癌的表达水平特别高。这可能导致免疫治疗潜在的“靶向-非肿瘤”毒性副作用。为了克服这个问题,多个CAGESP的组合被认为是一种更精确和适应性更强的肿瘤识别策略。例如,CAR-T可设计为“布尔a和B”SP识别逻辑门,该逻辑门仅在两种蛋白质(a和B)均在肿瘤细胞中表达时激活。在这方面,研究人员开发了一种计算方法,用于确定逻辑门控CAR-T设计的caGESP组合并确定其优先级。研究人员随后定义了GESP对,其中caGESP及其配对的GESP在相同的正常组织中共表达,并且在caGESP被确定的癌症类型中,配对的GESP未被检测到,作为“iCAR-T”策略的潜在候选者。在21种癌症类型中平均发现25对,共鉴定出443对独特的配对(图4)。
接下来研究人员确定了GESP复发性基因组改变的特征。GESP的SCNAs具有肿瘤类型特异性:989例复发SCNAs的GESP中有497例(50.2%)仅在单一肿瘤类型中发现,在>11种肿瘤类型中未观察到GESP复发CNA。研究人员还估计了泛癌总体G评分,并发现19.8%(200/989;113例扩增,81例缺失)的总体G评分高于临界值。研究最初确定143个GESP在至少1种肿瘤类型中具有复发性突变,研究还估计了泛癌总体M评分,发现37.8%(54/143)的GESP总体M评分高于使用肘部法确定的临界值。CTNNB1、EGFR(表皮生长因子受体)、GNAQ和FAT 1(脂肪非典型钙粘蛋白1)在所有肿瘤类型中的总体M评分最高(图5)。
研究人员确定了GESP受体-配体相互作用的表征。先前分析排除了大部分GESP作为细胞表面受体,直接与可溶性或细胞膜相关受体(如核受体)相互作用。其中,1个受体平均与2.8个配体结合(范围:1-22),而1个配体平均与2.7个受体相互作用。RNA-seq可检测到受体和配体的配对数量在组织和肿瘤类型中差异很大。接下来,研究使用Pearson试验分析了特定组织或癌症类型中每个已识别受体-配体对的表达相关性,并发现至少一个GTEx和TCGA组织中99.1%(1267/1278)和99.2%(1268/1278)的受体-配体对的表达分别显著正相关。重要的是,对受体-配体对相关性的无监督聚类分析表明,正常(GTEx)和肿瘤邻近(TCGA)组织聚集在一起,并且在很大程度上与肿瘤组织分离。明肿瘤发生过程中受体-配体相互作用网络明显失调。正如预期的那样,来自同一谱系的正常组织和肿瘤相邻组织聚集在一起;在癌症中也观察到类似的模式(图6)。
MIMS是从人类基因组中鉴定的GESP的主要功能组之一,通过调节免疫反应在肿瘤发生中发挥关键作用。了进一步描述它们在肿瘤微环境中的表达,研究比较了mIAMs在肿瘤中每个细胞群中的表达相似性。来自13种癌症类型。mIAM在不同基质细胞群中的表达差异很大,甚至在差异相关的细胞类型之间(例如,巨噬细胞和树突状细胞(DC)))。然而,从不同癌症类型分离的基质细胞类型群体的MIM表达特征相似,表明它们在不同癌症类型的相同基质细胞群体中的表达相对一致。相反,不同癌症类型的肿瘤细胞中的MIM表达模式高度异质,反映了癌症谱系:上皮性肿瘤聚集在一起,并与神经和血液系统恶性肿瘤分离(图7c)。mIAMs在肿瘤细胞中的异质性表达可能导致不同癌症之间肿瘤免疫相互作用的内在差异,因为mIAMs在基质细胞中的表达相对均匀。有趣的是,在肿瘤细胞和非免疫基质细胞群(如成纤维细胞和内皮细胞)之间也发现了大量MIM介导的相互作用,这表明它们也可能参与肿瘤微环境中的免疫调节(图7)。
总而言之,本研究全面识别和注释编码细胞表面蛋白(SPs)的泛癌基因(GESPs),由于其独特的蛋白质亚细胞位置和重要的生物学功能,GESP被认为是鉴定人类疾病药物靶点的主要来源。研究鉴定了409种在某些癌症类型(caG-ESP)中“特异性”表达的独特GESP,为免疫治疗的潜在GESP靶点提供了全基因组视角。鉴于“靶向-非肿瘤”毒性副作用是CAR-T和抗体疗法的主要临床问题之一,因此能够更特异地识别癌细胞的策略对于开发有效和安全的免疫疗法至关重要。因此,使用多种GESP组合的技术,如逻辑门控CART和双特异性抗体,可以进一步提高药物特异性,从而为癌症患者创造更精确的治疗。
教授介绍
Lin Zhang,宾夕法尼亚大学医学院教授,研究工作集中在分子机制的表征和通过结合计算和分子生物学方法开发癌症的新疗法。他的团队报道了长非编码 RNA 在癌症中表现出高频率的基因组改变,开发了针对 DNA 修复途径的新策略,结合抑制某些长链非编码 RNA 或表观遗传调节因子来治疗乳腺癌和卵巢癌。
参考文献
1、Zhongyi Hu, Jiao Yuan, Meixiao Long et al. The Cancer Surfaceome Atlasintegrates genomic, functional and drug response data to identify actionabletargets (2021). https://www.nature.com/articles/s43018-021-00282-w