Cancer Disc | 构建肿瘤发育图谱:肿瘤相关细胞谱系和发育程序
原创 榴莲不酥 图灵基因 2022-09-05 10:21 发表于江苏
收录于合集#前沿分子生物学机制
撰文:榴莲不酥
IF= 38.272
推荐度:⭐⭐⭐⭐⭐
亮点:
本文系统地比较了癌症基因组图谱(TCGA)肿瘤样本和小鼠器官形成细胞图谱(MOCA)单细胞数据,以构建人类肿瘤的发育图谱。使用该图将肿瘤解卷积为发育成分,这反过来又可构建能高精度预测肿瘤类型的D-MLP分类器。为使用发育映射来帮助诊断病理学以及新兴单细胞数据集如何影响临床癌症护理作为诊断工具参考图谱提供了原理证明。
2022年8月30日,在Cancer Discovery杂志上发表了一篇名为“Developmental Deconvolution for Classification of Cancer Origin”的文章,系统地比较了TCGA和MOCA两种图谱来构建人类肿瘤的发育图谱,并由此定义了一个深度学习的基于基因表达数据提取肿瘤发展轨迹的人工智能工具,可预测肿瘤类型,有利于提高对患者的治疗成功率。
恶性肿瘤的诊断依赖于肿瘤外观的组织病理学分类,通常与突变分析和临床表现等其他特征联系一起。然而,许多肿瘤表现出一系列异质外观,这可能部分反映了它们发展中的未知差异。缺乏诊断信息导致使用具有严重毒性和不良结果的非靶向疗法治疗许多癌症。了解恶性肿瘤中失调的起源或发育途径的细胞类型是癌症生物学的主要目标,并且将能够针对这些途径进行更精确的诊断和治疗干预。
当应用于放射学和组织病理学中的图像处理时,机器学习分类器已显示出作为新工具的前景。然而,图像分类器只检测视觉特征,有时会受到伪影的影响。使用分子特征的分类器具有通过捕获非视觉信息来帮助诊断的巨大潜力,最近的方法已证明在结合视觉和分子特征进行分类方面具有价值。然而,基因表达分类器由于大量特征而遭受过拟合,这导致对新数据集的预测能力较差,或者选择了小型基因组进行测量。如何在从基因表达数据中提取最相关信息的同时减少特征数量仍然是构建集成诊断模型的关键挑战。
为了解决这些问题,使用了两个综合图谱:癌症基因组图谱(TCGA)和小鼠器官形成细胞图谱(MOCA)。概述了TCGA和MOCA数据集之间的系统比较及其在构建诊断工具中的用途。简而言之,将肿瘤映射到属于主要细胞谱系和发育程序的轨迹。这可将大量肿瘤基因表达特征解卷积为发育成分,然后研究团队将其输入到输出肿瘤类型的多层感知器分类器中。
图1:通过发育反卷积和机器学习诊断恶性肿瘤
首先系统地比较了每个TCGA样本与每个MOCA单细胞的基因表达谱。为了可视化数据,用了TCGA肿瘤类型和MOCA细胞亚轨迹。接下来折叠了相同发育子轨迹的所有细胞的相关系数,并将它们可视化为单个相似性分数。此外观察到预期的发育谱系关系:具有神经嵴轨迹的黑色素瘤样本(SKCM)、具有上皮谱系的癌肿瘤和具有中胚层衍生发育谱系的间充质肿瘤类型都显示出很强的相似性。
有趣的是,肿瘤与发育轨迹的比较也揭示了意想不到的或新出现的关系。分析注意到胶质母细胞瘤与主要发育轨迹神经管或脊索和特定神经嵴亚型的强相关性,而其他主要轨迹神经嵴谱系没有显示出如此强的相似性。观察到具有强正相关和负相关的高度信息轨迹,与肿瘤具有混合关系的轨迹以及许多其他关系。通过检查与每种类型正、负和可变相关的轨迹数量,对每种TCGA肿瘤类型进行了类似的分析。正如预期的那样,许多TCGA肿瘤具有正相关和负相关的轨迹。有趣的是,一组肿瘤的特征在于腹膜后的解剖位置,并显示出所有类型的相关关系。这些分析共同为TCGA样本类型提供了发展轨迹的强大地图。
图2:TCGA与发展轨迹的系统映射
许多癌症已被假定为去分化疾病。通过在比较肿瘤和正常组织时样本和轨迹之间的关系如何随时间变化以评估前者与后者相比是否去分化。在发育轨迹上绘制了与其相应瘤旁正常组织的系统相关性,同时还记录了每个细胞的胚胎日。胶质母细胞瘤与所有时间点的神经元细胞都表现出高度相似性,而正常大脑与后期时间点的神经细胞更相似。接下来将该分析扩展到一个泛癌队列,确定了与每个样本具有最高正相关性的MOCA细胞,并将这些细胞的已知胚胎时间段分类。与正常组织相比,肿瘤早期胚胎期的泛癌富集。此外,通过计算每个TCGA样本的标准化“胚胎期分数”。发现肿瘤向较低的胚胎期评分转移,这与恶性肿瘤部分由去分化驱动的观点一致。
为了评估较高级别的肿瘤是否比较低级别的肿瘤更容易去分化这一假设,分析了肿瘤等级是否与发育时间相对应。与3级肿瘤相比,2级肿瘤在胚胎后期显示出相对富集。此外,2级肿瘤向更高的胚胎期评分转移,这与后期发育阶段的相似性高度一致。总之,这些结果表明发育映射捕获了恶性肿瘤的相关组织病理学特征。
图3:通过比较样本类型和发育时间之间的关系进行验证
在TCGA样本和发育轨迹之间创建系统图,启发我们尝试对人类肿瘤基因表达进行系统发育反卷积。在反卷积中,由组成部分组成的记录信号被解构为来自每个组成部分的单独信号。发育组件(DC)在所有肿瘤样本中进行缩放并绘制在雷达图上,雷达图代表每个样本的发育期、子轨迹和DC评分的信息。显示了单个肝细胞癌(LIHC)的发育反卷积的代表性雷达图。
在单个雷达图中绘制了所有肝细胞癌的信号。所有LIHC样本的特点是肝脏轨迹评分升高和神经元轨迹耗尽。相比之下,低级别胶质瘤显示神经元轨迹的高信号和肝脏轨迹的低信号,与映射结果一致。接下来分析了发育反卷积在区分不同肿瘤类型方面的有效性。使用UMAP降维绘制了所有TCGA样本的发育成分评分,并按组织类型和肿瘤类型进行注释。此外,大多数肿瘤类型都高度聚集证实发育反卷积提取了显著的基因表达数据。转移样本聚集在一起,部分原因是该组中SKCM的过度表现。总之,这表明TCGA-MOCA映射可用于将肿瘤基因表达解卷积为发育成分,以解决大多数肿瘤类型的方式。
图4:肿瘤样本的发育反卷积。
通过发育反卷积解决不同肿瘤类型的能力提高了设计监督机器学习(SML)方法对恶性肿瘤进行分类的可能性。研究团队推断基于发育反卷积分数的分类器将从基因表达中提取最相关的数据,同时还以胚胎发育程序在肿瘤中失调的形式捕获基因之间的非线性关系。
首先,广泛收集数据。除了TCGA,还整合了来自其他癌症队列的样本以及我们从FFPE组织生成的测序数据。接下来将样本分成两个独立的群组用于构建模型的训练群组和模型从未见过的单独群组,稍后用于测试性能。接下来将发展反卷积方法与直接在基因表达数据上进行训练进行了比较。在组装的病例队列中选择了表达变化最大的基因与D-MLP进行匹配,并训练了一个新分类器评估了新分类器在测试集上的准确性。总之,研究团队得出结论,与直接对相似数量的输入特征的基因表达数据进行训练相比,发育反卷积产生的分类精度更高。
图5:肿瘤类型发育多层感知器(D-MLP)分类器的构建和测试。
未知原发性癌症仍然是一个主要的临床问题,恶性肿瘤表现出侵袭性特征和较差的患者预后。在临床上出现CUP的患者中,通过使用H&E染色、免疫组化和肿瘤突变分析可以有效解决病例。然而一部分病例未能通过所有当前可用的诊断技术,仍然是需要新方法的真正诊断困境。因此,研究团队将D-MLP分类器应用于20个此类CUP病例,代表了机构中最具挑战性的诊断困境。分类器对大多数情况做出了强有力的诊断预测,分布在分类类型中。CUP的发育反卷积显示,内皮轨迹对大约一半的病例有很大贡献;同样,间充质轨迹对大约一半的病例有很大贡献。
如果临床上可用,这种发育信息可以补充诊断决策。免疫组化显示乳腺标志物、肺和黑色素瘤呈阴性,上皮标志物呈阳性,并且泌尿生殖起源可变或者弱阳性。分析腹水中的细胞,D-MLP分类器对该病例给出了卵巢癌的强有力预测。六个月后,经过广泛的额外临床检查,发现患者有肿块,证实为卵巢浆液性癌。总之,基于发育反卷积的深度学习分类器可以作为有用的辅助工具,影响诊断和临床决策。
图6:通过发育多层感知器D-MLP诊断未知原发性癌症。
综上所述,本研究的结果给出了人类肿瘤的发展图谱,并提出了一种新的工具,以减少病理学诊断的不确定性,并暗示癌症的诊断分类。
作者介绍
SalilGarg,医学博士,麻省总医院和哈佛医学院病理学研究员,麻省理工学院科赫综合癌症研究所临床研究员。其所领导的实验室结合了来自细胞生物学、系统生物学和生物信息学的方法来理解异质性以及它是如何导致癌症治疗失败的。在一个相关的方向上,研究团队正在使用肿瘤的发展绘图来建立新的癌症诊断,更精确地定义癌症实体和预测治疗反应。长期目标是了解癌症和发展的异质性是如何产生的,了解哪些癌症是由发展现象驱动的,并利用这些知识来改善癌症的治疗和诊断。
参考文献
Moiso E, Farahani A, Marble HD, Hendricks A, Mildrum S, Levine S, Lennerz JK, Garg S. Developmental Deconvolution for Classification of Cancer Origin. Cancer Discov. 2022 Aug 30:CD-21-1443. doi: 10.1158/2159-8290.CD-21-1443. Epub ahead of print. PMID: 36041084.=