世界卫生组织国际癌症研究机构 (IARC) 发布的 2020 年全球最新癌症负担数据显示,2020 年全世界乳腺癌新发病例数的快速增长达 226 万,首次正式取代肺癌成为全球第一大癌症。其中,我国女性新发乳腺癌病例数 42 万例,位居第一,远超女性其他癌症类型。
由于具有高并发率和高死亡率的特点,乳腺癌严重威胁着全球女性的健康。但如果能够做到及早发现、并按照最佳实践进行治疗,则有望大大改善存活率。根据美国癌症协会的数据,1989 年至 2016 年间,乳腺癌的死亡率已经降低了 40%。
近年来,人工智能在医学影像、病理、辅助决策系统等方面取得的巨大进步,其在乳腺癌病理领域已经形成了三大主要研究方向:细胞层级的核分裂象检测、区域层级的肿瘤区域检测与分割等、针对免疫组化的量化分析。
肿瘤浸润免疫细胞 (TIICs) 以及肿瘤转移是人体出现肿瘤的重要特征。前不久,来自美国肯塔基大学、澳门科技大学、澳门大学、广州医科大学第一附属医院的研究人员采用神经网络模型,建立了一个精准的预后评分系统——MIRS (metastasis and immunogenomic risk score) ,用于肿瘤转移与免疫基因组风险评分,提供了一项几乎普遍适用于乳腺癌患者的预测工具,为乳腺癌人群的治疗选择提供了新方向。
研究亮点:
MIRS,一种预测乳腺癌预后和治疗的评分系统,可用于指导乳腺癌患者治疗策略的制定
本研究分析了转移与免疫浸润对乳腺癌预后的影响
MIRS 可为不同 BRCA 亚型提供指导, IVL 在 TNBC 亚型中的表达水平最高
本文的通讯作者 Xiaohua Douglas Zhang,是美国肯塔基大学生物统计学教授,获得了卡内基梅隆大学的统计学博士学位,北京大学光华管理学院的管理学 EMBA 学位,北京大学的遗传学硕士学位和北京师范大学的生物学学士学位。值得一提的是,其还曾在 Merck 工作了 14 年,曾担任高级首席科学家。
个人主页:
https://cph.uky.edu/directory/xiaohua-zhang
获取论文:
https://doi.org/10.1016/j.isci.2023.108322
关注公众号,后台回复「MIRS」获取完整 PDF
该研究首先应用单样本基因集分析 (ssGSEA),从 TCGA (The Cancer Genome Atlas,癌症基因组图谱) 数据库中筛选出乳腺癌患者与肿瘤微环境相关的 45 个免疫特征的富集评分。
基于这些数据,该研究进一步采用分层聚类法,将患者分为高免疫细胞浸润组和低免疫细胞浸润组。随后,研究人员通过 Wilcoxon 秩和检验 (Wilcoxon rank-sum test),鉴定出高、低免疫细胞浸润组的差异表达基因 (DEGs) 有 1222 个。
与此同时,为了检测与转移相关的基因,该研究还基于 GSE10893 (n=18) 和 GSE3521 (n=75) 两大 GEO (Gene Expression Omnibus,基因表达综合数据库) 队列,在乳腺癌转移患者与原发患者之间进行 Wilcoxon 秩和检验,筛选出了 2159 个差异表达基因 (DEGs)。经过与之前的 1222 个基因进行重叠,发现其中包含 52 个重叠基因。
基于这 52 个重叠基因,研究人员进一步筛选了 12 个与患者总生存期 (overall survival,OS) 相关的基因,并对这 12 个基因建立了一个神经网络框架预后模型,即 MIRS。根据 MIRS 评分,该研究最终将患者分为 MIRS-high 和 MIRS-low 亚型,并通过 MIRS 评分来指导化疗或免疫治疗。
研究人员将上述从 52 个基因中筛选得到的 12 个候选基因,进一步分为保护基因和危险基因。对于保护基因,基因的表达状态高于样本平均值的赋值为「0」,低于平均值的赋值为「1」;对于危险基因,基因的表达状态高于样本平均值的赋值为「1」,低于平均值的赋值为「0」。
随后,研究人员将 TCGA 队列 (N = 1100) 按 7:3 的比例随机分为训练数据和测试数据,并使用神经网络 (NN)、统计回归 (LR)、随机森林 (RF) 和支持向量机 (SVM) 四种机器学习方法,建立了基于 12 个候选基因的预后评分系统。
如下图显示,ROC 曲线分析,无论训练集或测试集如何变化,神经网络模型都表现出最佳预测性能。
在此基础上,研究还如下图采用了一个具有隐藏层的经典神经网络来建立预后模型,定义了 netn1 = W1,1i1 + W2,1i2 +…+ W12,1i12 + b1,其中 W 是每个输入节点的权重,ij (j = 1,2……12) 是基因的「0-1 」状态。
在输出层,该研究使用 Tensorflow 和 Keras 来构建神经网络,在隐层使用 ReLU 作为激活函数,用 Softmax 函数应用于输出层的 「生存」和 「死亡 」两个节点,用交叉熵误差作为损失函数,用 Adam 算法来优化预后基因权重。训练完成后,每个预后基因的系数由隐层的最大权重决定。
以下是两个 MIRS 实际计算的案例:
该研究通过 ESTIMATE 算法进一步研究了乳腺癌患者的免疫基因组图谱与 MIRS 的相关性。结果显示,MIRS-low 亚型的免疫细胞和基质细胞比例较高,但肿瘤纯度较低。这表明 MIRS-low 亚型中存在较高水平的肿瘤浸润免疫细胞。
另外,该研究还对两个 MIRS 亚型之间的 17 条免疫相关通路进行了 ssGSEA 评分。结果表明,与 MIRS-high 亚型相比,几乎所有通路中 MIRS-low 亚型的免疫浸润水平都明显更高。
此外,该研究还探讨了 MIRS 评分与癌症转移之间的相关性。在 MIRS-low 亚型中,转移信号因子的活性有上调迹象,包括缺氧、tgf - β 信号、血管生成和上皮-间质转化 (EMT) 评分 (下图 F、H)。同时,研究人员在 MIRS-low 亚型中观察到巨噬细胞 M1 (下图 D) 和血管生成 (下图 F) 的活性增加,这与之前的观点一致。此外,MIRS 与血管生成标记基因呈负相关 (下图 G)。
综上所述,具有高免疫浸润的 MIRS-low 亚型可能更容易转移。
由于 MIRS-low 亚型在 TME 中的 TIICs 高浸润,理论上讲,MIRS-low 亚型的患者应该对免疫检查点阻断 (ICB) 治疗敏感,MIRS 最终也表明 MIRS-low 亚型可能比 MIRS-high 亚型对 ICB 治疗更敏感。
该研究还分析了 MIRS 与化疗之间的相关性。生存分析显示,MIRS-high 亚型患者化疗后的生存率高于 MIRS-low 亚型患者。此外,研究还发现接受化疗的 MIRS-high 患者的生存率明显高于未接受化疗的 MIRS-high 患者。这些结果表明,化疗可能对 MIRS-high 亚型更有利。
在乳腺癌的亚型中,三阴性乳腺癌 (TNBC) 的治疗进展仍然面临重重挑战,亟需寻找更多可改善预后的生物标志物。与 MIRS-low 亚型相比,由于 MIRS-high 亚型的生存率较低,所以可以将其作为 TNBC 进展的候选靶基因,有 58 个基因在 MIRS-high 亚型中明显高表达。
随后,研究人员使用 XGboost、Borota RF 和 Elastic net lasso regression (ElasticNet) 三种机器学习算法来选择最关键的基因。最终在 4 组基因的维恩图中发现了 9 个显性基因。生存曲线显示,IVL (Involucrin) 的表达水平会影响不同乳腺癌亚型的生存结果。
此外,IVL 在 TNBC 亚型中的表达水平最高,而在 BRCA 亚型中的表达水平较低。通过对细胞迁移相关途径标记分析,高 IVL 组的细胞迁移途径显著丰富,这些结果表明,IVL 可能是探索 TNBC 亚型预后的潜在靶点。
然而,目前针对乳腺疾病诊疗的人工智能研究,主要集中在乳腺钼靶、超声、病理图像数据深度学习技术以及乳腺癌诊疗决策、医院管理等分支和领域,缺乏多种深度学习模型融合的顶层设计,即缺少将真实信息实时更新与全面存储、分析,与人工智能读图诊断、个体化治疗、风险预测于一体的深度学习模型。
为加快推进人工智能相关技术创新和产业发展,我国早在 2016 年发布的《“健康中国2030”规划纲要》中就提出,乳腺疾病诊疗关口前移,未来人工智能在乳腺疾病诊疗应用中将取得长足发展。《CSCO 乳腺癌诊疗指南 2021》更是提出:专家组鼓励开展人工智能相关的临床研究,发展我国自主知识产权的人工智能系统。
在中国,每年约有 40 万新发乳腺癌患者,其中三、四线以下城市患者占比超过 70%,并呈现年轻化、城镇化的趋势。近年来,各地政府不断加大对女性乳腺癌筛查工作的投入力度,有越来越多的女性从中收益,也希望人工智能未来能够为癌症探索出全新解决方案。
参考资料:
https://www.chinanews.com.cn/life/2023/02-20/9956815.shtml