2021-10-26

Nature Reviews | 多模态数据整合推动精准肿瘤学的发展

原创 风不止步 图灵基因 今天

收录于话题#前沿生物大数据分析

撰文:风不止步

IF=60.710

推荐度:⭐⭐⭐⭐⭐

亮点:

先进分子诊断、放射学和组织学成像以及编码临床数据的多模式整合为推进精准肿瘤学超越基因组学和标准分子技术提供机会。数据工程、异构数据分析的计算方法和生物医学研究中协同数据模型的实例化的共同努力是成功的必要条件。将互补的数据模态与新兴的多模态人工智能方法进行合成将产生一类重新构想的多模式生物标志物,以在未来十年推动精准肿瘤学领域。


2021年10月18日,不列颠哥伦比亚大学的Sohrab P. Shah 博士等人在《Nature Reviews Cancer》上发表了一篇“Harnessing multimodal data integration to advance precision oncology”的文章。

整合的解剖学、组织学和分子测量方法可以全面描述癌症的状态,从而为每位患者提供有效的“数字生物库”。然而,即使这些数据可用,也很少被整合,很少在计算上利用大规模、多模式整合的研究发现潜力。人工智能(AI)和ML技术在将数据转换为新一代诊断和预后模型并推动临床和生物学发现方面具有巨大潜力,但这些技术的潜力在生物医学环境中往往未被实现。面向规模化研究就绪数据档案的文化和基础设施变化以及多模式ML方法的发展将促进对诊断模式之间的统计关系以及每种模式的上下文相关性的理解。因此,重新利用聚合的多模式数据-数字生物库-为开发下一代数据驱动的生物标志物提供机会,以推进患者分层和个性化癌症护理。

多模态数据集成的核心前提是正交导出的数据相互补充,从而增加超出任何单个模态的信息内容。具体而言,与单独的每种模态相比,具有完全互信息的模态不会产生改进的多模态性能。相反,具有完全正交信息的模态将显着改善推理。关注癌症数据中的四种主要模式:组织病理学、放射学、基因组学和临床信息(图1)。虽然使用深度学习(DL)和其他ML方法在这些单独的模态中取得快速进展,但关于多模态数据集成的主要未解决问题仍然存在。合理的多模态预测模型能否改善癌症患者的临床结果?癌症研究能否利用计算方法和人工智能模型的进步来从多模态数据集成中获得新见解?有多少数据足以实现这种可推广的预测模型?


高阶基因组特性,如肿瘤突变负荷 (TMB)、内源性突变过程如MSI和同源重组缺陷(HRD),以及全基因组重复等大规模特征也具有临床意义。在最近的一项研究中,Vöhringer 等人提出了一种算法(TensorSignatures) 来表征七种癌症类型中的转录相关突变。来自低通全基因组测序的拷贝数签名和跨单核苷酸变异 (SNV) 和结构变异量表的集成 ML 模型也有效地将患者分为预后亚组。两项研究都发现HRD肿瘤患者具有更好的预后,但需要进一步细化以更好地解决具有临床意义的亚组。新兴的空间基因组学技术和互补的临床和成像模式是丰富这些数据和改进预测的机会。

多模态机器学习

跨放射学、组织病理学、分子和临床领域的这种单峰模型将成为集成多峰模型的构建块(图 2)。多模态方法的一个主要设计是在编码联合表示之前应该对每个数据输入建模的程度(图 3)。在早期的融合架构中,特征简单地连接起来用于训练单个模型。大多数多模态架构比其单模态架构有更多的参数需要拟合,这使得它们容易过度拟合,反而会导致监督学习设置中的性能变差。解决这个问题的一种机制是在训练目标中加入估计的泛化误差,使用梯度混合等技术,这种技术根据估计的泛化误差对每个单峰对整体损失的贡献进行加权。工程特征的ML成为该领域的基本方法,并表明资源限制需要非常大的队列的研究,例如那些具有高度异质性的癌症,或者那些单一模式绝大多数带有重要区分特征的研究,可能会选择一个单峰研究。

使用互补的多组学癌症数据进行多模式患者分层已得到很好的发展。基因组、转录组、表观基因组和蛋白质组数据的癌症基因组图谱 (TCGA) 目录支持集成的多模式推理。循环神经网络 (RNN) 和转换器是序列预测的主要方法,尚未广泛应用于肿瘤学,但已被证明可以根据多模式血清学、放射学和临床数据准确预测临床事件。使用深度高速公路网络将H&E图像与mRNA测序 (mRNA-seq)和miRNA测序数据相结合,以了解单个基因组特征的重要性,嵌入单个数据模式在相同的共享信息空间中,通过最小化相似性损失。该模型实现了 0.78 的一致性指数 (c-index) ,但是以牺牲通过融合方法获得的互补信息为代价。总的来说,研究表明,与单模态和分子方法相比,多模态整合与组织病理学成像可改善结果预测和分层。


多模态数据的挑战临床癌症数据多模态集成所固有的挑战分为三大类:数据工程和管理、ML方法以及数据访问和治理规定。这些挑战延伸到旨在从标准护理数据中发现生物标志物的回顾性研究和专注于定制或高级数据类型的前瞻性研究。该领域还面临着医学单峰机器学习研究两大类挑战,即解释结果并确保其可重复性。有效的管理计划,包括数据的准确性、协作访问规定、数据标准的实施和纵向数据更新,对于管理和部署适当使用数据以进行大规模多模式数据集成至关重要。


教授介绍

Sohrab P. Shah 博士

于2008年从UBC获得计算机科学博士学位,并于2010年被任命为不列颠哥伦比亚省癌症局和不列颠哥伦比亚大学的首席研究员。此外,Shah 博士于2018年4月被任命为MSK的首任首席研究员计算肿瘤学服务的成员,并且是Nicholls-Biondi主席的现任主席。他曾担任加拿大计算癌症基因组学研究主席,并获得了迈克尔史密斯健康研究基金会职业调查员奖和特里福克斯研究所新调查员奖。

研究重点是通过涉及基因组学和计算建模的综合方法了解肿瘤如何随时间演变。开创用于推断癌症基因组突变以及破译癌症进化模式的计算方法和软件,这些方法和软件已在国际上广泛传播。在开发新颖的、创新的贝叶斯统计模型、算法和计算方法以分析来自患者肿瘤和模型系统的大型高维基因组学和转录组数据集方面有着良好的记录。包括以单细胞分辨率推进癌细胞的分子分析。Shah 博士一直处于研究乳腺、卵巢和淋巴恶性肿瘤的肿瘤演变的前沿。他的研究成果发表在Nature、Nature Genetics、Nature Methods、NEJM、Genome Research、Genome Biology等杂志上。获得杰出成就奖,以表彰他在早期职业生涯中的整体卓越表现。事实。UBC 医学博士(2013 年),并被授予不列颠哥伦比亚大学(2016 年)杰出研究和学术贡献的基拉姆奖获得者。

参考文献

 Kevin M. Boehm , Pegah Khosraviet al .Harnessing multimodal data integration to advance precisiononcology.(2021)

你可能感兴趣的:(2021-10-26)