TMM | 影像基因组学:数据融合揭示疾病遗传力
原创 huacishu 图灵基因 2022-12-13 10:11 发表于江苏
收录于合集#前沿生物大数据分析
撰文:huacishu
IF=15.272
推荐度:⭐⭐⭐⭐⭐
亮点
1、作者提供了从肿瘤学到心血管和神经退行性疾病的一系列疾病中的影像基因组学实例;
2、作者讨论了数据科学和共享领域正在进行的革命是如何推动影像基因组学领域发展的。
美国斯坦福大学Olivier Gevaert教授课题组在国际知名期刊Trends Mol Med在线发表题为“Imaging genomics: data fusion in uncovering disease heritability”的论文。21世纪初对人类基因组的测序使得人们能够以以前无法想象的规模探索疾病的遗传基础,但是疾病遗传力的很大一部分仍然被隐藏。
最近为解开这种“缺失的遗传力”所做的努力集中于从合并不同数据类型(包括医学成像)中获得新的见解。成像提供了有希望的中间表型,以弥补遗传变异和疾病病理之间的差距。在这篇综述中,作者提供了从肿瘤学到心血管和神经退行性疾病的一系列疾病中的影像基因组学实例。讨论了数据科学和共享领域正在进行的革命是如何推动这一领域发展的。
缺失遗传现象
大规模的基因组研究现在涵盖了100多万参与者,并询问了基因组中数百万的遗传变异。全基因组关联研究(GWAS)揭示了数十至数千种遗传变异,这些变异在特定疾病中的比例过高。这些GWAS变体很少代表功能性遗传变体,而是作为一种标记,功能性变体、其分子生物学及其在疾病中的病理生理作用仍然未知。基于这些GWAS变异的遗传力模型没有解释疾病遗传基础的重要部分,造成了缺失遗传力现象。
尽管影像基因组学在很大程度上被认为是捕获遗传数据的一种非侵入性方法,作者建议更广泛地融合成像和基因组学——利用成像来揭示遗传变异和疾病之间的潜在关系。作者概述了几种方法,以说明成像为更近端的中间表型(即更接近疾病的表型)如何解决部分缺失的遗传力(图1)。
什么是影像基因组学?
作为一个新兴领域,影像基因组学(也称为放射基因组学)的定义本身正在演变。最初被定义为放射肿瘤学的GWAS(即与放射治疗反应相关的体细胞变体的鉴定),它已经扩展到包括成像和基因组数据的一般整合。迄今为止,影像基因组学主要集中于识别标记已知和临床可操作基因组特征的成像特征,这些特征主要用于肿瘤学中,以确定预后或靶向治疗的情况。
通过非侵入性成像识别基因组特征可以避免活检的需要,因为活检具有发病率和死亡率的风险。这对于大脑病理学来说尤其重要,无论是脑肿瘤还是阿尔茨海默病等神经退行性疾病,都需要进行活检才能确诊。然而,这些成像模式代替活检的临床实施将需要大量数据。
许多以数据共享为重点的大规模基因组和成像数据采集计划已经在进行中。个别医院系统正在采取其他举措,将组织样本和基因组数据与电子健康记录中可用的成像和关键临床变量联系起来。随着这些资源的日益可用和规模的增加,确定可靠和可复制的关联将变得更加可行。
改进GWAS设计
导致“缺失遗传力”的一个重要因素是描绘疾病表型。尽管根据研究纳入和排除标准,病例和对照组之间往往存在显著差异,但病例很少是同质的。相反,它们代表了多种疾病亚型,这些亚型可能具有共同的遗传风险因素以及独特的特征,这些特征表现为弱、不存在或不可重复的关联,这取决于队列中亚型的分布(图2)。这限制了可检测的变体的数量,因为许多真实的关联仍然隐藏在噪声中。在临床医学中,成像可以为GWAS提供同样的功能。
使用影像学来细化表型已被证明有助于识别与慢性阻塞性肺病(COPD)和心力衰竭(HF)相关的变异。在进行大规模GWAS研究之前,只有少数基因变异与COPD或HF相关。通过使用影像学特征而非临床定义的疾病作为表型,能够发现与疾病相关的新变体。
值得注意的是,与心肌病风险相关的影像学特征来源于未诊断出心脏病的人群,可能强调了显性疾病发生之前心脏结构和功能的变化及其可遗传性。生物标记物,无论是遗传变异还是成像特征,在出现症状之前识别风险人群,可以捕获健康或不健康状态的患者,并允许在疾病/疾病发展之前进行干预(图3)。
用影像学揭示生物学
了解遗传变异和影像学特征之间的联系不仅有助于生物标志物的开发,也有助于完善对疾病病理生理学的理解。基因组学的一个重大挑战和我们定义疾病遗传基础的能力的局限,仍然是理解GWAS变体与疾病之间观察到的统计关联的生物学过程。遗传变异对疾病风险的影响作用于从DNA到RNA到蛋白质的连续体,构成调控途径和细胞间信号网络的基础(图3)。基因和环境的影响在每个阶段都起作用,形成了越来越复杂的调控,需要多年的有针对性的实验才能揭示。
成像不仅可以用于改进研究设计,更好地理解统计关联的生物学基础,而且通过提供空间和时间数据,成像还可以提出新的问题,告知疾病在空间和时间上的进展。这对揭示癌症的遗传基础,特别是对肿瘤内的体细胞变异是如何构造、与周围环境相互作用以及治疗过程中随时间变化的理解,具有重要意义。肿瘤异质性已被确定为耐药和治疗失败的主要驱动因素,这是因为存在未被单个活检捕获的耐药肿瘤细胞亚群(图4)。
由于可以在多个时间点对整个肿瘤进行成像,影像基因组学使肿瘤异质性能够以活检所不可能的尺度来考虑。在核医学中使用放射性示踪剂,靶向在某些癌症中过度表达的关键酶和蛋白质,可直接了解这些重要基因的区域表达。
虽然基因变异仍然是一个新的研究领域,但也可以通过解剖成像(例如通过CT和MRI)间接捕获基因变异,使用机器学习和其他方法来识别与特定基因变异相关的成像特征的细微变化。非侵入性捕获遗传数据的能力可能会对肿瘤异质性的程度提供前所未有的量化,当与临床结果相结合时,可能会促进我们对异质性如何影响疾病进程的理解。
影像基因组学的技术挑战之一是识别影像特征,这些特征作为特定基因变体的标记。这部分是由于放射科医生讨论的影像特征以及许多机器学习算法检测到的,例如,大小、血管、对比度增强模式等,可能受到几十种不同基因变体的影响。
循环肿瘤DNA测序利用血液样本检测肿瘤释放的遗传物质,可以深入了解特定患者体内观察到的遗传变异。通过这种方式,循环的肿瘤DNA可以提供给定个体内存在的基因变体(图4)。如果结合到机器学习算法中,这些预测因子可以提高其在解决区域肿瘤异质性方面的保真度。
正在进行的数据科学革命
测序、数据存储和共享以及统计分析方面正在进行的革命的汇合——包括机器学习的进步—可能会迅速推进影像基因组学的可能性。这还需要持续的协调努力来收集、存储和共享不同的患者数据。因此,以前受样本大小和计算能力限制的问题可能会变得微不足道,从而使调查人员能够提出越来越细微的问题。可以说,在放射组学不断进步的背景下,影像基因组学领域已经成为可能,其中衍生出代表复杂医学成像的高维定量特征。
最终,影像学和基因组学的融合需要新的分析方法,因为传统的方法侧重于每种数据类型的线性关系。一般来说,机器学习,特别是典型相关分析(CCA)以及神经网络,已经成为揭示高维数据中隐藏关联的方法。
使用神经网络,一个特别的优势是转移学习的能力。对于医学图像分割任务,可以在大型公共数据集上预训练网络,学习如何提取图像特征。然后,通过固定学习的参数并在实际医学图像上运行时仅优化子集来“传输”学习的参数,从而使用更大数据集的信息来帮助对尺寸更有限的医学数据进行分类。正如成像是临床实践的一个标准部分一样,预测基因数据也会有类似的方向,测序将成为常规的临床工具。
然后,与成像数据结合的基因组数据的存储和可访问性仍然存在问题。许多当前的数据集仅限于单个数据类型(例如,成像或遗传数据),而不是将测序和成像与临床数据相结合。此外,数据访问和共享的策略因数据集的不同而不同,通常难以导航,从而限制了可访问性。未来,人们可能会设想集中式数据库,存储来自多个患者队列的组合数据类型,每个患者队列收集基因组、图像和其他相关数据。
在围绕数据共享和广泛可访问性的许多讨论中,一个驱动因素是确保生物医学数据(包括私人健康信息)得到适当处理,同时最大限度地提高可用性。近年来越来越流行的一种方法是联合学习,它允许算法从不同机构的分散数据中学习。该策略可以跨多个中心实现以隐私为中心的数据访问,同时促进在多模式数据上创建机器学习算法,而不需要真正的数据共享。它可以作为将常规临床成像和其他数据引入研究场所的潜在策略。
讨论
随着我们进入“后全球变暖”时代,遗传力缺失的问题依然存在。越来越大和多样化的样本量将继续逐步揭示新的变化。然而,真正阐明疾病的遗传基础需要了解潜在的生物学。在这一过程中,不同数据类型的融合至关重要,而成像提供了许多强大的方法。
此外,由于影像学已经嵌入临床实践中,翻译的潜力是巨大的。专注于保持健康而不是治疗疾病的临床决策策略可能会进一步降低发病率和死亡率。这种临床方法可以通过遗传风险概况和图像特征来促进,这些特征可以捕捉健康队列中的疾病风险。随着测序技术、机器学习方法和数据共享的快速发展,以新的方式融合成像和基因组学变得越来越可能。通过相互利用,每个领域的重大进展都将成为可能,并可能最终揭示难以捉摸的缺失遗传力。
教授介绍
Olivier Gevaert教授是斯坦福大学的助理教授,他自己的研究小组活跃于多尺度数据融合领域。他的研究重点是分析癌症患者的数据,以建立有可能改善其结果的模型。Gevaert博士的实验室专注于生物医学数据融合:利用多尺度生物医学数据开发用于生物医学决策支持的机器学习方法。此前,他们开创了使用贝叶斯和核方法研究乳腺癌和卵巢癌的数据融合工作。此外,他们还开发了使用多组学数据识别驱动基因的计算算法。此外,他们正在研究多尺度生物医学数据融合方法,使用组学数据连接分子,使用病理学数据连接细胞,使用医学成像数据连接组织等。
参考文献
Hartmann K, Sadée CY, Satwah I, Carrillo-Perez F, Gevaert O. Imaging genomics: data fusion in uncovering disease heritability. Trends Mol Med. 2022;S1471-4914(22)00292-1. doi:10.1016/j.molmed.2022.11.002