Nat Rev | 癌症基础和转化研究中的大数据,影响诊断和治疗决策
原创 榴莲不酥 图灵基因 2022-09-28 10:09 发表于江苏
收录于合集#前沿生物大数据分析
撰文:榴莲不酥
IF=69.800
推荐度:⭐⭐⭐⭐⭐
亮点:
大数据分析、生物信息学和人工智能的结合使人们对癌症生物学的基本理解和转化取得了显著进展,通过回顾利用大数据推进癌症研究和治疗的当前技术水平和未来挑战,使我们对癌症生物学的理解取得了概念上的进步,并影响了疾病的诊断和治疗决策,进而推动癌症大数据应用的当前挑战和未来发展。
2022年9月5日,在Nature Reviews Cancer杂志上发表了一篇名为“Big data in basic and translational cancer research”的文章,通过描述主要数据源,回顾和讨论利用大数据集进行癌症发现的数据分析方法,介绍了在面向临床的转化研究中利用大数据的优势。
一直以来癌症研究的主要焦点是一些基本途径和基因的分子和临床研究。近年来,在高通量技术的突破催化下,大规模癌症组学数据迅速积累。这种快速的数据增长催生了癌症中“大数据”概念的不断发展,其分析需要大量的计算资源,并可能为基本问题带来新的见解。本文回顾了利用大数据推进癌症研究和治疗的当前技术水平和未来挑战。
癌症是一个复杂的过程,其进展涉及患者身体的不同过程。因此癌症研究界产生了大量的分子和表型数据,以尽可能全面地研究癌症特征。高通量技术的突破催生了组学数据的快速积累,引发了癌症“大数据”的概念,此类大数据的一个模型示例是癌症基因组图谱(TCGA)收集的数据集。
癌症研究中有五种基本数据类型:分子组学数据、扰动表型数据、分子相互作用数据、成像数据和文本数据。分子组学数据描述了细胞系统和组织样本中分子的丰度或状态。此类数据是癌症研究中从患者或临床前样本中产生的最丰富的类型。此外,基因组和转录组读数可以包括空间信息,揭示不同区域内的癌症克隆进化以及与克隆特异性畸变相关的基因表达变化。尽管分辨率更有限,但传统的批量分析仍可用于分析大型患者队列,因为单细胞和空间数据的生成成本高昂,而且每项研究通常仅对少数肿瘤可行。
尽管数据密集型研究可能生成数百名患者的组学数据,但癌症研究的数据规模仍远远落后于计算机视觉等其他领域。跨队列聚合和跨模式整合可以显著增强大数据分析的鲁棒性和深度。在利用大数据资源时,临床决策、基础研究和新疗法的开发应考虑两个正交的维度;跨多种数据模式集成数据,并集成来自不同队列的数据,这可能包括从已有数据集转移知识。
图1:在翻译应用和基础研究中使用大数据的考虑
最近的一项研究证明了收集多模式数据的N-of-one策略的可行性和价值,包括多种蛋白质标记的免疫组织化学数据、RNA水平和来自液体活检的无细胞DNA的基因组学改变。然后,一个多学科分子肿瘤委员会(MTB)使用这些多模态组学数据做出个性化决策。总体而言,接受MTB推荐治疗的患者的PFS和总生存期明显长于选择接受独立医师治疗的患者。同样,另一项研究也证明了MTB建议带来的总体生存益处。
图2:以组学数据为指导使用标签外药物的前瞻性临床研究
人工智能用于数据驱动的癌症诊断。基因组学数据集通常可以在基因维度上相互对齐。然而临床诊断中的数据类型可能不会以任何明显的方式直接在样本之间对齐。基于深度神经网络的人工智能方法是一种将这些数据类型整合到临床应用中的新兴方法。癌症检测中常见的人工智能(AI)框架使用卷积神经网络(CNN)从诊断图像中检测癌细胞的存在。CNN使用卷积和池化将图像区域编码为可以通过机器学习模型进行分析的低维数值向量。CNN架构通常使用ImageNet数据进行预训练,该数据比任何癌症生物学成像数据集都要大得多。
为了提高AI框架的可靠性,可以通过组织图像的旋转或模糊来增加输入数据以增加数据大小。数据被分成不重叠的训练集、调优集和测试集,分别用于训练AI模型、调优超参数并估计新输入的预测精度。假阳性预测通常是重新训练AI模型的基本数据点。人工智能用于分析成像数据的最流行应用包括临床结果预测和肿瘤检测以及对H&E染色的组织进行分级。2021年9月,FDA批准使用AI软件Paige Prostate来帮助病理学家从前列腺穿刺活检样本中检测癌症区域。该批准反映了人工智能在组织病理学图像上应用的加速势头以补充传统病理学家的做法并提高分析吞吐量。
图3:数据驱动的人工智能支持癌症诊断
最近的研究结合药理学数据和人工智能来设计新药。基于现有DDR1抑制剂和化合物库的信息,使用深度生成模型设计抑制受体酪氨酸激酶DDR1的新小分子,主要候选药物在小鼠中表现出良好的药物代谢动力学。深度生成模型是具有多层的神经网络学习特定数据集的复杂特征,并可以使用它们来生成类似于训练数据的新数据。对于每个特定的药物设计应用,这样的框架可以将不同的数据编码到神经网络参数中,从而自然地结合许多数据类型。
AI还可用于对靶蛋白结构上的生物活性配体进行虚拟筛选。假设化学基团之间的生化相互作用是局部发生的,卷积神经网络可以整合来自先前虚拟筛选研究的训练数据,以优于先前基于最小化经验分数的对接方法。同样,系统评估表明,使用由分子描述符和药物生物活性组成的大型和多样化数据集训练的深度神经网络可以比其他方法更好地预测测试集分子的活性。
图4:使用生成人工智能模型设计新的激酶抑制剂。
大数据能否带来一些基本问题解决方法,以克服异质性肿瘤向耐药性的演变,同时避免无法忍受的毒性作用。另外癌症数据科学的一个关键挑战是数据和代码的可用性不足。此外存储的数据可能缺少关键信息。因此,研究团队认为缓解这些问题需要资助机构执行有关公共数据可用性的政策,并需要社区做出额外努力来检查开放数据访问的实现情况。
数据科学和AI正在通过多种应用改变我们的世界。目前有可用的肿瘤数据,通过跨模式集成、跨队列聚合和数据重用来促进癌症的生物医学突破,并且在生成和分析此类数据方面取得了非凡的进步。然而该领域的大数据状况是复杂的。研究团队认为我们应该承认癌症中的“大数据”还没有那么大。全球研究界对扩展癌症数据集的投资对计算模型推动基础研究、癌症诊断和新疗法的开发至关重要。
教授介绍
Eytan Ruppin,医学博士,美国癌症研究所癌症数据科学实验室主任,主要专业领域是计算系统生物学,重点是人类、微生物和植物代谢的基因组规模代谢系统建模。他的实验室项目专注于研究癌症和衰老中的代谢变化,旨在与相关实验研究小组合作,识别和探索新的疾病生物标志物和药物靶点。他的实验室共同确定了第一个治疗癌症的代谢合成致死(SL)药物靶标,第一个以全基因组方式识别癌症中的代谢SL,并且第一个发现通过挖掘患者肿瘤数据来推断癌症SL。Eytan是一些参与精准医学和癌症药物发现的初创公司的联合创始人,包括Metabomed、Medaware和Pangea Therapeutics,并且是EMBO Reports和Molecular Systems Biology的编委。
参考文献
Jiang P, Sinha S, Aldape K, Hannenhalli S, Sahinalp C, Ruppin E. Big data in basic and translational cancer research. Nat Rev Cancer. 2022 Sep 5:1–15. doi: 10.1038/s41568-022-00502-0. Epub ahead of print. PMID: 36064595; PMCID: PMC9443637.