多模态是把要检索的模态融合起来,做整体的检索,查询和检索的必须至少有一个模态是相同的,也就是要查询和检索的模态都已经在融合模态里了。
跨模态是检索结果和查询的模态是不同,如图像检索文本,视频和音频。跨模态检索的关键在于对不同模态的关系进行建模,难点就是语义对齐。
今天为大家介绍的是来自Julián N.Acosta和Guido J.Falcone的一篇关于多模态生物医药AI的综述。目前大多数人工智能在医学上的应用都是使用单模态数据来处理特定的任务,例如计算机断层扫描显像(CT)和视网膜图像。
相比之下,临床医生在诊断、进行预后评估和决定治疗计划时,会处理来自多个源的多模态的数据。在这篇综述中,作者探索了多模态数据在个性化医疗、数字临床试验、远程监测和护理、流行病监测、数字孪生技术和虚拟健康助手方面可能的应用,并介绍了相关的数据、建模和隐私挑战以及克服这些挑战有前途的策略。
多模态学习框架能够从不同模态的数据中学习,而不需要不同的模型架构。理想地,统一的多模态模型将结合不同类型的数据(图像、生理传感器数据以及结构化和非结构化文本数据等),为跨模态的类似概念产生对齐的表示(例如,狗的图片,并且单词‘狗’应该产生类似的内部表示),并提供任务所要求的任意类型的输出。
在过去的几年里,已经从应用于特定模态的架构–例如用于图像的卷积神经网络,或用于文本的循环神经网络–过渡到Transformer这一相对新颖的架构,该架构已经在各种输入和输出模态和任务上显示出良好的性能。Transformer的一个很有希望的方面是能够用未标记的数据学习有意义的表示,这在生物医学人工智能中是至关重要的,因为获得高质量标记所需的资源有限且昂贵。
成功开发多模态数据支持的应用程序的第一个要求是收集、管理和协调大型注释数据集,因为再复杂的技术也无法派生出数据中不存在的信息。相关的研究,例如UK Biobank于2006年开始注册,最终参与者人数超过50万,并计划在注册后跟踪参与者至少30年。这个大型生物库从参与者那里收集了多层数据,包括社会人口统计和生活方式信息、身体测量、生物样本、12导联心电图和EHR(电子健康记录)数据。其他国家也开展了类似的活动,如China Kadoorie Biobank和Biobank Japan等等。
这些数据集中的多模态数据的可用性可能有助于在一系列不同的任务中实现更好的诊断性能。例如,最近的工作表明,在识别肺栓塞和区分急性呼吸衰竭的常见原因(如心衰、肺炎或慢性阻塞性肺疾病)方面,影像学和电子病历数据的结合优于单独的每种模式。
在生物医学人工智能的设置中,数据可能并不容易获得,因为原始数据打标签, 需要该领域的专家知识。
这一问题的一个可能的解决方案是利用一种模态的可用数据来帮助使用另一种模态进行学习,这是一种称为“共同学习”的多模态学习任务。例如,一些研究表明,对未标记的语言数据进行预训练的Transformer可能能够很好地推广到其他任务。在医学方面,一种名为“CycleGans”的模型架构,它用非配对的非对比或对比CT扫描图像进行训练,被用于生成非对比或对比CT扫描图像。
多维数据在收集、链接和注释这些数据方面带来了广泛的挑战。医学数据集可以沿着多个轴进行描述,包括样本大小、表型分析的深度、随访的时间和间隔、参与者之间的互动程度、参与者的异质性和多样性、数据的标准化和协调程度以及数据来源之间的关联度。
数据的挑战有以下几个方面。第一,生物医学数据集的多样性至关重要,因为它是确保推广到更广泛人群的第一步。第二,多模态人工智能的一个必要步骤是将数据集中可用的所有数据类型适当地联系起来,这是另一项挑战。第三,是丢失数据的比例通常很高。虽然在某些情况下,在训练前简单地排除有缺失数据的患者是一种选择,但当其他因素影响缺失数据时,可能会出现选择偏差,而且通常使用统计工具来弥补这些缺失更合适,例如多重插补。第四,在进行收集健康数据的研究时,会有引起几种偏见的风险,需要采取多种方法来监测和减轻这些偏见
另一个重要的建模挑战与多模态健康数据中包含的极高数量的维度有关,统称为“维度诅咒”。随着维度数量的增加,携带这些特征的某些特定组合的人的数量减少,从而导致数据集盲点,即特征空间的一部分没有任何观测。这些数据集盲点可能会损害模型在现实生活预测方面的性能。
可以使用几种策略来缓解这一问题。第一种,使用最高性能的任务收集数据(例如,用于运动控制的快速手指敲击,而不是日常运动中被动收集的数据)。
第二,确保大而多样的样本量(即条件与模型临床部署时预期的条件相匹配)。
第三,使用领域知识指导特征工程和选择,适当的模型训练和正则化,严格的模型验证和全面的模型监测(包括监测训练数据和部署后发现的数据之间的差异)。
展望未来,开发能够整合先前知识的模型(例如,已知的基因调控途径和蛋白质相互作用) 可能是克服维度诅咒的另一种有希望的方法。
在多模态学习中,组合来自不同模态的数据的过程被称为“多模态融合”,这不是简单地将几个模态分别输入到模型中。不同数据模态的融合可以在该过程的不同阶段进行。最简单的方法包括在任何处理之前串联输入模态或特征(早期融合)。虽然简单,但这种方法并不适用于许多复杂的数据模态。一种更复杂的方法是在训练过程中组合并共同学习这些不同模态的表示(联合融合),允许特定于模态的预处理,同时仍然捕获数据模态之间的相互作用。最后一种方法是为每种模态训练单独的模型,并结合输出概率(后期融合),这是一种简单而稳健的方法,但错过了从模态之间的相互作用中提取信息的机会。
与多模态模型相关的许多其他重要挑战仍然存在。对于一些模态(例如,三维成像),即使只使用单个时间点的模型也需要很大的计算能力,而同时处理大规模组学或文本数据的模型是一个重要的基础挑战。
多模态人工智能在健康领域的成功发展需要数据的广度和深度,这包含了比单一模态人工智能模型更高的隐私挑战。研究人员提出和探索了多种技术解决方案,以确保在训练多模态人工智能模型的同时确保安全和隐私,包括差异隐私、联邦学习、同态加密和群学习。
边缘计算也可以用于保护隐私。与云计算相反,边缘计算指的是让计算更接近数据来源的想法(例如,接近环境传感器或可穿戴设备)。与联邦学习等其他方法相结合,边缘计算通过避免将敏感数据传输到中央服务器来提供更高的安全性。
Acosta, J.N., Falcone, G.J., Rajpurkar, P.et al.Multimodal biomedical AI.Nat Med(2022)