arXiv:2312.06224Submitted 11 December, 2023; originally announced December 2023.
这篇综述文章很长,本文对各部分简要概述。
【文章整体概述】
医学视觉语言预训练(VLP)最近已经成为解决医学领域标记数据稀缺问题的一种有希望的解决方案。通过利用成对或非成对的视觉和文本数据集进行自监督学习,模型能够获得大量知识并学习强大的特征表示。这样的预训练模型有潜力同时提升多个下游医学任务,减少对标记数据的依赖。然而,尽管近期取得了进展并显示出潜力,目前还没有一篇综述文章全面探讨了医学VLP的各个方面和进展。在本文中,特别审视了现有工作,通过不同的预训练目标、架构、下游评估任务和用于预训练及下游任务的数据集的视角。随后,深入探讨了医学VLP中的当前挑战,讨论了现有和潜在的解决方案,并以展望未来的发展方向作为结论。这是第一篇专注于医学VLP的综述。
【IV.MULTIMODAL LEARNING APPROACHES】
在第四部分“多模态学习方法”中,本文探讨了多模态学习在医学领域的应用,尤其是监督和自监督学习方法的使用。
A. 监督多模态学习: 这一部分讨论了监督多模态学习,其中需要依赖于真实标签(ground truth labels)来学习预测模型。监督学习在医学领域面临着由于需要大量标注数据而引发的挑战,这一挑战由专业领域专家对医学数据进行注释的需求和隐私问题的日益增长进一步加剧。
B. 自监督多模态学习: 自监督学习分为预训练和下游任务学习两个阶段。在预训练阶段,自监督方法不依赖于真实标签,而是使用数据中的其他形式的自生成的监督作为目标函数来训练预测模型。这种方法通过替换监督目标中的真实标签为伪标签来实现。预训练后,训练好的模型用于学习使用真实标签的特定下游任务。自监督预训练步骤减少了对标注数据的依赖,并在某些情景下显示出优于全监督模型的性能。在医学领域,获取标注数据是一个重大障碍,自监督学习显示出高效性。尽管缺乏注释标签,医学数据集通常包含图像和详细的文本报告,为自监督预训练提供了宝贵的资源。
总体而言,这一部分强调了在医学领域中多模态学习的重要性,特别是自监督学习在利用大规模医学图像和文本数据中的潜力。
【V. MEDICAL VLP OBJECTIVE FUNCTIONS】
在第五部分“医学VLP目标函数”中,各种目标函数的常用模型和方法被详细讨论,图画得很好,这里总结一下它们的优缺点:
A. 掩码预测:
常用模型:这种方法常用于BERT-like的模型,其中模型被训练来预测在文本或图像中被随机掩盖的部分。Masked Prediction的常用任务如:Masked Language Modeling (MLM)、Masked Image Modeling (MIM)。代表模型:MMBERT
优点
缺点
1.侧重单一模态:掩码预测方法可能过分侧重于在单一模态(如文本或图像)内的特征学习,而不是跨模态(即图像和文本之间)的特征关联。
B. 对比学习:
常用模型:使用诸如Siamese网络架构的模型,这些模型通过比较正负样本对来学习区分特征。代表模型ConVIRT、PubMedCLIP、BiomedCLIP、IMITATE、GLORIA、LIMITR、LRCLR、LOVT、MedCLIP、KoBo
优点
缺点
C. 匹配预测:
D. 混合目标:
常用模型:这些方法通常结合多种技术,例如Masking + Contrastive的模型,代表模型:PMC-CLIP、PRIOR、BioViL;Masking + Matching prediction:UWOX、MedViLL、M3AE、ARL;Mixed Objectives:MUMC、
优点:通过结合多种方法,可以在模型中实现更全面的特征学习,从而提高模型的泛化能力和性能。
缺点:
1.这种方法可能会导致模型和训练过程变得复杂,需要精心设计以确保不同目标的有效结合。
2.在视觉模态上应用掩蔽预测时,医学图像中的局部视觉线索往往被掩蔽。掩蔽的医学图像可能是模糊的,并且不再与所附文本完美对齐。因此,将对比学习直接应用于屏蔽输入可能会由于未对准而提供次优解。
【VI. MEDICAL VLP RELATED ADDITIONAL ASPECTS】
在第六部分“医学VLP相关附加方面”中,文档讨论了几个重要的额外方面:
A.使用未配对数据进行预训练:
自监督学习的有效性与可用的预训练数据量直接相关。为了克服医学配对图像文本报告的有限大小,许多论文提出了在预训练期间利用未配对数据集的方法。将只有图像或只有文本的数据集(带有或不带有其他附带注释)称为未配对数据集。
B.在预训练期间使用时间信息:
与典型的自然语言文本不同,临床报告经常引用过去的历史,提供时间背景。因此一些模型建议使用先前的图像和报告(如果可用)来利用VLP医疗数据集中存在的时间监督。
C.胸部X线多视图的使用:
在临床实践中,临床医生通常依赖于来自放射学扫描的多个视图的见解来进行准确的评估。不同的视觉提示往往在不同的视图上更明显,并且利用这些不同的视角(如果可用)可以增强学习的表示,并证明在下游评估任务中是有益的。
D.其他视觉模态
多数论文都是2D的,2D+3D或者几种不同的医学检查数据结合是值得研究的方向。
【VII. DATA AUGMENTATION】
数据增强是医学VLP的一个组成部分,因为它有助于提高模型对不同数据的鲁棒性、泛化性和性能。由于医学领域的数据数量特别有限,因此增强可以极大地帮助增加数据集的大小和可变性。在本节中,简要介绍了医学VLP中常用的增强技术。
【VIII. ARCHITECTURE】
编码器架构是医学VLP的核心组件之一,负责处理图像和文本数据。本文讨论了两种主要类型的编码器:
模态融合是VLP中的另一个关键方面,涉及将图像和文本的编码信息结合起来。本文讨论了三种主要的模态融合方法:
【IX. DOWNSTREAM EVALUATION TASKS】
在论文的第九部分,详细讨论了医学视觉语言预训练(VLP)模型在多种医学图像处理和分析任务中的应用。
A. Medical Image Classification
探讨了医学图像分类任务,并特别关注了三种不同的方法:零样本分类(提示法)、线性探测和微调:
零样本分类 (提示法)
核心概念:零样本分类不需要对模型进行特定任务的训练,而是直接利用预训练模型的泛化能力来进行分类。
实施方法:通过构造提示(prompt)将分类任务转化为模型可以理解的形式。例如,将医学图像分类任务转化为一种模型在预训练过程中已学习的任务。
优势:能够在没有额外训练数据的情况下利用预训练模型,节省训练时间和资源。
局限性:性能依赖于预训练模型的泛化能力和提示的有效构造。
线性探测
核心概念:在预训练模型的基础上添加一个简单的线性分类器。
实施方法:保持预训练模型的权重固定,仅训练添加的线性分类层。
优势:相比于完全微调,计算成本较低,可以快速评估预训练模型的特征提取能力。
局限性:性能可能不及完全微调,尤其是在预训练模型和目标任务之间存在较大差异时。
微调
核心概念:对整个预训练模型进行微调,以适应特定的分类任务。
实施方法:在特定任务的数据集上继续训练整个模型,以调整其权重。
优势:通过微调,模型能够更好地适应特定任务,通常可以达到更高的性能。
局限性:需要较多的训练数据和计算资源,也可能面临过拟合的风险。
B. Medical Image Segmentation
讨论了医学图像分割任务,特别是两种主要方法:零样本分割和微调分割。
零样本分割
核心概念:零样本分割指的是在没有针对特定分割任务进行训练的情况下,直接使用预训练模型来进行图像分割。
实施方法:利用预训练模型的泛化能力,通常通过将分割任务转化为模型可以处理的形式,如利用模型在预训练过程中学到的特征。
优势:无需额外训练数据,可以节省显著的时间和资源。适用于资源受限或需要快速原型开发的场景。
局限性:分割精度和性能通常低于专门针对特定任务训练的模型。依赖于预训练模型的质量和泛化能力。
微调分割
核心概念:微调分割涉及在特定的图像分割任务上继续训练预训练的模型,以更好地适应该任务。
实施方法:在分割任务的数据集上对预训练模型进行进一步的训练,通常包括对模型的所有或部分层进行微调。
优势:通过针对特定任务的微调,模型能够更准确地识别和分割图像中的特定结构或区域,通常能达到更高的性能。
局限性:需要相对较多的标注数据和计算资源。微调过程中可能存在过拟合的风险,特别是在数据量较小的情况下。
C. Medical Object Detection
D. Cross-modal Retrieval
E. Medical Report Generation
探讨了医学报告生成任务在医学视觉语言预训练(VLP)领域的应用
零样本生成:
核心概念:零样本生成指的是在没有专门为报告生成任务进行额外训练的情况下,使用预训练模型直接生成医学报告。
实施方法:这种方法依赖于预训练模型的泛化能力和语言模型的质量,通常通过特定的提示或查询来引导模型生成相关报告。
优势:不需要针对特定任务的训练数据,可以快速部署,节省资源。
局限性:生成的报告可能不够精确或详细,特别是在处理复杂的医学案例时。
微调生成:
核心概念:微调生成方法涉及在特定的医学报告生成任务上对预训练模型进行进一步训练,以更好地适应该任务。
实施方法:通常在特定的医学图像和对应报告的数据集上进行微调,使模型学习如何结合图像特征和临床知识来生成报告。
优势:可以生成更准确、更具针对性的医学报告,特别是当训练数据充分覆盖相关医学条件时。
局限性:需要大量标注的训练数据和更多的计算资源。可能存在过拟合的风险,尤其是在数据有限的情况下。
F. Medical Visual Question Answering
任务描述:根据给定的医学图像和自然语言问题生成正确的答案。
评估方法:使用分类准确度和自然语言生成指标进行评估。
训练方法:VLP模型通常用于编码图像和问题,然后结合模型生成或选择答案。
【X. DATASETS】
详细讨论了在医学视觉语言预训练(VLP)研究中使用的关键数据集。
预训练数据集是用于训练医学VLP模型的基础,包括大量医学图像和对应的文本数据。一些主要的预训练数据集包括:
下游任务数据集用于评估医学VLP模型在特定医学任务上的表现。这些任务包括图像分类、分割、对象检测等。一些主要的下游任务数据集包括:
【XI. LIMITATION AND CHALLENGES IN MEDICAL VLP】
详细探讨了医学视觉语言预训练(VLP)领域的主要限制和挑战。以下是从六个关键方面的详细总结:
A. 预训练数据的大小和覆盖范围
B. 医学领域的特殊性
C. 数据增强
D. 类别不平衡
E. 计算病理学的挑战
F. 多成像模式
【XII. PERSPECTIVES AND FUTURE DIRECTIONS】
提出了对医学视觉语言预训练(VLP)未来发展的展望和方向。以下是对这一部分的详细总结: