【论文阅读】PMC-CLIP:使用生物医学文档的对比语言图像预训练

【论文阅读】PMC-CLIP:使用生物医学文档的对比语言图像预训练

【论文阅读】PMC-CLIP:使用生物医学文档的对比语言图像预训练_第1张图片

文章主页:PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents (weixionglin.github.io)
论文链接:[2303.07240] PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents (arxiv.org)
代码链接:GitHub - WeixiongLin/PMC-CLIP

摘要

在大规模数据集上训练的基础模型最近在 CV 和 NLP 方面取得了飞速发展。 相比之下,生物医学领域由于数据匮乏,发展远远滞后。 为了解决这个问题,我们构建并发布了 PMC-OA,这是一个生物医学数据集,包含从 PubMedCentral 的 OpenAccess 子集收集的 160 万个图像标题对,比以前大 8 倍。 PMC-OA 涵盖多种模式或疾病,大多数图像标题样本在更细粒度的级别上对齐,即子图和子标题。 在 PMC-OA 上预训练 CLIP 式模型时,我们名为 PMC-CLIP 的模型在各种下游任务上实现了最先进的结果,包括 ROCO 上的图像文本检索、MedMNIST 图像分类、医学 VQA,即 +8.1 图文检索% R@10,图像分类准确率+3.9%。

引言

在最近的文献中,基础模型的发展一直是人工智能的主要推动力,例如,用自回归预测或涂膜标记训练的大型语言模型,以及通过对比视觉语言特征训练的计算机视觉模型。相比之下,生物医学领域的发展远远落后,这是由于两个方面的数据可用性的限制,(i)注释所需的专业知识,(ii)隐私问题。本文介绍了我们使用公开的科学论文构建大规模,高质量,图像-文本生物医学数据集的初步研究,其中涉及的手工工作最少。
特别是,我们从PubMed Central(美国国立卫生研究院生物医学和生命科学期刊文献的免费全文档案)的科学文献中抓取数据和相应的标题。这带来了两个好处:(i)出版物中的内容通常都有很好的注释和专家的检查,(ii)数字已经很好地匿名化和去识别。在文献中,我们显然不是第一个以这种方式构建生物医学数据集的人,然而,现有的数据集受到当今标准的某些限制。例如,作为一项开创性的工作,ROCO是在很久以前构建的,只有81k的放射图像。MedICAT包含217k张图像,但大部分由复合体组成。在这项工作中,我们通过引入一个自动管道来从科学文献中生成具有子图和字幕对应的数据集,解决了上述限制,该管道包括三个主要阶段:医学图收集、子图分离、字幕分离和对齐。最终的数据集PMC-OA,由1.65M个图像-文本对组成,如图1和图3。
【论文阅读】PMC-CLIP:使用生物医学文档的对比语言图像预训练_第2张图片

与构建的数据集一起,我们训练了一个clip风格的生物医学领域视觉语言模型,称为PMC-CLIP。该模型在具有标准图像-文本对比(ITC)损失的PMC-OA上进行训练,为了促进图像和文本的联合交互,还采用了掩码语言建模(MLM)。我们在几个下游任务上评估预训练模型,包括医学图像文本检索、医学图像分类和医学视觉问答(VQA)。PMC-CLIP在各种下游任务上实现了最先进的性能,大大超过了以前的方法。
总体而言,本文做出了以下贡献:首先,我们提出了一个从科学论文中构建高质量图像-文本生物医学数据集的自动管道,并通过该管道构建了一个图像-标题数据集,命名为PMC-OA,该管道比以前大8倍。利用所提出的管道,数据集可以持续更新。其次,我们在构建的图像采集数据集上预训练一个视觉语言模型,称为PMC-CLIP,作为生物医学领域的基础模型。第三,我们对各种任务(检索、分类和VQA)进行了深入的实验,并在大多数下游数据集上获得了SOTA性能,证明了PMC-OA的优势和基础模型PMC-CLIP的潜力。数据集和预训练模型将提供给社区。
【论文阅读】PMC-CLIP:使用生物医学文档的对比语言图像预训练_第3张图片

PMC-OA是一个大规模的医学图像-文本数据集,包含165万个图像-文本对。该数据集的收集过程包括三个主要阶段:医学图像收集、子图分离和子标题分离与对齐。首先,从PubMed Central中提取图像和标题,然后使用预定义的医学关键词过滤标题,删除不相关的图像-文本对。最后,将图像和标题对齐,形成图像-文本对。PMC-OA数据集的特点包括:涵盖了多种诊断程序、疾病和发现;疾病以自由文本形式给出,允许详细的识别和分析;性别比例大致平衡。

PMC-CLIP模型在医学领域的预训练模型中表现出色,超过了以前的方法。在多个下游任务中,包括医学图像-文本检索、医学图像分类和医学视觉问答(VQA)等,PMC-CLIP都取得了最先进的性能。与其他预训练模型相比,PMC-CLIP模型具有更好的泛化能力和更高的准确性。
【论文阅读】PMC-CLIP:使用生物医学文档的对比语言图像预训练_第4张图片
【论文阅读】PMC-CLIP:使用生物医学文档的对比语言图像预训练_第5张图片
【论文阅读】PMC-CLIP:使用生物医学文档的对比语言图像预训练_第6张图片

【论文阅读】PMC-CLIP:使用生物医学文档的对比语言图像预训练_第7张图片
【论文阅读】PMC-CLIP:使用生物医学文档的对比语言图像预训练_第8张图片
更多内容详见公众号:曲艺小苑
【论文阅读】PMC-CLIP:使用生物医学文档的对比语言图像预训练_第9张图片

你可能感兴趣的:(论文阅读)