LLaVA-Med 论文阅读笔记

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day 论文阅读笔记

Abstract

本文提出了一种经济有效的方法训练一个可以回答生物医学图像开放研究问题的视觉-语言对话助手。其核心思想是从PubMed Central中提取大规模、广覆盖的生物医学数字字母数据集,使用GPT-4对字幕的开放式教学跟随数据进行只知道然后对字幕中的数据进行微调。

论文地址:https://arxiv.org/abs/2306.00890

项目地址:https://aka.ms/llava-med

目录

文章目录

  • LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day 论文阅读笔记
    • @[toc]
    • 1 Introduction
    • 2 Related Works
    • 3 Biomedical Visual Instruction-Following Data
    • 4 Adapting Multimodal Conversational Models to the Biomedical Domain
    • 5 Experiments
      • 5.1 Biomedical Visual Chatbot
      • 5.2 Performance on Established Benchmarks
    • 6 Conclusions
    • References

1 Introduction

论文的背景主要如下。

  • 平行图像文本数据的丰富性,可以用于自监督的视觉-语言建模。
  • GPT-4,LLaVA等通用领域的成功案例。
  • 生物医学领域的挑战和需求
    • 由于图像性质和内容不同导致的模型性能不佳(不准确的回应或致幻)
    • 对开放式指令的需求

基于上述背景,作者团队提出了LLaVA-Med模型,第一次尝试将多模态指令调整应用于生物医学领域,通过自动生成的生物医学多模态指令遵循数据进行端到端训练。

  • 构建了大规模数据集PMC-15M: 从PubMed Central 中提取出的1500万生物医学图像-文本对。

  • 使用GPT-4生成多样化数据: 使用GPT-4模型基于PMC-15M生成了生物医学领域的指令遵循数据。

  • 引入了新课程学习方法

论文的主要贡献包括:

  • 构建生物医学多模态指令遵循数据集。
  • 提出了LLaVA-Med模型以及一种新颖的课程学习方法。
  • 代码开源

2 Related Works

Biomedical Chatbots

这一部分介绍了当前有的一些生物医学领域的聊天机器人。

  • language-only biomedical chatbot: 在此之前已经有很多基于大语言模型开发的生物医学领域聊天机器人,例如ChatDoctorMed-AlpacaPMC-LLaMAClinical CamelDoctorGLMHuatuo等。实现思路都是在开源LLM上进行初始化,并在定制的生物医学指令遵循数据集上微调。

  • Multimodal biomedical chatbot: 论文提到的唯一支持图像输入的生物医学聊天机器人是Visual Med-Alpaca,并且与LLaVA-Med有一定相似之处。不同之处主要体现在模型架构和数据上。

    • 模型架构上:Visual Med-Alpaca是一个系统,由多个图像字幕模型连接一个LLM,并使用分类器确定图像的字幕模型是否负责图像;`LLaVA-Med``是一个端到端神经模型,直接输入图像/文字得到文字生成。
    • 指令遵循数据:Visual Med-Alpaca是在来自有限生物医学主题领域的54K样本上进行训练的,LLaVA-Med则在更多样化的数据集上进行了训练(15M)。

Biomedical Visual Question Answering

这一部分介绍了构建能够基于生物医学图像问答问题的方法,现有的方法主要分为辨别式方法(discriminative)和生成式(generative)方法。

  1. 辨别式方法: 将VQA问题视为分类问题,其中模型从预定义的答案集中进行预测。辨别式方法在性能上表现良好,但处理封闭集预测,需要在推断时进行调整,特别是当提供了定制答案集时。
  2. 生成式方法: 为了解决封闭集问题,开发了生成式方法,这些方法将答案预测为自由形式的文本序列。生成式方法更加灵活,因为它们自然地将封闭集问题视为一种特殊情况,其中候选答案以语言指令形式呈现。

生成式方法的优势在于其多功能性,更适用于处理开放问题,与通用生物医学助手回答现场问题的需求一致。


Model Architecture

LLaVA-Med与语言模型的前缀调优类似,使用一个可训练的模块连接冻结的图像编码器和语言模型。在论文*Open-ended medical visual question answering through prefix tuning of language models. arXiv preprint arXiv:2303.05977, 2023*中,使用了一个三层MLP,如下图所示。而LLaVA-Med采用了和LLaVA相同的思路,使用简单的线性投影来作为接口以降低训练成本。

LLaVA-Med 论文阅读笔记_第1张图片

在模型结构上的创新不大,LLaVA-Med的主要贡献在于提出一种新颖的数据生成方法,利用GPT-4自我生成生物医学多模态指令遵循数据,使用来自PubMed Central的广泛可用的生物医学图像文本对。

3 Biomedical Visual Instruction-Following Data

第三部分介绍了生物医学视觉指令跟随数据集的构建,由机器和人类共同参与,包括概念对齐和指令跟随两个部分。分别用于增强跨模态理解能力和遵循不同指令。

3.1 概念对齐数据(Biomedical Concept Alignment Data)
适用于通过训练来让生物医学图像的信息和文本相匹配。具体而言,对于生物医学图像 X v \mathbf{X_v} Xv以及字幕 X c \mathbf{X_c} Xc,给定一个问题 X q \mathbf{X_q} Xq​(要求机器描述这个图像),使用这个三元组来构成一个数据样例。问题 X q \mathbf{X_q} Xq根据 X c \mathbf{X_c} Xc 的长度是否超过30个单词来决定是简洁还是具体地描述(在PMC-15M中,有25%的字幕是少于30词的),这些问题的列表在原文的Appendix A。大致和LLaVA的内容相同。

H u m a n : X q , X v Human:\mathbf{X_q},\mathbf{X_v} Human:Xq,Xv \n A s s i s t a n t : X c Assistant :X_c Assistant:Xc \n

作者从PMC-15M中选出了一组600K 个图像-文本对用于构成这部分数据。


3.2 生物医学指令调整数据(Biomedical Instruction-Tuning Data)

为了使模型能够遵循多样的指令,作者采取了以下措施:

  1. 多轮对话的指令遵循数据: 通过提示只使用文本的 GPT-4,作者设计了包含生物医学图像的多轮对话指令。这些指令要求 GPT-4根据图像字幕生成多轮问题和答案,模拟一种语气,就像它能够看到图像一样。
  2. 添加上下文信息的提示: 为了提供有关图像的更多上下文,作者创建了一种提示,不仅包括标题,还包括原始 PubMed 论文中提到图像的句子。这有助于提供更多关于图像的信息,以便更好地生成有意义的对话。

LLaVA-Med 论文阅读笔记_第2张图片

  1. 手动策划的 few-shot 示例: 在提示中,作者手动策划了 few-shot 示例,以演示如何基于提供的标题和上下文生成高质量的对话。关于few-shot的提示(prompt)如下如所示。

  2. 图像和上下文的收集: 为了收集图像标题及其上下文,作者从 PMC-15M 中筛选出仅包含单一情节的图像。从这些图像中,他们采样了来自五种最常见成像模式的60K对图像文本。此外,他们从原始的 PubMed 论文中提取提到图像的句子作为标题的额外上下文,灵感来自于外部知识有助于泛化的观察。


LLaVA-Med 论文阅读笔记_第3张图片

在上述代码中,few-shot 示例的实现涉及对 fewshot_samples 中的每个示例进行迭代,然后将其中的上下文信息和模型响应作为对话的一部分添加到 messages 列表中。具体步骤如下:

  1. 首先,fewshot_samples 是一个包含手动策划的 few-shot 示例的列表。这些示例可能包括输入上下文(context)和相应的模型响应(response)。
  2. 使用 for sample in fewshot_samples: 遍历 fewshot_samples 中的每个示例。
  3. 对于每个示例,使用 sample['context'] 作为用户的输入,将用户的消息添加到 messages 中,{"role":"user", "content":sample['context']}
  4. 接着,使用 sample['response'] 作为模型的输出,将模型的响应添加到 messages 中,{"role":"assistant", "content":sample['response']}
  5. 这样,每个 few-shot 示例都被添加为一个用户与助手的对话交互,其中包含了手动策划的上下文信息和相应的模型生成。

最后,messages 列表中也包含了系统提示和用户的查询消息,形成了一个完整的对话。这个对话可以用于提示 GPT-4 生成医学视觉指令遵循数据。整个对话被设计为一个多轮的交互,旨在引导模型以多样化的方式生成对于生物医学图像的指令遵循对话。


作者根据数据质量的迭代过程 生成了三个版本的数据:

  • (i) 60K-IM: 包含行内提及(IM)作为上下文的数据集,包含60,000个样本。
  • (ii) 60K: 与60K-IM相似大小的数据集,但在自我指导生成中没有行内提及。
  • (iii) 10K: 一个较小的数据集,包含10个样本,并且没有行内提及。

数据的统计信息如图2所示。

  1. (a, b):指令和响应的根动词-名词对: 图中显示了指令和响应的根动词-名词对的统计信息。图中的内圈表示输出响应的根动词,而外圈表示直接的名词。
  2. (c ):图像和问题回答对的领域分布: 图中展示了五个领域上的图像和问题回答对的分布。每个领域都展示了一个图像,这些图像来自特定的文献引用。

LLaVA-Med 论文阅读笔记_第4张图片

4 Adapting Multimodal Conversational Models to the Biomedical Domain

将通用领域的LLaVA模型引入生物医学领域,其方法是使用同样的网络结构并使用生物医学领域的图像-文本数据训练,过程如图3所示。并在视觉会话和问答问题上进行了测评。与数据的划分一样,训练过程也分为两部分:生物医疗概念对齐和生物医疗指令调整。从图示中可以看到训练的过程只使用了不到一天的时间。

LLaVA-Med 论文阅读笔记_第5张图片

在机器学习中,Curriculum learning(课程学习)是一种训练模型的策略,其核心思想是通过逐步调整训练样本的难度,帮助模型逐渐学习复杂的模式和任务。Curriculum learning 的一般思路是从相对简单的例子开始,逐渐过渡到更难的例子。这种渐进式的学习方式可以帮助模型在早期阶段更容易收敛,提高整体学习效果。


4.1 Stage 1: Biomedical Concept Feature Alignment.

在§3.1 中提到,作者从PMC-15M中选出了一组600K 个图像-文本对用于构成特征对齐的数据集。对于每个样本,在给定语言指令和图像输入的情况下,作者要求模型预测原始图像标题。在训练过程中,冻结了视觉编码器和语言模型的权重,只更新投影矩阵。通过这种方法来让模型学习在生物医学领域的概念对齐。

4.2 Stage 2: End-to-End Instruction-Tuning.

这一部分的数据如§3.2 中提到,使用生物医学文本-图像指令遵循数据对模型进行微调,开发生物医学聊天机器人。在训练过程中,只保持视觉编码器冻结 ,继续更新预训练的投影层和语言模型的权重。

4.3 Fine-tuning to Downstream Datasets

为了适应具体的生物医学任务,需要在下游数据集上进行微调。作者在模型完成两个阶段的训练后在三个生物医学 VQA数据集上进行了微调。具体方法是给定生物医学图像作为上下文,提供多个自然语言问题,让助手以自由文本形式回答闭集和开集的问题,并为每个闭合集问题的提示构建了候选答案列表。

论文这一部分的引用是[27]来自Learn to explain: Multimodal reasoning via thought chains for science question answering.Advances in Neural Information Processing Systems, 2022.
论文中,作者提出了Science Question Answering(SCIENCEQA),这是一个新的基准,包含约21,000个多模态的选择题,涵盖多样的科学主题,并附带了与相应讲座和解释对应的答案注释。

4.4 Discussion

这段文字介绍了LLaVA-Med模型的三个优点或含义:

  1. 开发成本低廉: 与通过扩大数据/模型规模以获得最佳性能不同,LLaVA-Med旨在以较低的开发成本提供经济实惠且合理的解决方案。在8个40G A100 GPU上,第一阶段和第二阶段分别花费7小时和8小时。

    LLaVA-Med 论文阅读笔记_第6张图片

  2. 通用于多个领域: 尽管本文侧重于生物医学领域,但所提出的适应过程具有通用性,可以推广到其他垂直领域,如游戏和教育。这些领域需要建立一个有帮助的助手,需要新颖的概念和领域知识。借用了论文中的don’t stop pre-training的观点,作者考虑了从大规模未标记数据创建领域特定指导数据的可扩展流程,并提倡不停止指令调整以构建定制的大型多模态语言模型(LMM)。

Don’t stop pre-training 源自论文Don’t stop pretraining: Adapt language models to domains and tasks. arXiv preprint arXiv:2004.10964, 2020,论文的主要贡献是:
1、在跨越低资源和高资源情境的四个领域和八个任务中,对领域自适应和任务自适应预训练进行了彻底的分析;
2、对调整后的语言模型在不同领域和任务之间的可迁移性进行了研究;
3、进行了一项研究,强调在人工策划的数据集上进行预训练的重要性,并提出了一种简单的数据选择策略,以自动接近该性能。

  1. 低服务成本: 与通用LMM的模型规模可能巨大且服务成本可能过高相比,定制的LMM在低服务成本方面具有独特的优势。

  2. 平滑的模型适应: 该网络架构允许从BioMedCLIP [49]初始化视觉编码器,或从Vicuna [43]初始化语言模型,这可能导致更高的性能。然而,从LLaVA初始化的适应过程是平滑的,作为一个聊天机器人,模型的行为从菜鸟过渡到能够提供有帮助的领域特定响应的专业助手。


对上述提到的BioMedCLIPVicuna

BioMedCLIP来自论文Large-scale domain-specific pretraining for biomedical vision-language processing. arXiv preprint arXiv:2303.00915, 2023.

Vicuna链接:Vicuna. Vicuna: An open-source chatbot impressing GPT-4 with 90%* chatgpt quality.

5 Experiments

在实验部分,作者团队考察了多模态生物医学指令数据(§3 )的质量LLaVA-Med模型(§4 )的表现。对于模型表现,考察了以下两点:

  • LLaVA-Med作为开放生物医学视觉聊天机器人的表现。
  • LLaVA-Med与现有的方法在基准数据集合表现上的差异。

在实验过程中,仅使用只支持语言的GPT-4模型。

5.1 Biomedical Visual Chatbot

在生物医学多模态对话方面的性能,作者描述了数据机构建、问题生成、参考预测和回答生成、回答评估,得分计算,以及模型解释等方面。具体如下。

  1. 评估数据集构建: 通过随机选择50个未见过的PMC-15M图像和标题配对,生成两种类型的问题:对话和详细描述。
  2. 问题生成流程: 对于对话数据,采用与第二阶段相同的自我指导数据生成流程。详细描述问题从一个固定的问题集中随机选择。
  3. 参考预测与回答生成: 利用GPT-4进行参考预测,为教师模型设定上限答案。然后从另一个LMM生成相同问题的回答。
  4. 回答评估: 利用GPT-4对两个助手(候选LMM和GPT-4)的响应进行评分,包括帮助程度、相关性、准确性和详细程度。并使用1到10的尺度给出总体得分,其中较高的分数表示更好的性能。相对得分通过使用GPT-4参考分数进行标准化计算。
  5. 模型解释: 要求GPT-4提供对评估的全面解释,以更好地理解模型的表现。需要注意的是,GPT-4 通过考虑实际图像的地面真实标题和黄金行内提及来生成响应,而不是理解图像。虽然 LMMs 和 GPT-4 之间不是公平的比较,但 GPT-4 是一个一致且可靠的评估工具。

实验结果1:统计数据

LLaVA-Med 论文阅读笔记_第7张图片

尽管只完成了第一阶段的模型作为聊天机器人的表现不足,但是完成两个阶段培训的模型总体上优于通用LLaVA。其他结论包括:

  • 使用更大的指导数据(从 10K 到 60K 样本)训练会导致更高的性能。
  • 在自我指导中考虑行内提及时,生成的 60K-IM 数据略微提高了聊天能力。
  • 对于最佳的 LLaVA-Med,总体性能达到了 GPT-4 的 50.2%。

实验结果2:对话样例

如下图所示的对话样例也可以看出LLaVA-Med模型与行内提及数据对模型性能的改善。相比之下,因为多模态GPT-4未公开,也与仅支持语言的GPT-4的回复进行了比较。

LLaVA-Med 论文阅读笔记_第8张图片

5.2 Performance on Established Benchmarks

数据集描述

LLaVA-Med 论文阅读笔记_第9张图片

表三展示了测试使用的数据集数据详情,具体而言:

  1. VQA-RAD:
    • 包含 315 张医学放射影像,涵盖头部、胸部和腹部。
    • 共有 3515 个由临床医生生成的问题-答案对。
    • 问题分为 11 个类别,涵盖异常、属性、模态、器官系统、颜色、计数、物体/条件存在、大小、平面、位置推理和其他。
    • 答案的一半是封闭式(即是/否类型),其余是开放式,包括单词或短语答案。
  2. SLAKE:
    • 包含 642 张医学放射影像。
    • 包括 7000 多个由经验丰富的医生注释的多样化问题-答案对。
    • 问题可能涉及外部医学知识(可通过提供的医学知识图解决),图像附带有丰富的视觉注释,包括语义分割掩码和对象检测边界框。
    • 覆盖的人体部位包括大脑、颈部、胸部、腹部和盆腔。
    • SLAKE 是双语数据集,包含英语和中文。在与现有方法比较时,仅考虑英语子集。
  3. PathVQA:
    • 包含 4998 张病理图像。
    • 共有 32,799 个问题-答案对。
    • 每个图像有多个问题,涉及位置、形状、颜色、外观等多个方面。
    • 问题分为两种类型,包括开放式问题(例如为什么、什么、如何、在哪里等)和封闭式问题。

Evaluation Metrics

  1. 评估指标选择: 使用准确率评估封闭式问题,使用召回率评估开放式问题。
  2. 开放式问题难度: 与文献中通常将训练集中的唯一答案作为答案候选项不同,作者采用更接近开放集性质的评估方法。
  3. 评估方法的挑战: 由于对开放式问题的回应没有提供任何约束,因此这种评估方法可能更为困难,但也更全面。

在项目评估文件LLaVA-Med/llava/eval/eval_metrics/evaluate_metrics.py中有如下几个评估指标:

  1. BLEU Score: 使用n-gram权重计算BLEU分数,考虑了翻译结果和参考答案之间的匹配程度。BLEU是一种用于评估翻译结果的常见指标。
  2. Exact Match(精确匹配): 计算生成的答案与参考答案的精确匹配程度,即两者是否完全相同。
  3. Similarity Candidate Prediction: 计算生成的答案与参考答案之间的相似性,考虑了候选答案和预测之间的共同词汇。
  4. Calculate Appearance with Normalization: 考虑了生成的答案与参考答案之间的外观,通过归一化进行评估。
  5. F1 Score: 计算精确率(precision)、召回率(recall)和F1分数,用于综合评估生成的答案与参考答案之间的匹配程度。

Comparisons with SoTA

LLaVA-MedLLaVA和现有代表性方法的比较,结果如图4(a)所示,主要包括以下几个观点:

  1. LLaVA-Med Variants Outperform LLaVA: 所有LLaVA-Med的变体都表现优于LLaVA。在语言模型初始化方面,与LLaVAVicuna相比,来自BioMed CLIP的视觉编码器的初始化稍微优于来自一般领域CLIP的初始化。
  2. Fine-Tuning Performance: 在关闭式问题上,LLaVA-Med的微调性能优于VQA-RADPathVQA上监督学习的先进方法。这验证了LLaVA-Med在按照指令完成生物医学任务方面的强大能力,特别是当提供清晰的指令时(例如,是或否)。
  3. Open-Set Questions: 在开放式问题上,LLaVA-MedSLAKE上实现了SoTA,但在其他数据集上的表现有限,特别是与现有方法相比。这可能是因为开放式的生物医学问题可能存在歧义,而且难以限定其期望的答案选项。

LLaVA-Med 论文阅读笔记_第10张图片


Ablation Studies

论文的消融实验总结了在训练管道中考察了不同模型变体的性能以及对训练过程中的指导数据和超参数进行调整的影响,结果如图4(b)所示。主要几点发现如下:

  1. LLaVA-Med相对于LLaVA的优越性:
    • LLaVA-Med在各方面均明显优于LLaVA,表明生物医学领域的专门适应是有效的。
    • 在零砸迁移的情况下,LLaVA-Med的性能差距比在微调设置中更大,表明LLaVA-Med在野外部署时,相较于LLaVA,更是一个更好的选择。
  2. Stage 1训练的影响:
    • 在Stage 1中延长训练时间可以提高零砸迁移的性能,但仅仅进行Stage 1训练是不足够的。
    • Stage 1中的单一图像标题指导可能会使模型失去对各种指令的追踪能力。
  3. Stage 2的指导数据的关键性:
    • 在Stage 2中的指令追踪数据对性能至关重要,随着指导数据量从10K增加到60K,性能通常有所提高。
    • 60K-IM数据在零砸和微调性能方面提供了最佳的平均表现,验证了在数据创建中考虑行内提及作为外部知识的有效性。
  4. 下游数据集的微调和语言模型大小的影响:
    • 在下游数据集上更长时间地进行微调(至9个时期)有助于性能,特别是在Stage 2的3个时期训练的检查点上。
    • 将语言模型大小从7B增加到13B改善了整体零砸性能和微调性能。

LLaVA-Med 论文阅读笔记_第11张图片


训练时间

在§4中提到了训练成本,具体的数据如下。

LLaVA-Med 论文阅读笔记_第12张图片

同时作者发现在零样本的中文问题上模型也有不错的性能,可能原因是来自于LLaMA或者Vicuna的知识,一些示例如下。

LLaVA-Med 论文阅读笔记_第13张图片

6 Conclusions

本文的主要贡献是推出了在生物医药领域适用的大语言视觉模型(large language-and-vision model for the biomedical domain),LLaVA-Med模型。

  • 构建数据集: 使用自指导方法创建高质量的生物医学语言-图像指令遵循数据集,以使用仅语言的GPT-4和外部只是构建知识监管通道(data curation pipeline)。

  • 模型性能:LLaVA-Med在领域知识上展示了强大的优秀聊天能力,并在微调的3个数据集上达到SoTA。

可能存在的缺陷和限制和寻常的大模型一样,主要包括幻觉和缺乏深度推理能力(in-depth reasoning)。

本文的主要贡献是推出了在生物医药领域适用的大语言视觉模型(large language-and-vision model for the biomedical domain),LLaVA-Med模型。

  • 构建数据集: 使用自指导方法创建高质量的生物医学语言-图像指令遵循数据集,以使用仅语言的GPT-4和外部只是构建知识监管通道(data curation pipeline)。

  • 模型性能:LLaVA-Med在领域知识上展示了强大的优秀聊天能力,并在微调的3个数据集上达到SoTA。

可能存在的缺陷和限制和寻常的大模型一样,主要包括幻觉和缺乏深度推理能力(in-depth reasoning)。


References

[1] Clinical Camel. https://wanglab.ml/clinical_camel.html, 2023. 2
[2] Amanda Askell, Yuntao Bai, Anna Chen, Dawn Drain, Deep Ganguli, Tom Henighan, Andy Jones, Nicholas Joseph, Ben Mann, Nova DasSarma, et al. A general language assistant as a laboratory for alignment. arXiv preprint arXiv:2112.00861, 2021. 1
[3] Malek Ayoub, Megan Quamme, Abdul-Rahman K Abdel-Reheem, Poe Lwin, and Megan K Quamme. Covid or not covid? a great mimicker behind the smoke screen. Cureus, 13(11), 2021. 5
[4] Bappy Basak, Alexander Haragan, Michael Shackcloth, and Joyce Thekkudan. Chondromyxoid fibroma of the rib: A rare benign tumor with potential for local recurrence. Cureus, 13(10), 2021. 5 1

[5] Yakoub Bazi, Mohamad Mahmoud Al Rahhal, Laila Bashmal, and Mansour Zuair. Visionlanguage model for visual question answering in medical imagery. Bioengineering, 2023. 3, 9
[6] Anchit Bharat, Nikita Jain, Belaal Sheikh, Hafiz Jeelani, and Maryna Shayuk. Vaping-induced lung injury: An uncharted territory. Cureus, 12, 07 2020. 7
[7] Benedikt Boecking, Naoto Usuyama, Shruthi Bannur, Daniel C Castro, Anton Schwaighofer, Stephanie Hyland, Maria Wetscherek, Tristan Naumann, Aditya Nori, Javier Alvarez-Valle, et al. Making the most of text semantics to improve biomedical vision–language processing. In ECCV. Springer, 2022. 2
[8] Sedigheh Eslami, Christoph Meinel, and Gerard De Melo. Pubmedclip: How much does clip benefit visual question answering in the medical domain? In Findings of the Association for Computational Linguistics: EACL 2023, pages 1151–1163, 2023. 2, 3, 9
[9] Zhe Gan, Linjie Li, Chunyuan Li, Lijuan Wang, Zicheng Liu, Jianfeng Gao, et al. Visionlanguage pre-training: Basics, recent advances, and future trends. Foundations and Trends® in Computer Graphics and Vision, 2022. 1
[10] Yu Gu, Robert Tinn, Hao Cheng, Michael Lucas, Naoto Usuyama, Xiaodong Liu, Tristan Naumann, Jianfeng Gao, and Hoifung Poon. Domain-specific language model pretraining for biomedical natural language processing. ACM Transactions on Computing for Healthcare (HEALTH), 3(1):1–23, 2021. 2
[11] Suchin Gururangan, Ana Marasovi ́ c, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, and Noah A Smith… Don’t stop pretraining: Adapt language models to domains and tasks. arXiv preprint arXiv:2004.10964, 2020. 6
[12] Tianyu Han, Lisa C Adams, Jens-Michalis Papaioannou, Paul Grundmann, Tom Oberhauser, Alexander Löser, Daniel Truhn, and Keno K Bressem. Medalpaca–an open-source collection of medical conversational ai models and training data. arXiv preprint arXiv:2304.08247, 2023. 2
[13] Xuehai He, Yichen Zhang, Luntian Mou, Eric Xing, and Pengtao Xie. Pathvqa: 30000+ questions for medical visual question answering. arXiv preprint arXiv:2003.10286, 2020. 3, 8
[14] Kexin Huang, Jaan Altosaar, and Rajesh Ranganath. Clinicalbert: Modeling clinical notes and predicting hospital readmission. arXiv preprint arXiv:1904.05342, 2019. 2
[15] Alistair EW Johnson, Tom J Pollard, Seth J Berkowitz, Nathaniel R Greenbaum, Matthew P Lungren, Chih-ying Deng, Roger G Mark, and Steven Horng. Mimic-cxr, a de-identified publicly available database of chest radiographs with free-text reports. Scientific data, page 317, 2019. 2
[16] Jason J Lau, Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman. A dataset of clinically generated visual questions and answers about radiology images. Scientific data, 2018. 7
[17] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, and Jaewoo Kang. Biobert: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics, 36(4):1234–1240, 2020. 2
[18] Peter Lee, Sebastien Bubeck, and Joseph Petro. Benefits, limits, and risks of gpt-4 as an ai chatbot for medicine. New England Journal of Medicine, 388(13):1233–1239, 2023. 2
[19] Peter Lee, Carey Goldberg, and Isaac Kohane. The ai revolution in medicine: Gpt-4 and beyond. 2023. 2
[20] Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. Retrieval-augmented generation for knowledge-intensive NLP tasks. NeurIPS, 2020. 3 1

[21] Chunyuan Li, Haotian Liu, Liunian Harold Li, Pengchuan Zhang, Jyoti Aneja, Jianwei Yang, Ping Jin, Houdong Hu, Zicheng Liu, Yong Jae Lee, and Jianfeng Gao. ELEVATER: A benchmark and toolkit for evaluating language-augmented visual models. In NeurIPS Track on Datasets and Benchmarks, 2022. 1
[22] Pengfei Li, Gang Liu, Lin Tan, Jinying Liao, and Shenjun Zhong. Self-supervised visionlanguage pretraining for medical visual question answering. arXiv preprint arXiv:2211.13594, 2022. 3, 9
[23] Bo Liu, Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang, and Xiao-Ming Wu. Slake: A semanticallylabeled knowledge-enhanced dataset for medical visual question answering. In International Symposium on Biomedical Imaging (ISBI). IEEE, 2021. 8, 10
[24] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. arXiv preprint arXiv:2304.08485, 2023. 1, 2, 4, 6
[25] Haotian Liu, Kilho Son, Jianwei Yang, Ce Liu, Jianfeng Gao, Yong Jae Lee, and Chunyuan Li. Learning customized visual models with retrieval-augmented knowledge. arXiv preprint arXiv:2301.07094, 2023. 3
[26] Yunyi Liu, Zhanyu Wang, Dong Xu, and Luping Zhou. Q2atransformer: Improving medical vqa via an answer querying decoder. arXiv preprint arXiv:2304.01611, 2023. 3, 9
[27] Pan Lu, Swaroop Mishra, Tanglin Xia, Liang Qiu, Kai-Wei Chang, Song-Chun Zhu, Oyvind Tafjord, Peter Clark, and Ashwin Kalyan. Learn to explain: Multimodal reasoning via thought chains for science question answering. Advances in Neural Information Processing Systems, 2022. 5
[28] Renqian Luo, Liai Sun, Yingce Xia, Tao Qin, Sheng Zhang, Hoifung Poon, and Tie-Yan Liu. Biogpt: generative pre-trained transformer for biomedical text generation and mining. Briefings in Bioinformatics, 2022. 2, 3
[29] Hassan Mirmohammad Sadeghi, Abbas Karimi, Samira Derakhshan, Pouyan Aminishakib, and Kiarash Parchami. Conventional osteosarcoma of the mandible: Report of a rare case. Clinical Case Reports, 9(9):e04843, 2021. 5
[30] Harsha Nori, Nicholas King, Scott Mayer McKinney, Dean Carignan, and Eric Horvitz. Capabilities of gpt-4 on medical challenge problems. arXiv preprint arXiv:2303.13375, 2023. 2
[31] OpenAI. ChatGPT. https://openai.com/blog/chatgpt/, 2022. 2
[32] OpenAI. GPT-4 technical report. https://arxiv.org/abs/2303.08774, 2023. 1, 2
[33] Kyriakos A Papavasiliou, Dimitrios Stamiris, Stavros Stamiris, Antonia Bintoudi, and Eleftherios Tsiridis. Quadratus femoris partial tear secondary to occult ischiofemoral impingement. Journal of Orthopaedic Case Reports, 11(9):7, 2021. 5
[34] Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, and Jianfeng Gao. Instruction tuning with GPT-4. arXiv preprint arXiv:2304.03277, 2023. 2
[35] Roger Kevin Pringle and Lawrence H Wyatt. The appropriate use of radiography in clinical practice: a report of two cases of biomechanical versus malignant spine pain. Chiropractic & Osteopathy, 14(1):1–8, 2006. 4
[36] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021. 9
[37] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 2019. 3 1

[38] George Shih, Carol C Wu, Safwan S Halabi, Marc D Kohli, Luciano M Prevedello, Tessa S Cook, Arjun Sharma, Judith K Amorosa, Veronica Arteaga, Maya Galperin-Aizenberg, et al. Augmenting the national institutes of health chest radiograph dataset with expert annotations of possible pneumonia. Radiology: Artificial Intelligence, 2019. 2
[39] Chang Shu, Baian Chen, Fangyu Liu, Zihao Fu, Ehsan Shareghi, and Nigel Collier. Visual med-alpaca: A parameter-efficient biomedical llm with visual capabilities. 2023. 2
[40] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023. 3
[41] Tom van Sonsbeek, Mohammad Mahdi Derakhshani, Ivona Najdenkoska, Cees GM Snoek, and Marcel Worring. Open-ended medical visual question answering through prefix tuning of language models. arXiv preprint arXiv:2303.05977, 2023. 3, 9
[42] A Venigalla, J Frankle, and M Carbin. BiomedLM: a domain-specific large language model for biomedical text. MosaicML. Accessed: Dec, 23, 2022. 3
[43] Vicuna. Vicuna: An open-source chatbot impressing GPT-4 with 90%* chatgpt quality. https: //vicuna.lmsys.org/, 2023. 3, 6
[44] Haochun Wang, Chi Liu, Nuwa Xi, Zewen Qiang, Sendong Zhao, Bing Qin, and Ting Liu. Huatuo: Tuning llama model with chinese medical knowledge, 2023. 2
[45] Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, and Weidi Xie. Pmc-llama: Further finetuning llama on medical papers. arXiv preprint arXiv:2304.14454, 2023. 2
[46] Honglin Xiong, Sheng Wang, Yitao Zhu, Zihao Zhao, Yuxiao Liu, Qian Wang, and Dinggang Shen. Doctorglm: Fine-tuning your chinese doctor is not a herculean task. arXiv preprint arXiv:2304.01097, 2023. 2
[47] Li Yunxiang, Li Zihan, Zhang Kai, Dan Ruilong, and Zhang You. Chatdoctor: A medical chat model fine-tuned on llama model using medical domain knowledge. arXiv preprint arXiv:2303.14070, 2023. 2
[48] Mansoor Zafar, Abdul Wahab Paracha, Muteeb Ashraf, Tila Muhammad, Mark Whitehead, Muhammad Toqeer, and Abdul Paracha. Delayed spontaneous regression of metastatic gastric cancer: A case report of a rare finding. Cureus, 13(12), 2021. 5
[49] Sheng Zhang, Yanbo Xu, Naoto Usuyama, Jaspreet Bagga, Robert Tinn, Sam Preston, Rajesh Rao, Mu Wei, Naveen Valluri, Cliff Wong, et al. Large-scale domain-specific pretraining for biomedical vision-language processing. arXiv preprint arXiv:2303.00915, 2023. 2, 3, 6, 9

你可能感兴趣的:(多模态大模型,论文阅读,笔记)