Abstract
本文提出了一种经济有效的方法训练一个可以回答生物医学图像开放研究问题的视觉-语言对话助手。其核心思想是从PubMed Central
中提取大规模、广覆盖的生物医学数字字母数据集,使用GPT-4对字幕的开放式教学跟随数据进行只知道然后对字幕中的数据进行微调。
论文地址:https://arxiv.org/abs/2306.00890
项目地址:https://aka.ms/llava-med
目录
论文的背景主要如下。
基于上述背景,作者团队提出了LLaVA-Med
模型,第一次尝试将多模态指令调整应用于生物医学领域,通过自动生成的生物医学多模态指令遵循数据进行端到端训练。
构建了大规模数据集PMC-15M: 从PubMed Central 中提取出的1500万生物医学图像-文本对。
使用GPT-4生成多样化数据: 使用GPT-4
模型基于PMC-15M
生成了生物医学领域的指令遵循数据。
引入了新课程学习方法
论文的主要贡献包括:
LLaVA-Med
模型以及一种新颖的课程学习方法。Biomedical Chatbots
这一部分介绍了当前有的一些生物医学领域的聊天机器人。
language-only biomedical chatbot: 在此之前已经有很多基于大语言模型开发的生物医学领域聊天机器人,例如ChatDoctor
、Med-Alpaca
、PMC-LLaMA
、Clinical Camel
、DoctorGLM
和Huatuo
等。实现思路都是在开源LLM上进行初始化,并在定制的生物医学指令遵循数据集上微调。
Multimodal biomedical chatbot: 论文提到的唯一支持图像输入的生物医学聊天机器人是Visual Med-Alpaca
,并且与LLaVA-Med
有一定相似之处。不同之处主要体现在模型架构和数据上。
Visual Med-Alpaca
是一个系统,由多个图像字幕模型连接一个LLM,并使用分类器确定图像的字幕模型是否负责图像;`LLaVA-Med``是一个端到端神经模型,直接输入图像/文字得到文字生成。Visual Med-Alpaca
是在来自有限生物医学主题领域的54K样本上进行训练的,LLaVA-Med
则在更多样化的数据集上进行了训练(15M)。Biomedical Visual Question Answering
这一部分介绍了构建能够基于生物医学图像问答问题的方法,现有的方法主要分为辨别式方法(discriminative)和生成式(generative)方法。
生成式方法的优势在于其多功能性,更适用于处理开放问题,与通用生物医学助手回答现场问题的需求一致。
Model Architecture
LLaVA-Med
与语言模型的前缀调优类似,使用一个可训练的模块连接冻结的图像编码器和语言模型。在论文*Open-ended medical visual question answering through prefix tuning of language models. arXiv preprint arXiv:2303.05977, 2023*中,使用了一个三层MLP
,如下图所示。而LLaVA-Med
采用了和LLaVA
相同的思路,使用简单的线性投影来作为接口以降低训练成本。
在模型结构上的创新不大,LLaVA-Med
的主要贡献在于提出一种新颖的数据生成方法,利用GPT-4自我生成生物医学多模态指令遵循数据,使用来自PubMed Central的广泛可用的生物医学图像文本对。
第三部分介绍了生物医学视觉指令跟随数据集的构建,由机器和人类共同参与,包括概念对齐和指令跟随两个部分。分别用于增强跨模态理解能力和遵循不同指令。
3.1 概念对齐数据(Biomedical Concept Alignment Data)
适用于通过训练来让生物医学图像的信息和文本相匹配。具体而言,对于生物医学图像 X v \mathbf{X_v} Xv以及字幕 X c \mathbf{X_c} Xc,给定一个问题 X q \mathbf{X_q} Xq(要求机器描述这个图像),使用这个三元组来构成一个数据样例。问题 X q \mathbf{X_q} Xq根据 X c \mathbf{X_c} Xc 的长度是否超过30个单词来决定是简洁还是具体地描述(在PMC-15M
中,有25%的字幕是少于30词的),这些问题的列表在原文的Appendix A。大致和LLaVA
的内容相同。
H u m a n : X q , X v Human:\mathbf{X_q},\mathbf{X_v} Human:Xq,Xv \n
A s s i s t a n t : X c Assistant :X_c Assistant:Xc \n
作者从PMC-15M
中选出了一组600K 个图像-文本对用于构成这部分数据。
3.2 生物医学指令调整数据(Biomedical Instruction-Tuning Data)
为了使模型能够遵循多样的指令,作者采取了以下措施:
GPT-4
,作者设计了包含生物医学图像的多轮对话指令。这些指令要求 GPT-4
根据图像字幕生成多轮问题和答案,模拟一种语气,就像它能够看到图像一样。PubMed
论文中提到图像的句子。这有助于提供更多关于图像的信息,以便更好地生成有意义的对话。手动策划的 few-shot 示例: 在提示中,作者手动策划了 few-shot 示例,以演示如何基于提供的标题和上下文生成高质量的对话。关于few-shot的提示(prompt)如下如所示。
图像和上下文的收集: 为了收集图像标题及其上下文,作者从 PMC-15M
中筛选出仅包含单一情节的图像。从这些图像中,他们采样了来自五种最常见成像模式的60K对图像文本。此外,他们从原始的 PubMed
论文中提取提到图像的句子作为标题的额外上下文,灵感来自于外部知识有助于泛化的观察。
在上述代码中,few-shot 示例的实现涉及对 fewshot_samples
中的每个示例进行迭代,然后将其中的上下文信息和模型响应作为对话的一部分添加到 messages
列表中。具体步骤如下:
fewshot_samples
是一个包含手动策划的 few-shot 示例的列表。这些示例可能包括输入上下文(context
)和相应的模型响应(response
)。for sample in fewshot_samples:
遍历 fewshot_samples
中的每个示例。sample['context']
作为用户的输入,将用户的消息添加到 messages
中,{"role":"user", "content":sample['context']}
。sample['response']
作为模型的输出,将模型的响应添加到 messages
中,{"role":"assistant", "content":sample['response']}
。最后,messages
列表中也包含了系统提示和用户的查询消息,形成了一个完整的对话。这个对话可以用于提示 GPT-4 生成医学视觉指令遵循数据。整个对话被设计为一个多轮的交互,旨在引导模型以多样化的方式生成对于生物医学图像的指令遵循对话。
作者根据数据质量的迭代过程 生成了三个版本的数据:
数据的统计信息如图2所示。
将通用领域的LLaVA
模型引入生物医学领域,其方法是使用同样的网络结构并使用生物医学领域的图像-文本数据训练,过程如图3所示。并在视觉会话和问答问题上进行了测评。与数据的划分一样,训练过程也分为两部分:生物医疗概念对齐和生物医疗指令调整。从图示中可以看到训练的过程只使用了不到一天的时间。
在机器学习中,Curriculum learning(课程学习)是一种训练模型的策略,其核心思想是通过逐步调整训练样本的难度,帮助模型逐渐学习复杂的模式和任务。Curriculum learning 的一般思路是从相对简单的例子开始,逐渐过渡到更难的例子。这种渐进式的学习方式可以帮助模型在早期阶段更容易收敛,提高整体学习效果。
4.1 Stage 1: Biomedical Concept Feature Alignment.
在§3.1 中提到,作者从PMC-15M
中选出了一组600K 个图像-文本对用于构成特征对齐的数据集。对于每个样本,在给定语言指令和图像输入的情况下,作者要求模型预测原始图像标题。在训练过程中,冻结了视觉编码器和语言模型的权重,只更新投影矩阵。通过这种方法来让模型学习在生物医学领域的概念对齐。
4.2 Stage 2: End-to-End Instruction-Tuning.
这一部分的数据如§3.2 中提到,使用生物医学文本-图像指令遵循数据对模型进行微调,开发生物医学聊天机器人。在训练过程中,只保持视觉编码器冻结 ,继续更新预训练的投影层和语言模型的权重。
4.3 Fine-tuning to Downstream Datasets
为了适应具体的生物医学任务,需要在下游数据集上进行微调。作者在模型完成两个阶段的训练后在三个生物医学 VQA数据集上进行了微调。具体方法是给定生物医学图像作为上下文,提供多个自然语言问题,让助手以自由文本形式回答闭集和开集的问题,并为每个闭合集问题的提示构建了候选答案列表。
论文这一部分的引用是[27]来自Learn to explain: Multimodal reasoning via thought chains for science question answering.Advances in Neural Information Processing Systems, 2022.
论文中,作者提出了Science Question Answering(SCIENCEQA),这是一个新的基准,包含约21,000个多模态的选择题,涵盖多样的科学主题,并附带了与相应讲座和解释对应的答案注释。
4.4 Discussion
这段文字介绍了LLaVA-Med模型的三个优点或含义:
开发成本低廉: 与通过扩大数据/模型规模以获得最佳性能不同,LLaVA-Med旨在以较低的开发成本提供经济实惠且合理的解决方案。在8个40G A100 GPU上,第一阶段和第二阶段分别花费7小时和8小时。
通用于多个领域: 尽管本文侧重于生物医学领域,但所提出的适应过程具有通用性,可以推广到其他垂直领域,如游戏和教育。这些领域需要建立一个有帮助的助手,需要新颖的概念和领域知识。借用了论文中的don’t stop pre-training的观点,作者考虑了从大规模未标记数据创建领域特定指导数据的可扩展流程,并提倡不停止指令调整以构建定制的大型多模态语言模型(LMM)。
Don’t stop pre-training 源自论文Don’t stop pretraining: Adapt language models to domains and tasks. arXiv preprint arXiv:2004.10964, 2020,论文的主要贡献是:
1、在跨越低资源和高资源情境的四个领域和八个任务中,对领域自适应和任务自适应预训练进行了彻底的分析;
2、对调整后的语言模型在不同领域和任务之间的可迁移性进行了研究;
3、进行了一项研究,强调在人工策划的数据集上进行预训练的重要性,并提出了一种简单的数据选择策略,以自动接近该性能。
低服务成本: 与通用LMM的模型规模可能巨大且服务成本可能过高相比,定制的LMM在低服务成本方面具有独特的优势。
平滑的模型适应: 该网络架构允许从BioMedCLIP
[49]初始化视觉编码器,或从Vicuna
[43]初始化语言模型,这可能导致更高的性能。然而,从LLaVA
初始化的适应过程是平滑的,作为一个聊天机器人,模型的行为从菜鸟过渡到能够提供有帮助的领域特定响应的专业助手。
对上述提到的BioMedCLIP
和Vicuna
BioMedCLIP
来自论文Large-scale domain-specific pretraining for biomedical vision-language processing. arXiv preprint arXiv:2303.00915, 2023.
Vicuna
链接:Vicuna. Vicuna: An open-source chatbot impressing GPT-4 with 90%* chatgpt quality.
在实验部分,作者团队考察了多模态生物医学指令数据(§3 )的质量LLaVA-Med
模型(§4 )的表现。对于模型表现,考察了以下两点:
LLaVA-Med
作为开放生物医学视觉聊天机器人的表现。LLaVA-Med
与现有的方法在基准数据集合表现上的差异。在实验过程中,仅使用只支持语言的GPT-4
模型。
在生物医学多模态对话方面的性能,作者描述了数据机构建、问题生成、参考预测和回答生成、回答评估,得分计算,以及模型解释等方面。具体如下。
实验结果1:统计数据
尽管只完成了第一阶段的模型作为聊天机器人的表现不足,但是完成两个阶段培训的模型总体上优于通用LLaVA
。其他结论包括:
60K-IM
数据略微提高了聊天能力。实验结果2:对话样例
如下图所示的对话样例也可以看出LLaVA-Med
模型与行内提及数据对模型性能的改善。相比之下,因为多模态GPT-4
未公开,也与仅支持语言的GPT-4
的回复进行了比较。
数据集描述
表三展示了测试使用的数据集数据详情,具体而言:
Evaluation Metrics
在项目评估文件LLaVA-Med/llava/eval/eval_metrics/evaluate_metrics.py
中有如下几个评估指标:
Comparisons with SoTA
LLaVA-Med
与LLaVA
和现有代表性方法的比较,结果如图4(a)所示,主要包括以下几个观点:
LLaVA-Med
的变体都表现优于LLaVA
。在语言模型初始化方面,与LLaVA
或Vicuna
相比,来自BioMed CLIP
的视觉编码器的初始化稍微优于来自一般领域CLIP
的初始化。LLaVA-Med
的微调性能优于VQA-RAD
和PathVQA
上监督学习的先进方法。这验证了LLaVA-Med
在按照指令完成生物医学任务方面的强大能力,特别是当提供清晰的指令时(例如,是或否)。LLaVA-Med
在SLAKE
上实现了SoTA,但在其他数据集上的表现有限,特别是与现有方法相比。这可能是因为开放式的生物医学问题可能存在歧义,而且难以限定其期望的答案选项。Ablation Studies
论文的消融实验总结了在训练管道中考察了不同模型变体的性能以及对训练过程中的指导数据和超参数进行调整的影响,结果如图4(b)所示。主要几点发现如下:
训练时间
在§4中提到了训练成本,具体的数据如下。
同时作者发现在零样本的中文问题上模型也有不错的性能,可能原因是来自于LLaMA
或者Vicuna
的知识,一些示例如下。
本文的主要贡献是推出了在生物医药领域适用的大语言视觉模型(large language-and-vision model for the biomedical domain),LLaVA-Med
模型。
构建数据集: 使用自指导方法创建高质量的生物医学语言-图像指令遵循数据集,以使用仅语言的GPT-4和外部只是构建知识监管通道(data curation pipeline)。
模型性能:LLaVA-Med
在领域知识上展示了强大的优秀聊天能力,并在微调的3个数据集上达到SoTA。
可能存在的缺陷和限制和寻常的大模型一样,主要包括幻觉和缺乏深度推理能力(in-depth reasoning)。
本文的主要贡献是推出了在生物医药领域适用的大语言视觉模型(large language-and-vision model for the biomedical domain),LLaVA-Med
模型。
构建数据集: 使用自指导方法创建高质量的生物医学语言-图像指令遵循数据集,以使用仅语言的GPT-4和外部只是构建知识监管通道(data curation pipeline)。
模型性能:LLaVA-Med
在领域知识上展示了强大的优秀聊天能力,并在微调的3个数据集上达到SoTA。
可能存在的缺陷和限制和寻常的大模型一样,主要包括幻觉和缺乏深度推理能力(in-depth reasoning)。
[1] Clinical Camel. https://wanglab.ml/clinical_camel.html, 2023. 2
[2] Amanda Askell, Yuntao Bai, Anna Chen, Dawn Drain, Deep Ganguli, Tom Henighan, Andy Jones, Nicholas Joseph, Ben Mann, Nova DasSarma, et al. A general language assistant as a laboratory for alignment. arXiv preprint arXiv:2112.00861, 2021. 1
[3] Malek Ayoub, Megan Quamme, Abdul-Rahman K Abdel-Reheem, Poe Lwin, and Megan K Quamme. Covid or not covid? a great mimicker behind the smoke screen. Cureus, 13(11), 2021. 5
[4] Bappy Basak, Alexander Haragan, Michael Shackcloth, and Joyce Thekkudan. Chondromyxoid fibroma of the rib: A rare benign tumor with potential for local recurrence. Cureus, 13(10), 2021. 5 1
[5] Yakoub Bazi, Mohamad Mahmoud Al Rahhal, Laila Bashmal, and Mansour Zuair. Visionlanguage model for visual question answering in medical imagery. Bioengineering, 2023. 3, 9
[6] Anchit Bharat, Nikita Jain, Belaal Sheikh, Hafiz Jeelani, and Maryna Shayuk. Vaping-induced lung injury: An uncharted territory. Cureus, 12, 07 2020. 7
[7] Benedikt Boecking, Naoto Usuyama, Shruthi Bannur, Daniel C Castro, Anton Schwaighofer, Stephanie Hyland, Maria Wetscherek, Tristan Naumann, Aditya Nori, Javier Alvarez-Valle, et al. Making the most of text semantics to improve biomedical vision–language processing. In ECCV. Springer, 2022. 2
[8] Sedigheh Eslami, Christoph Meinel, and Gerard De Melo. Pubmedclip: How much does clip benefit visual question answering in the medical domain? In Findings of the Association for Computational Linguistics: EACL 2023, pages 1151–1163, 2023. 2, 3, 9
[9] Zhe Gan, Linjie Li, Chunyuan Li, Lijuan Wang, Zicheng Liu, Jianfeng Gao, et al. Visionlanguage pre-training: Basics, recent advances, and future trends. Foundations and Trends® in Computer Graphics and Vision, 2022. 1
[10] Yu Gu, Robert Tinn, Hao Cheng, Michael Lucas, Naoto Usuyama, Xiaodong Liu, Tristan Naumann, Jianfeng Gao, and Hoifung Poon. Domain-specific language model pretraining for biomedical natural language processing. ACM Transactions on Computing for Healthcare (HEALTH), 3(1):1–23, 2021. 2
[11] Suchin Gururangan, Ana Marasovi ́ c, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, and Noah A Smith… Don’t stop pretraining: Adapt language models to domains and tasks. arXiv preprint arXiv:2004.10964, 2020. 6
[12] Tianyu Han, Lisa C Adams, Jens-Michalis Papaioannou, Paul Grundmann, Tom Oberhauser, Alexander Löser, Daniel Truhn, and Keno K Bressem. Medalpaca–an open-source collection of medical conversational ai models and training data. arXiv preprint arXiv:2304.08247, 2023. 2
[13] Xuehai He, Yichen Zhang, Luntian Mou, Eric Xing, and Pengtao Xie. Pathvqa: 30000+ questions for medical visual question answering. arXiv preprint arXiv:2003.10286, 2020. 3, 8
[14] Kexin Huang, Jaan Altosaar, and Rajesh Ranganath. Clinicalbert: Modeling clinical notes and predicting hospital readmission. arXiv preprint arXiv:1904.05342, 2019. 2
[15] Alistair EW Johnson, Tom J Pollard, Seth J Berkowitz, Nathaniel R Greenbaum, Matthew P Lungren, Chih-ying Deng, Roger G Mark, and Steven Horng. Mimic-cxr, a de-identified publicly available database of chest radiographs with free-text reports. Scientific data, page 317, 2019. 2
[16] Jason J Lau, Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman. A dataset of clinically generated visual questions and answers about radiology images. Scientific data, 2018. 7
[17] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, and Jaewoo Kang. Biobert: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics, 36(4):1234–1240, 2020. 2
[18] Peter Lee, Sebastien Bubeck, and Joseph Petro. Benefits, limits, and risks of gpt-4 as an ai chatbot for medicine. New England Journal of Medicine, 388(13):1233–1239, 2023. 2
[19] Peter Lee, Carey Goldberg, and Isaac Kohane. The ai revolution in medicine: Gpt-4 and beyond. 2023. 2
[20] Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. Retrieval-augmented generation for knowledge-intensive NLP tasks. NeurIPS, 2020. 3 1
[21] Chunyuan Li, Haotian Liu, Liunian Harold Li, Pengchuan Zhang, Jyoti Aneja, Jianwei Yang, Ping Jin, Houdong Hu, Zicheng Liu, Yong Jae Lee, and Jianfeng Gao. ELEVATER: A benchmark and toolkit for evaluating language-augmented visual models. In NeurIPS Track on Datasets and Benchmarks, 2022. 1
[22] Pengfei Li, Gang Liu, Lin Tan, Jinying Liao, and Shenjun Zhong. Self-supervised visionlanguage pretraining for medical visual question answering. arXiv preprint arXiv:2211.13594, 2022. 3, 9
[23] Bo Liu, Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang, and Xiao-Ming Wu. Slake: A semanticallylabeled knowledge-enhanced dataset for medical visual question answering. In International Symposium on Biomedical Imaging (ISBI). IEEE, 2021. 8, 10
[24] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. arXiv preprint arXiv:2304.08485, 2023. 1, 2, 4, 6
[25] Haotian Liu, Kilho Son, Jianwei Yang, Ce Liu, Jianfeng Gao, Yong Jae Lee, and Chunyuan Li. Learning customized visual models with retrieval-augmented knowledge. arXiv preprint arXiv:2301.07094, 2023. 3
[26] Yunyi Liu, Zhanyu Wang, Dong Xu, and Luping Zhou. Q2atransformer: Improving medical vqa via an answer querying decoder. arXiv preprint arXiv:2304.01611, 2023. 3, 9
[27] Pan Lu, Swaroop Mishra, Tanglin Xia, Liang Qiu, Kai-Wei Chang, Song-Chun Zhu, Oyvind Tafjord, Peter Clark, and Ashwin Kalyan. Learn to explain: Multimodal reasoning via thought chains for science question answering. Advances in Neural Information Processing Systems, 2022. 5
[28] Renqian Luo, Liai Sun, Yingce Xia, Tao Qin, Sheng Zhang, Hoifung Poon, and Tie-Yan Liu. Biogpt: generative pre-trained transformer for biomedical text generation and mining. Briefings in Bioinformatics, 2022. 2, 3
[29] Hassan Mirmohammad Sadeghi, Abbas Karimi, Samira Derakhshan, Pouyan Aminishakib, and Kiarash Parchami. Conventional osteosarcoma of the mandible: Report of a rare case. Clinical Case Reports, 9(9):e04843, 2021. 5
[30] Harsha Nori, Nicholas King, Scott Mayer McKinney, Dean Carignan, and Eric Horvitz. Capabilities of gpt-4 on medical challenge problems. arXiv preprint arXiv:2303.13375, 2023. 2
[31] OpenAI. ChatGPT. https://openai.com/blog/chatgpt/, 2022. 2
[32] OpenAI. GPT-4 technical report. https://arxiv.org/abs/2303.08774, 2023. 1, 2
[33] Kyriakos A Papavasiliou, Dimitrios Stamiris, Stavros Stamiris, Antonia Bintoudi, and Eleftherios Tsiridis. Quadratus femoris partial tear secondary to occult ischiofemoral impingement. Journal of Orthopaedic Case Reports, 11(9):7, 2021. 5
[34] Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, and Jianfeng Gao. Instruction tuning with GPT-4. arXiv preprint arXiv:2304.03277, 2023. 2
[35] Roger Kevin Pringle and Lawrence H Wyatt. The appropriate use of radiography in clinical practice: a report of two cases of biomechanical versus malignant spine pain. Chiropractic & Osteopathy, 14(1):1–8, 2006. 4
[36] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021. 9
[37] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 2019. 3 1
[38] George Shih, Carol C Wu, Safwan S Halabi, Marc D Kohli, Luciano M Prevedello, Tessa S Cook, Arjun Sharma, Judith K Amorosa, Veronica Arteaga, Maya Galperin-Aizenberg, et al. Augmenting the national institutes of health chest radiograph dataset with expert annotations of possible pneumonia. Radiology: Artificial Intelligence, 2019. 2
[39] Chang Shu, Baian Chen, Fangyu Liu, Zihao Fu, Ehsan Shareghi, and Nigel Collier. Visual med-alpaca: A parameter-efficient biomedical llm with visual capabilities. 2023. 2
[40] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023. 3
[41] Tom van Sonsbeek, Mohammad Mahdi Derakhshani, Ivona Najdenkoska, Cees GM Snoek, and Marcel Worring. Open-ended medical visual question answering through prefix tuning of language models. arXiv preprint arXiv:2303.05977, 2023. 3, 9
[42] A Venigalla, J Frankle, and M Carbin. BiomedLM: a domain-specific large language model for biomedical text. MosaicML. Accessed: Dec, 23, 2022. 3
[43] Vicuna. Vicuna: An open-source chatbot impressing GPT-4 with 90%* chatgpt quality. https: //vicuna.lmsys.org/, 2023. 3, 6
[44] Haochun Wang, Chi Liu, Nuwa Xi, Zewen Qiang, Sendong Zhao, Bing Qin, and Ting Liu. Huatuo: Tuning llama model with chinese medical knowledge, 2023. 2
[45] Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, and Weidi Xie. Pmc-llama: Further finetuning llama on medical papers. arXiv preprint arXiv:2304.14454, 2023. 2
[46] Honglin Xiong, Sheng Wang, Yitao Zhu, Zihao Zhao, Yuxiao Liu, Qian Wang, and Dinggang Shen. Doctorglm: Fine-tuning your chinese doctor is not a herculean task. arXiv preprint arXiv:2304.01097, 2023. 2
[47] Li Yunxiang, Li Zihan, Zhang Kai, Dan Ruilong, and Zhang You. Chatdoctor: A medical chat model fine-tuned on llama model using medical domain knowledge. arXiv preprint arXiv:2303.14070, 2023. 2
[48] Mansoor Zafar, Abdul Wahab Paracha, Muteeb Ashraf, Tila Muhammad, Mark Whitehead, Muhammad Toqeer, and Abdul Paracha. Delayed spontaneous regression of metastatic gastric cancer: A case report of a rare finding. Cureus, 13(12), 2021. 5
[49] Sheng Zhang, Yanbo Xu, Naoto Usuyama, Jaspreet Bagga, Robert Tinn, Sam Preston, Rajesh Rao, Mu Wei, Naveen Valluri, Cliff Wong, et al. Large-scale domain-specific pretraining for biomedical vision-language processing. arXiv preprint arXiv:2303.00915, 2023. 2, 3, 6, 9