夏洛特兰兰

LLaVA-Med 论文阅读笔记

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day 论文阅读笔记

Abstract

本文提出了一种经济有效的方法训练一个可以回答生物医学图像开放研究问题的视觉-语言对话助手。其核心思想是从PubMed Central中提取大规模、广覆盖的生物医学数字字母数据集，使用GPT-4对字幕的开放式教学跟随数据进行只知道然后对字幕中的数据进行微调。

论文地址：https://arxiv.org/abs/2306.00890

项目地址：https://aka.ms/llava-med

文章目录

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day 论文阅读笔记

@[toc]

1 Introduction

2 Related Works

3 Biomedical Visual Instruction-Following Data

4 Adapting Multimodal Conversational Models to the Biomedical Domain

5 Experiments

5.1 Biomedical Visual Chatbot

5.2 Performance on Established Benchmarks

6 Conclusions

References

1 Introduction

论文的背景主要如下。

平行图像文本数据的丰富性，可以用于自监督的视觉-语言建模。
GPT-4，LLaVA等通用领域的成功案例。
生物医学领域的挑战和需求
- 由于图像性质和内容不同导致的模型性能不佳（不准确的回应或致幻）
- 对开放式指令的需求

基于上述背景，作者团队提出了LLaVA-Med模型，第一次尝试将多模态指令调整应用于生物医学领域，通过自动生成的生物医学多模态指令遵循数据进行端到端训练。

构建了大规模数据集PMC-15M： 从PubMed Central 中提取出的1500万生物医学图像-文本对。
使用GPT-4生成多样化数据： 使用GPT-4模型基于PMC-15M生成了生物医学领域的指令遵循数据。
引入了新课程学习方法

论文的主要贡献包括：

构建生物医学多模态指令遵循数据集。
提出了LLaVA-Med模型以及一种新颖的课程学习方法。
代码开源

2 Related Works

Biomedical Chatbots

这一部分介绍了当前有的一些生物医学领域的聊天机器人。

language-only biomedical chatbot： 在此之前已经有很多基于大语言模型开发的生物医学领域聊天机器人，例如ChatDoctor、Med-Alpaca、PMC-LLaMA、Clinical Camel、DoctorGLM和Huatuo等。实现思路都是在开源LLM上进行初始化，并在定制的生物医学指令遵循数据集上微调。
Multimodal biomedical chatbot： 论文提到的唯一支持图像输入的生物医学聊天机器人是Visual Med-Alpaca，并且与LLaVA-Med有一定相似之处。不同之处主要体现在模型架构和数据上。
- 模型架构上：Visual Med-Alpaca是一个系统，由多个图像字幕模型连接一个LLM，并使用分类器确定图像的字幕模型是否负责图像；`LLaVA-Med``是一个端到端神经模型，直接输入图像/文字得到文字生成。
- 指令遵循数据：Visual Med-Alpaca是在来自有限生物医学主题领域的54K样本上进行训练的，LLaVA-Med则在更多样化的数据集上进行了训练（15M）。

Biomedical Visual Question Answering

这一部分介绍了构建能够基于生物医学图像问答问题的方法，现有的方法主要分为辨别式方法（discriminative）和生成式（generative）方法。

辨别式方法： 将VQA问题视为分类问题，其中模型从预定义的答案集中进行预测。辨别式方法在性能上表现良好，但处理封闭集预测，需要在推断时进行调整，特别是当提供了定制答案集时。
生成式方法： 为了解决封闭集问题，开发了生成式方法，这些方法将答案预测为自由形式的文本序列。生成式方法更加灵活，因为它们自然地将封闭集问题视为一种特殊情况，其中候选答案以语言指令形式呈现。

生成式方法的优势在于其多功能性，更适用于处理开放问题，与通用生物医学助手回答现场问题的需求一致。

Model Architecture

LLaVA-Med与语言模型的前缀调优类似，使用一个可训练的模块连接冻结的图像编码器和语言模型。在论文*Open-ended medical visual question answering through prefix tuning of language models. arXiv preprint arXiv:2303.05977, 2023*中，使用了一个三层MLP，如下图所示。而LLaVA-Med采用了和LLaVA相同的思路，使用简单的线性投影来作为接口以降低训练成本。

在模型结构上的创新不大，LLaVA-Med的主要贡献在于提出一种新颖的数据生成方法，利用GPT-4自我生成生物医学多模态指令遵循数据，使用来自PubMed Central的广泛可用的生物医学图像文本对。

3 Biomedical Visual Instruction-Following Data

第三部分介绍了生物医学视觉指令跟随数据集的构建，由机器和人类共同参与，包括概念对齐和指令跟随两个部分。分别用于增强跨模态理解能力和遵循不同指令。

3.1 概念对齐数据（Biomedical Concept Alignment Data）
适用于通过训练来让生物医学图像的信息和文本相匹配。具体而言，对于生物医学图像 $\mathbf{X_v}$ 以及字幕 $\mathbf{X_c}$ ，给定一个问题 $\mathbf{X_q}$ （要求机器描述这个图像），使用这个三元组来构成一个数据样例。问题 $\mathbf{X_q}$ 根据 $\mathbf{X_c}$ 的长度是否超过30个单词来决定是简洁还是具体地描述（在PMC-15M中，有25%的字幕是少于30词的）,这些问题的列表在原文的Appendix A。大致和LLaVA的内容相同。

$Human:\mathbf{X_q},\mathbf{X_v}$ \n $Assistant :X_c$ \n

作者从PMC-15M中选出了一组600K 个图像-文本对用于构成这部分数据。

3.2 生物医学指令调整数据（Biomedical Instruction-Tuning Data）

为了使模型能够遵循多样的指令，作者采取了以下措施：

多轮对话的指令遵循数据： 通过提示只使用文本的 GPT-4，作者设计了包含生物医学图像的多轮对话指令。这些指令要求 GPT-4根据图像字幕生成多轮问题和答案，模拟一种语气，就像它能够看到图像一样。
添加上下文信息的提示： 为了提供有关图像的更多上下文，作者创建了一种提示，不仅包括标题，还包括原始 PubMed 论文中提到图像的句子。这有助于提供更多关于图像的信息，以便更好地生成有意义的对话。

手动策划的 few-shot 示例： 在提示中，作者手动策划了 few-shot 示例，以演示如何基于提供的标题和上下文生成高质量的对话。关于few-shot的提示（prompt）如下如所示。
图像和上下文的收集： 为了收集图像标题及其上下文，作者从 PMC-15M 中筛选出仅包含单一情节的图像。从这些图像中，他们采样了来自五种最常见成像模式的60K对图像文本。此外，他们从原始的 PubMed 论文中提取提到图像的句子作为标题的额外上下文，灵感来自于外部知识有助于泛化的观察。

在上述代码中，few-shot 示例的实现涉及对 fewshot_samples 中的每个示例进行迭代，然后将其中的上下文信息和模型响应作为对话的一部分添加到 messages 列表中。具体步骤如下：

首先，fewshot_samples 是一个包含手动策划的 few-shot 示例的列表。这些示例可能包括输入上下文（context）和相应的模型响应（response）。
使用 for sample in fewshot_samples: 遍历 fewshot_samples 中的每个示例。
对于每个示例，使用 sample['context'] 作为用户的输入，将用户的消息添加到 messages 中，{"role":"user", "content":sample['context']}。
接着，使用 sample['response'] 作为模型的输出，将模型的响应添加到 messages 中，{"role":"assistant", "content":sample['response']}。
这样，每个 few-shot 示例都被添加为一个用户与助手的对话交互，其中包含了手动策划的上下文信息和相应的模型生成。

最后，messages 列表中也包含了系统提示和用户的查询消息，形成了一个完整的对话。这个对话可以用于提示 GPT-4 生成医学视觉指令遵循数据。整个对话被设计为一个多轮的交互，旨在引导模型以多样化的方式生成对于生物医学图像的指令遵循对话。

作者根据数据质量的迭代过程生成了三个版本的数据：

(i) 60K-IM： 包含行内提及（IM）作为上下文的数据集，包含60,000个样本。
(ii) 60K： 与60K-IM相似大小的数据集，但在自我指导生成中没有行内提及。
(iii) 10K： 一个较小的数据集，包含10个样本，并且没有行内提及。

数据的统计信息如图2所示。

(a, b)：指令和响应的根动词-名词对： 图中显示了指令和响应的根动词-名词对的统计信息。图中的内圈表示输出响应的根动词，而外圈表示直接的名词。
(c )：图像和问题回答对的领域分布： 图中展示了五个领域上的图像和问题回答对的分布。每个领域都展示了一个图像，这些图像来自特定的文献引用。

4 Adapting Multimodal Conversational Models to the Biomedical Domain

将通用领域的LLaVA模型引入生物医学领域，其方法是使用同样的网络结构并使用生物医学领域的图像-文本数据训练，过程如图3所示。并在视觉会话和问答问题上进行了测评。与数据的划分一样，训练过程也分为两部分：生物医疗概念对齐和生物医疗指令调整。从图示中可以看到训练的过程只使用了不到一天的时间。

在机器学习中，Curriculum learning（课程学习）是一种训练模型的策略，其核心思想是通过逐步调整训练样本的难度，帮助模型逐渐学习复杂的模式和任务。Curriculum learning 的一般思路是从相对简单的例子开始，逐渐过渡到更难的例子。这种渐进式的学习方式可以帮助模型在早期阶段更容易收敛，提高整体学习效果。

4.1 Stage 1: Biomedical Concept Feature Alignment.

在§3.1 中提到，作者从PMC-15M中选出了一组600K 个图像-文本对用于构成特征对齐的数据集。对于每个样本，在给定语言指令和图像输入的情况下，作者要求模型预测原始图像标题。在训练过程中，冻结了视觉编码器和语言模型的权重，只更新投影矩阵。通过这种方法来让模型学习在生物医学领域的概念对齐。

4.2 Stage 2: End-to-End Instruction-Tuning.

这一部分的数据如§3.2 中提到，使用生物医学文本-图像指令遵循数据对模型进行微调，开发生物医学聊天机器人。在训练过程中，只保持视觉编码器冻结，继续更新预训练的投影层和语言模型的权重。

4.3 Fine-tuning to Downstream Datasets

为了适应具体的生物医学任务，需要在下游数据集上进行微调。作者在模型完成两个阶段的训练后在三个生物医学 VQA数据集上进行了微调。具体方法是给定生物医学图像作为上下文，提供多个自然语言问题，让助手以自由文本形式回答闭集和开集的问题，并为每个闭合集问题的提示构建了候选答案列表。

论文这一部分的引用是[27]来自Learn to explain: Multimodal reasoning via thought chains for science question answering.Advances in Neural Information Processing Systems, 2022.
论文中，作者提出了Science Question Answering（SCIENCEQA），这是一个新的基准，包含约21,000个多模态的选择题，涵盖多样的科学主题，并附带了与相应讲座和解释对应的答案注释。

4.4 Discussion

这段文字介绍了LLaVA-Med模型的三个优点或含义：

开发成本低廉： 与通过扩大数据/模型规模以获得最佳性能不同，LLaVA-Med旨在以较低的开发成本提供经济实惠且合理的解决方案。在8个40G A100 GPU上，第一阶段和第二阶段分别花费7小时和8小时。
通用于多个领域： 尽管本文侧重于生物医学领域，但所提出的适应过程具有通用性，可以推广到其他垂直领域，如游戏和教育。这些领域需要建立一个有帮助的助手，需要新颖的概念和领域知识。借用了论文中的don’t stop pre-training的观点，作者考虑了从大规模未标记数据创建领域特定指导数据的可扩展流程，并提倡不停止指令调整以构建定制的大型多模态语言模型（LMM）。

Don’t stop pre-training 源自论文Don’t stop pretraining: Adapt language models to domains and tasks. arXiv preprint arXiv:2004.10964, 2020，论文的主要贡献是：
1、在跨越低资源和高资源情境的四个领域和八个任务中，对领域自适应和任务自适应预训练进行了彻底的分析；
2、对调整后的语言模型在不同领域和任务之间的可迁移性进行了研究；
3、进行了一项研究，强调在人工策划的数据集上进行预训练的重要性，并提出了一种简单的数据选择策略，以自动接近该性能。

低服务成本： 与通用LMM的模型规模可能巨大且服务成本可能过高相比，定制的LMM在低服务成本方面具有独特的优势。
平滑的模型适应： 该网络架构允许从BioMedCLIP [49]初始化视觉编码器，或从Vicuna [43]初始化语言模型，这可能导致更高的性能。然而，从LLaVA初始化的适应过程是平滑的，作为一个聊天机器人，模型的行为从菜鸟过渡到能够提供有帮助的领域特定响应的专业助手。

对上述提到的BioMedCLIP和Vicuna

BioMedCLIP来自论文Large-scale domain-specific pretraining for biomedical vision-language processing. arXiv preprint arXiv:2303.00915, 2023.

Vicuna链接：Vicuna. Vicuna: An open-source chatbot impressing GPT-4 with 90%* chatgpt quality.

5 Experiments

在实验部分，作者团队考察了多模态生物医学指令数据（§3 ）的质量LLaVA-Med模型（§4 ）的表现。对于模型表现，考察了以下两点：

LLaVA-Med作为开放生物医学视觉聊天机器人的表现。
LLaVA-Med与现有的方法在基准数据集合表现上的差异。

在实验过程中，仅使用只支持语言的GPT-4模型。

5.1 Biomedical Visual Chatbot

在生物医学多模态对话方面的性能，作者描述了数据机构建、问题生成、参考预测和回答生成、回答评估，得分计算，以及模型解释等方面。具体如下。

评估数据集构建： 通过随机选择50个未见过的PMC-15M图像和标题配对，生成两种类型的问题：对话和详细描述。
问题生成流程： 对于对话数据，采用与第二阶段相同的自我指导数据生成流程。详细描述问题从一个固定的问题集中随机选择。
参考预测与回答生成： 利用GPT-4进行参考预测，为教师模型设定上限答案。然后从另一个LMM生成相同问题的回答。
回答评估： 利用GPT-4对两个助手（候选LMM和GPT-4）的响应进行评分，包括帮助程度、相关性、准确性和详细程度。并使用1到10的尺度给出总体得分，其中较高的分数表示更好的性能。相对得分通过使用GPT-4参考分数进行标准化计算。
模型解释： 要求GPT-4提供对评估的全面解释，以更好地理解模型的表现。需要注意的是，GPT-4 通过考虑实际图像的地面真实标题和黄金行内提及来生成响应，而不是理解图像。虽然 LMMs 和 GPT-4 之间不是公平的比较，但 GPT-4 是一个一致且可靠的评估工具。

实验结果1：统计数据

尽管只完成了第一阶段的模型作为聊天机器人的表现不足，但是完成两个阶段培训的模型总体上优于通用LLaVA。其他结论包括：

使用更大的指导数据（从 10K 到 60K 样本）训练会导致更高的性能。
在自我指导中考虑行内提及时，生成的 60K-IM 数据略微提高了聊天能力。
对于最佳的 LLaVA-Med，总体性能达到了 GPT-4 的 50.2%。

实验结果2：对话样例

如下图所示的对话样例也可以看出LLaVA-Med模型与行内提及数据对模型性能的改善。相比之下，因为多模态GPT-4未公开，也与仅支持语言的GPT-4的回复进行了比较。

5.2 Performance on Established Benchmarks

数据集描述

表三展示了测试使用的数据集数据详情，具体而言：

VQA-RAD:
- 包含 315 张医学放射影像，涵盖头部、胸部和腹部。
- 共有 3515 个由临床医生生成的问题-答案对。
- 问题分为 11 个类别，涵盖异常、属性、模态、器官系统、颜色、计数、物体/条件存在、大小、平面、位置推理和其他。
- 答案的一半是封闭式（即是/否类型），其余是开放式，包括单词或短语答案。
SLAKE:
- 包含 642 张医学放射影像。
- 包括 7000 多个由经验丰富的医生注释的多样化问题-答案对。
- 问题可能涉及外部医学知识（可通过提供的医学知识图解决），图像附带有丰富的视觉注释，包括语义分割掩码和对象检测边界框。
- 覆盖的人体部位包括大脑、颈部、胸部、腹部和盆腔。
- SLAKE 是双语数据集，包含英语和中文。在与现有方法比较时，仅考虑英语子集。
PathVQA:
- 包含 4998 张病理图像。
- 共有 32,799 个问题-答案对。
- 每个图像有多个问题，涉及位置、形状、颜色、外观等多个方面。
- 问题分为两种类型，包括开放式问题（例如为什么、什么、如何、在哪里等）和封闭式问题。

Evaluation Metrics

评估指标选择： 使用准确率评估封闭式问题，使用召回率评估开放式问题。
开放式问题难度： 与文献中通常将训练集中的唯一答案作为答案候选项不同，作者采用更接近开放集性质的评估方法。
评估方法的挑战： 由于对开放式问题的回应没有提供任何约束，因此这种评估方法可能更为困难，但也更全面。

在项目评估文件LLaVA-Med/llava/eval/eval_metrics/evaluate_metrics.py中有如下几个评估指标：

BLEU Score： 使用n-gram权重计算BLEU分数，考虑了翻译结果和参考答案之间的匹配程度。BLEU是一种用于评估翻译结果的常见指标。
Exact Match（精确匹配）： 计算生成的答案与参考答案的精确匹配程度，即两者是否完全相同。
Similarity Candidate Prediction： 计算生成的答案与参考答案之间的相似性，考虑了候选答案和预测之间的共同词汇。
Calculate Appearance with Normalization： 考虑了生成的答案与参考答案之间的外观，通过归一化进行评估。
F1 Score： 计算精确率（precision）、召回率（recall）和F1分数，用于综合评估生成的答案与参考答案之间的匹配程度。

Comparisons with SoTA

LLaVA-Med与LLaVA和现有代表性方法的比较，结果如图4(a)所示，主要包括以下几个观点：

LLaVA-Med Variants Outperform LLaVA： 所有LLaVA-Med的变体都表现优于LLaVA。在语言模型初始化方面，与LLaVA或Vicuna相比，来自BioMed CLIP的视觉编码器的初始化稍微优于来自一般领域CLIP的初始化。
Fine-Tuning Performance： 在关闭式问题上，LLaVA-Med的微调性能优于VQA-RAD和PathVQA上监督学习的先进方法。这验证了LLaVA-Med在按照指令完成生物医学任务方面的强大能力，特别是当提供清晰的指令时（例如，是或否）。
Open-Set Questions： 在开放式问题上，LLaVA-Med在SLAKE上实现了SoTA，但在其他数据集上的表现有限，特别是与现有方法相比。这可能是因为开放式的生物医学问题可能存在歧义，而且难以限定其期望的答案选项。

Ablation Studies

论文的消融实验总结了在训练管道中考察了不同模型变体的性能以及对训练过程中的指导数据和超参数进行调整的影响，结果如图4(b)所示。主要几点发现如下：

LLaVA-Med相对于LLaVA的优越性：
- LLaVA-Med在各方面均明显优于LLaVA，表明生物医学领域的专门适应是有效的。
- 在零砸迁移的情况下，LLaVA-Med的性能差距比在微调设置中更大，表明LLaVA-Med在野外部署时，相较于LLaVA，更是一个更好的选择。
Stage 1训练的影响：
- 在Stage 1中延长训练时间可以提高零砸迁移的性能，但仅仅进行Stage 1训练是不足够的。
- Stage 1中的单一图像标题指导可能会使模型失去对各种指令的追踪能力。
Stage 2的指导数据的关键性：
- 在Stage 2中的指令追踪数据对性能至关重要，随着指导数据量从10K增加到60K，性能通常有所提高。
- 60K-IM数据在零砸和微调性能方面提供了最佳的平均表现，验证了在数据创建中考虑行内提及作为外部知识的有效性。
下游数据集的微调和语言模型大小的影响：
- 在下游数据集上更长时间地进行微调（至9个时期）有助于性能，特别是在Stage 2的3个时期训练的检查点上。
- 将语言模型大小从7B增加到13B改善了整体零砸性能和微调性能。

训练时间

在§4中提到了训练成本，具体的数据如下。

同时作者发现在零样本的中文问题上模型也有不错的性能，可能原因是来自于LLaMA或者Vicuna的知识，一些示例如下。

6 Conclusions

本文的主要贡献是推出了在生物医药领域适用的大语言视觉模型（large language-and-vision model for the biomedical domain），LLaVA-Med模型。

构建数据集： 使用自指导方法创建高质量的生物医学语言-图像指令遵循数据集，以使用仅语言的GPT-4和外部只是构建知识监管通道（data curation pipeline）。
模型性能：LLaVA-Med在领域知识上展示了强大的优秀聊天能力，并在微调的3个数据集上达到SoTA。

可能存在的缺陷和限制和寻常的大模型一样，主要包括幻觉和缺乏深度推理能力（in-depth reasoning）。

本文的主要贡献是推出了在生物医药领域适用的大语言视觉模型（large language-and-vision model for the biomedical domain），LLaVA-Med模型。

构建数据集： 使用自指导方法创建高质量的生物医学语言-图像指令遵循数据集，以使用仅语言的GPT-4和外部只是构建知识监管通道（data curation pipeline）。
模型性能：LLaVA-Med在领域知识上展示了强大的优秀聊天能力，并在微调的3个数据集上达到SoTA。

可能存在的缺陷和限制和寻常的大模型一样，主要包括幻觉和缺乏深度推理能力（in-depth reasoning）。

References

[1] Clinical Camel. https://wanglab.ml/clinical_camel.html, 2023. 2
[2] Amanda Askell, Yuntao Bai, Anna Chen, Dawn Drain, Deep Ganguli, Tom Henighan, Andy Jones, Nicholas Joseph, Ben Mann, Nova DasSarma, et al. A general language assistant as a laboratory for alignment. arXiv preprint arXiv:2112.00861, 2021. 1
[3] Malek Ayoub, Megan Quamme, Abdul-Rahman K Abdel-Reheem, Poe Lwin, and Megan K Quamme. Covid or not covid? a great mimicker behind the smoke screen. Cureus, 13(11), 2021. 5
[4] Bappy Basak, Alexander Haragan, Michael Shackcloth, and Joyce Thekkudan. Chondromyxoid fibroma of the rib: A rare benign tumor with potential for local recurrence. Cureus, 13(10), 2021. 5 1

[5] Yakoub Bazi, Mohamad Mahmoud Al Rahhal, Laila Bashmal, and Mansour Zuair. Visionlanguage model for visual question answering in medical imagery. Bioengineering, 2023. 3, 9
[6] Anchit Bharat, Nikita Jain, Belaal Sheikh, Hafiz Jeelani, and Maryna Shayuk. Vaping-induced lung injury: An uncharted territory. Cureus, 12, 07 2020. 7
[7] Benedikt Boecking, Naoto Usuyama, Shruthi Bannur, Daniel C Castro, Anton Schwaighofer, Stephanie Hyland, Maria Wetscherek, Tristan Naumann, Aditya Nori, Javier Alvarez-Valle, et al. Making the most of text semantics to improve biomedical vision–language processing. In ECCV. Springer, 2022. 2
[8] Sedigheh Eslami, Christoph Meinel, and Gerard De Melo. Pubmedclip: How much does clip benefit visual question answering in the medical domain? In Findings of the Association for Computational Linguistics: EACL 2023, pages 1151–1163, 2023. 2, 3, 9
[9] Zhe Gan, Linjie Li, Chunyuan Li, Lijuan Wang, Zicheng Liu, Jianfeng Gao, et al. Visionlanguage pre-training: Basics, recent advances, and future trends. Foundations and Trends® in Computer Graphics and Vision, 2022. 1
[10] Yu Gu, Robert Tinn, Hao Cheng, Michael Lucas, Naoto Usuyama, Xiaodong Liu, Tristan Naumann, Jianfeng Gao, and Hoifung Poon. Domain-specific language model pretraining for biomedical natural language processing. ACM Transactions on Computing for Healthcare (HEALTH), 3(1):1–23, 2021. 2
[11] Suchin Gururangan, Ana Marasovi ́ c, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, and Noah A Smith… Don’t stop pretraining: Adapt language models to domains and tasks. arXiv preprint arXiv:2004.10964, 2020. 6
[12] Tianyu Han, Lisa C Adams, Jens-Michalis Papaioannou, Paul Grundmann, Tom Oberhauser, Alexander Löser, Daniel Truhn, and Keno K Bressem. Medalpaca–an open-source collection of medical conversational ai models and training data. arXiv preprint arXiv:2304.08247, 2023. 2
[13] Xuehai He, Yichen Zhang, Luntian Mou, Eric Xing, and Pengtao Xie. Pathvqa: 30000+ questions for medical visual question answering. arXiv preprint arXiv:2003.10286, 2020. 3, 8
[14] Kexin Huang, Jaan Altosaar, and Rajesh Ranganath. Clinicalbert: Modeling clinical notes and predicting hospital readmission. arXiv preprint arXiv:1904.05342, 2019. 2
[15] Alistair EW Johnson, Tom J Pollard, Seth J Berkowitz, Nathaniel R Greenbaum, Matthew P Lungren, Chih-ying Deng, Roger G Mark, and Steven Horng. Mimic-cxr, a de-identified publicly available database of chest radiographs with free-text reports. Scientific data, page 317, 2019. 2
[16] Jason J Lau, Soumya Gayen, Asma Ben Abacha, and Dina Demner-Fushman. A dataset of clinically generated visual questions and answers about radiology images. Scientific data, 2018. 7
[17] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, and Jaewoo Kang. Biobert: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics, 36(4):1234–1240, 2020. 2
[18] Peter Lee, Sebastien Bubeck, and Joseph Petro. Benefits, limits, and risks of gpt-4 as an ai chatbot for medicine. New England Journal of Medicine, 388(13):1233–1239, 2023. 2
[19] Peter Lee, Carey Goldberg, and Isaac Kohane. The ai revolution in medicine: Gpt-4 and beyond. 2023. 2
[20] Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. Retrieval-augmented generation for knowledge-intensive NLP tasks. NeurIPS, 2020. 3 1

[21] Chunyuan Li, Haotian Liu, Liunian Harold Li, Pengchuan Zhang, Jyoti Aneja, Jianwei Yang, Ping Jin, Houdong Hu, Zicheng Liu, Yong Jae Lee, and Jianfeng Gao. ELEVATER: A benchmark and toolkit for evaluating language-augmented visual models. In NeurIPS Track on Datasets and Benchmarks, 2022. 1
[22] Pengfei Li, Gang Liu, Lin Tan, Jinying Liao, and Shenjun Zhong. Self-supervised visionlanguage pretraining for medical visual question answering. arXiv preprint arXiv:2211.13594, 2022. 3, 9
[23] Bo Liu, Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang, and Xiao-Ming Wu. Slake: A semanticallylabeled knowledge-enhanced dataset for medical visual question answering. In International Symposium on Biomedical Imaging (ISBI). IEEE, 2021. 8, 10
[24] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. arXiv preprint arXiv:2304.08485, 2023. 1, 2, 4, 6
[25] Haotian Liu, Kilho Son, Jianwei Yang, Ce Liu, Jianfeng Gao, Yong Jae Lee, and Chunyuan Li. Learning customized visual models with retrieval-augmented knowledge. arXiv preprint arXiv:2301.07094, 2023. 3
[26] Yunyi Liu, Zhanyu Wang, Dong Xu, and Luping Zhou. Q2atransformer: Improving medical vqa via an answer querying decoder. arXiv preprint arXiv:2304.01611, 2023. 3, 9
[27] Pan Lu, Swaroop Mishra, Tanglin Xia, Liang Qiu, Kai-Wei Chang, Song-Chun Zhu, Oyvind Tafjord, Peter Clark, and Ashwin Kalyan. Learn to explain: Multimodal reasoning via thought chains for science question answering. Advances in Neural Information Processing Systems, 2022. 5
[28] Renqian Luo, Liai Sun, Yingce Xia, Tao Qin, Sheng Zhang, Hoifung Poon, and Tie-Yan Liu. Biogpt: generative pre-trained transformer for biomedical text generation and mining. Briefings in Bioinformatics, 2022. 2, 3
[29] Hassan Mirmohammad Sadeghi, Abbas Karimi, Samira Derakhshan, Pouyan Aminishakib, and Kiarash Parchami. Conventional osteosarcoma of the mandible: Report of a rare case. Clinical Case Reports, 9(9):e04843, 2021. 5
[30] Harsha Nori, Nicholas King, Scott Mayer McKinney, Dean Carignan, and Eric Horvitz. Capabilities of gpt-4 on medical challenge problems. arXiv preprint arXiv:2303.13375, 2023. 2
[31] OpenAI. ChatGPT. https://openai.com/blog/chatgpt/, 2022. 2
[32] OpenAI. GPT-4 technical report. https://arxiv.org/abs/2303.08774, 2023. 1, 2
[33] Kyriakos A Papavasiliou, Dimitrios Stamiris, Stavros Stamiris, Antonia Bintoudi, and Eleftherios Tsiridis. Quadratus femoris partial tear secondary to occult ischiofemoral impingement. Journal of Orthopaedic Case Reports, 11(9):7, 2021. 5
[34] Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, and Jianfeng Gao. Instruction tuning with GPT-4. arXiv preprint arXiv:2304.03277, 2023. 2
[35] Roger Kevin Pringle and Lawrence H Wyatt. The appropriate use of radiography in clinical practice: a report of two cases of biomechanical versus malignant spine pain. Chiropractic & Osteopathy, 14(1):1–8, 2006. 4
[36] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021. 9
[37] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 2019. 3 1

[38] George Shih, Carol C Wu, Safwan S Halabi, Marc D Kohli, Luciano M Prevedello, Tessa S Cook, Arjun Sharma, Judith K Amorosa, Veronica Arteaga, Maya Galperin-Aizenberg, et al. Augmenting the national institutes of health chest radiograph dataset with expert annotations of possible pneumonia. Radiology: Artificial Intelligence, 2019. 2
[39] Chang Shu, Baian Chen, Fangyu Liu, Zihao Fu, Ehsan Shareghi, and Nigel Collier. Visual med-alpaca: A parameter-efficient biomedical llm with visual capabilities. 2023. 2
[40] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023. 3
[41] Tom van Sonsbeek, Mohammad Mahdi Derakhshani, Ivona Najdenkoska, Cees GM Snoek, and Marcel Worring. Open-ended medical visual question answering through prefix tuning of language models. arXiv preprint arXiv:2303.05977, 2023. 3, 9
[42] A Venigalla, J Frankle, and M Carbin. BiomedLM: a domain-specific large language model for biomedical text. MosaicML. Accessed: Dec, 23, 2022. 3
[43] Vicuna. Vicuna: An open-source chatbot impressing GPT-4 with 90%* chatgpt quality. https: //vicuna.lmsys.org/, 2023. 3, 6
[44] Haochun Wang, Chi Liu, Nuwa Xi, Zewen Qiang, Sendong Zhao, Bing Qin, and Ting Liu. Huatuo: Tuning llama model with chinese medical knowledge, 2023. 2
[45] Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, and Weidi Xie. Pmc-llama: Further finetuning llama on medical papers. arXiv preprint arXiv:2304.14454, 2023. 2
[46] Honglin Xiong, Sheng Wang, Yitao Zhu, Zihao Zhao, Yuxiao Liu, Qian Wang, and Dinggang Shen. Doctorglm: Fine-tuning your chinese doctor is not a herculean task. arXiv preprint arXiv:2304.01097, 2023. 2
[47] Li Yunxiang, Li Zihan, Zhang Kai, Dan Ruilong, and Zhang You. Chatdoctor: A medical chat model fine-tuned on llama model using medical domain knowledge. arXiv preprint arXiv:2303.14070, 2023. 2
[48] Mansoor Zafar, Abdul Wahab Paracha, Muteeb Ashraf, Tila Muhammad, Mark Whitehead, Muhammad Toqeer, and Abdul Paracha. Delayed spontaneous regression of metastatic gastric cancer: A case report of a rare finding. Cureus, 13(12), 2021. 5
[49] Sheng Zhang, Yanbo Xu, Naoto Usuyama, Jaspreet Bagga, Robert Tinn, Sam Preston, Rajesh Rao, Mu Wei, Naveen Valluri, Cliff Wong, et al. Large-scale domain-specific pretraining for biomedical vision-language processing. arXiv preprint arXiv:2303.00915, 2023. 2, 3, 6, 9

你可能感兴趣的:(多模态大模型,论文阅读,笔记)

机器人动力学模型及其线性化阻抗控制模型
机器人动力学模型机器人动力学模型描述了机器人的运动与所受力和力矩之间的关系。这个模型考虑了机器人的质量、惯性、关节摩擦、重力等多种因素，用于预测和解释机器人在给定输入下的动态行为。动力学模型是设计机器人控制器的基础，它可以帮助我们理解机器人如何响应控制指令，并优化机器人的运动性能。具体来说，机器人动力学模型通常由一组微分方程组成，这些方程描述了机器人各关节的加速度、速度和位置与施加在关节上的力和力
【机器学习笔记 Ⅱ】11 决策树模型巴伦是只猫机器学习机器学习笔记决策树
决策树模型（DecisionTree）详解决策树是一种树形结构的监督学习模型，通过一系列规则对数据进行分类或回归。其核心思想是模仿人类决策过程，通过不断提问（基于特征划分）逐步逼近答案。1.核心概念节点类型：根节点：起始问题（最佳特征划分点）。内部节点：中间决策步骤（特征判断）。叶节点：最终预测结果（类别或数值）。分支：对应特征的取值或条件判断（如“年龄≥30？”）。2.构建决策树的关键步骤(1)
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
【机器学习笔记Ⅰ】13 正则化代价函数
正则化代价函数（RegularizedCostFunction）详解正则化代价函数是机器学习中用于防止模型过拟合的核心技术，通过在原始代价函数中添加惩罚项，约束模型参数的大小，从而提高泛化能力。以下是系统化的解析：1.为什么需要正则化？过拟合问题：当模型过于复杂（如高阶多项式回归、深度神经网络）时，可能完美拟合训练数据但泛化性能差。解决方案：在代价函数中增加对参数的惩罚，抑制不重要的特征权重。2.
【机器学习笔记Ⅰ】6 多类特征巴伦是只猫机器学习机器学习笔记人工智能
多类特征（Multi-classFeatures）详解多类特征是指一个特征（变量）可以取多个离散的类别值，且这些类别之间没有内在的顺序关系。这类特征是机器学习中常见的数据类型，尤其在分类和回归问题中需要特殊处理。1.核心概念(1)什么是多类特征？定义：特征是离散的、有限的类别，且类别之间无大小或顺序关系。示例：颜色：红、绿、蓝（无顺序）。城市：北京、上海、广州（无数学意义的大小关系）。动物类别：猫
机器学习笔记——支持向量机 star_and_sun 机器学习笔记支持向量机
支持向量机参数模型对分布需要假设（这也是与非参数模型的区别之一）间隔最大化，形式转化为凸二次规划问题最大化间隔间隔最大化是意思：对训练集有着充分大的确信度来分类训练数据，最难以分的点也有足够大的信度将其分开间隔最大化的分离超平面的的求解怎么求呢？最终的方法如下1.线性可分的支持向量机的优化目标其实就是找得到分离的的超平面求得参数w和b的值就可以了注意，最大间隔分离超平面是唯一的，间隔叫硬间隔1.1
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
Simscape入门教程微小冷机器人 Matlab simulink simscape 弹簧阻尼 multibody
文章目录物理网络连接到Simulink运行本文是官方教程构造物理模型的基本步骤的学习笔记，旨在建立一个带有控制器的质量-弹簧-阻尼系统。物理网络在命令行中输入sscnew，即可弹出Simscape模板，基于此模板即可组建其相应的物理网络。通过添加新模块、删除无关模块，连接其物理网络如下所有模块均在Simscape->FoundationLibrary->Mechanical中，具体包括需要的模块包
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
【机器学习笔记Ⅰ】7 向量化巴伦是只猫机器学习机器学习笔记人工智能
向量化（Vectorization）详解向量化是将数据或操作转换为向量（或矩阵）形式，并利用并行计算高效处理的技术。它是机器学习和数值计算中的核心优化手段，能显著提升代码运行效率（尤其在Python中避免显式循环）。1.为什么需要向量化？(1)传统循环的缺陷低效：Python的for循环逐元素操作，速度慢。代码冗长：需手动处理每个元素。示例：计算两个数组的点积（非向量化）a=[1,2,3]b=[4
大模型RLHF强化学习笔记（二）：强化学习基础梳理Part2 Gravity! 大模型笔记大模型 LLM 强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.4强化学习分类根据数据来源划分Online：智能体与环境实时交互，如Q-Learning、SARSA、Actor-CriticOffline：智能体使用预先收集的数据集进行学习根据策略更新划分On-Policy：学习和行为策略是相同的，数据是按照当前策略生成的，如SARSAOff-Policy：学习策
【Python】python_jwt 宅男很神经 python 开发语言
1.1传统会话（Session）机制的黄金时代与黄昏在Web应用的黎明时期，身份验证的范式几乎完全由**基于服务器端会话（Session-BasedAuthentication）**的机制所主导。这是一个直观且在单体应用时代极其有效的模型，其工作流程如同一场精密的双人舞：凭证交换与“储物柜钥匙”的签发：用户在登录页面输入用户名和密码。这些凭证被发送到服务器。服务器验证其有效性后，会在自己的“储物间
【Python】simulink与python联合仿真
1.1Simulink的边界：事件驱动、算法复杂性与AI集成瓶颈Simulink的核心优势在于其强大的微分方程求解器和对连续时间系统、离散时间系统的精确描述能力。其基于“信号流”和“框图”的建模范式，使得工程师可以直观地构建与物理现实高度对应的数学模型。然而，这种优势也带来了其天然的局限性：基于时间的驱动核心(Time-BasedCoreEngine):Simulink的“心脏”是一个时间驱动的仿
解锁数据结构“黑科技”：查表法的奇幻冒险大雨淅淅 #数据结构数据结构算法开发语言
目录一、数据结构的“神秘地图”：认识查表法二、揭开查表法的神秘面纱（一）构建查找表（二）在表中进行查找三、实际案例大揭秘（一）案例一：简单数值查找（二）案例二：复杂关系查找四、查表法的优势与局限（一）优势尽显（二）局限剖析五、与其他查找方法的巅峰对决（一）与顺序查找的较量（二）与折半查找的比拼六、查表法的应用领域大赏（一）嵌入式系统中的“得力助手”（二）数据处理中的“高效利器”七、总结与展望一、数
MIAOYUN | 每周AI新鲜事儿（06.27-07.04）人工智能深度学习算法云计算
在科技飞速发展的当下，AI已成为推动各行业变革的核心力量。为助您紧跟AI发展浪潮，把握前沿动态，MIAOYUN特别推出「每周AI新鲜事儿」，涵盖技术突破、新模型发布、研究报告等多个方面，一起来回顾本周发生的AI新鲜事儿吧！AI开源大模型腾讯混元发布首款开源混合推理MoE模型「Hunyuan-A13B」6月27日，腾讯混元宣布开源首个混合推理MoE模型「Hunyuan-A13B」，总参数80B，激活
未来数据库硬件-网络篇数据库云计算架构
本文在绿泡泡“狗哥琐话”首发于2025.2.17<-关注不走丢。最近看到一篇不错的文章，叫做“ModernHardwareforFutureDatabases”，里面从几个方向讲了下现在数据库的硬件发展趋势，今天先来说说网络篇。内容中，一位大佬对（获过图灵奖的大佬）OLTP系统进行了一些基准测试，发现TCP-IP协议栈对于总体CPU使用率是占在47～68%。如果使用的网络带宽增加，这个开销还会提升
高效沟通05-FFC赞美法则古城码农工作记实录高效沟通沟通技巧
效沟通专栏–组织运转的命脉与个人成功的基石目录1.概念1.1底层逻辑1.2优势1.3适用场景1.4技巧2.示例1.概念 FFC是由三个英文单词首字母组成的结构化赞美模型，旨在让赞美真实可信、打动人心，避免空洞敷衍。其核心是通过三个层次构建逻辑闭环：要素含义作用关键要点F（Feeling）感受表达主观情感反应用情绪词传递真诚（如“感动”“佩服”）例：“你的方案让我非常惊喜！”F（Fact）事实提供
产品经理高效工作指南，核心能力全拆解！ AI大模型-大飞产品经理人工智能大数据智能体程序员大模型大模型学习
在互联网行业的激烈竞争中，产品经理作为产品的“操盘手”，其工作流程的科学性与专业性直接决定着产品的成败。想要高效推进产品从0到1、实现从1到N的迭代，必须吃透日常工作的每个环节。今天，我们就用思维导图为你拆解产品经理9大核心工作流程，从需求到迭代全链路解析，助力你成为更专业的PM！一、需求分析与市场调研：产品的“方向盘”需求分析是产品工作的起点，决定着产品是否贴合市场。市场调研：定期研究行业动态（
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
xml笔记 shuangmu9768 java笔记 xml java schema xsd
【1】基础【2】schema示例【3】schema校验【4】xsd位置【1】基础#xmlns命名空间的语法xmlns:namespace-prefix="namespaceURI"#targetNamespace该属性声明了本XMLSchema文档中定义的元素是属于targetNamespace属性指定的命名空间(URI)下的。可以将默认命名空间xmlns和targetNamespace给定不一样
xml文件笔记
今天学习了一下xml下面是总结的一些笔记Xml可以用来配置文件xml特点：Xml可以从HTYML中分离数据可以利用xml文件在不兼容的系统之间交换数据Xml数据以纯文本格式存储Xml与其他软硬件的耦合度更低，数据可以被更多的设备利用，还可以将XML文件当作数据源来处理，就像操作数据库一样Xml的格式在xml文件头部要有声明在XML中字母的大小写是敏感的Xml文件中有且只有一个根元素，所有的其他元素
破局·重构·新生：程序员三大黄金赛道突围指南还债大湿兄重构
当代码成为新时代的钢筋水泥，35岁不再是职业终点站，而是经验升维的战略转折点。在国产替代浪潮、芯片自主攻坚与工业智能化变革的交汇处，程序员的核心价值正在被重新定义。一、三大赛道：技术国产化的历史性机遇1.国产软件替代化：从“卡脖子”到“强心脏”EDA工业软件的破局之战正成为国产替代的先锋战场。2025年，中国EDA市场规模预计达184.9亿元，年均增速14.71%，但国产化率仍不足10%，研发设计
PyTorch 的 torch.nn 模块学习
torch.nn是PyTorch中专门用于构建和训练神经网络的模块。它的整体架构分为几个主要部分，每部分的原理、要点和使用场景如下：1.nn.Module原理和要点：nn.Module是所有神经网络组件的基类。任何神经网络模型都应该继承nn.Module，并实现其forward方法。使用场景：用于定义和管理神经网络模型，包括层、损失函数和自定义的前向传播逻辑。主要API和使用场景：__init__
目前最火的agent方向-A2A快速实战构建（二）： AutoGen模型集成指南：从OpenAI到本地部署的全场景LLM解决方案
引言：打破模型壁垒，构建灵活AI应用在AI应用开发中，大语言模型（LLM）的选择往往决定了系统的能力边界。AutoGen通过标准化的模型客户端协议，实现了对OpenAI、AzureOpenAI、本地模型等多源LLM的统一接入，让开发者能够根据场景需求自由切换模型服务。本文将深入解析AutoGen的模型集成框架，从云端服务到本地部署，助你构建弹性可扩展的AI代理系统。一、模型客户端核心架构：统一接口
【XML笔记】XML入门_XML文档的创建追云的帆 JavaWeb xml 文档
一.XML1.概述：XML是ExtensibleMarkupLanguage可扩展标记语言是SGML(标准通用化标记语言)的一个子集，用于提供数据描述格式，适用于不同应用程序间的数据交换，这种交换不以预先定义的数据结构为前提，增强了可扩展性。一个基本的XML文档由序言和文档元素两部分构成2.序言在XML文档的第一行通常是XML声明，用于说明这是一个XML文档。XML声明的语法格式如下：versio
oracle操作xml笔记 chushiyunen oracle xml 笔记
文章目录第一个例子EXTRACTVALUE()方法oracle这么成熟的数据库，肯定对xml有很好的支持了。第一个例子创建表：CREATETABLExml_table(idNUMBERPRIMARYKEY,xml_dataXMLType);插入数据：INSERTINTOxml_table(id,xml_data)VALUES(1,XMLType('Value'));查询：SELECTEXTRACT
在 Dify 平台中集成上下文工程技术由数入道人工智能数据库大数据人工智能软件工程 dify
1.提升LLM问答准确率的上下文构建与提示策略大语言模型在开放领域问答中常面临幻觉和知识过时等问题。为提高回答准确率，上下文工程的关键是在提示中注入相关背景知识与指导。具体策略包括：检索增强(RAG)：通过从知识库中检索相关内容并将其纳入提示，可以显著提升回答的准确性和可信度。Dify提供了知识检索节点，支持向量数据库存储外部知识，并将检索结果通过上下文变量注入LLM提示中。例如，在知识库问答应用
OpenStack入门体验 ASDyushui openstack
目录一.云计算概述1.什么是云计算2.云计算的服务模型（1）.laaS（2）.PaaS（3）.Saas3.OpenStack概述（1）.OpenStack起源（2）.什么是OpenStack（3）.OpenStack优势二.部署Openstack1.系统描述2.设置在线安装3.系统基本环境设置4.设置KVM源5.设置openstack仓库6.安装部署工具7.一键安装一.云计算概述1.什么是云计算云
XML 笔记 ddfa1234 xml 服务器
换行在XML中，用于定义一个CDATA节（CharacterDataSection）。CDATA节是用于将一段文本标记为不应当被解析器解析的字符数据。这意味着，在CDATA节内部的所有内容，包括特殊字符如,&等，都不会被当作标记来处理，而是作为纯文本数据对待。CDATA节的主要用途：包含大量特殊字符：当你需要在XML文档中包含大量的特殊字符（比如,&），而不想对这些字符进行转义时（例如<,&
Angular6 学习笔记——路由详解男人要霸气 Angular6
angular6.x系列的学习笔记记录,仍在不断完善中,学习地址:https://www.angular.cn/guide/template-syntaxhttp://www.ngfans.net/topic/12/post/2系列目录(1)组件详解之模板语法(2)组件详解之组件通讯(3)内容投影,ViewChild和ContentChild(4)指令(5)路由路由存在的意义一般而言,浏览器具有下
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的