samoyan

多语言多模态（融合图像和文本）大模型-mPLUG-Owl论文解读

近期复现了mPLUG-Owl，效果提升了好几个点，特来精读一番：感谢大佬们的工作：

论文名称：mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality

论文地址：https://arxiv.org/pdf/2304.14178.pdf

github地址：https://github.com/X-PLUG/mPLUG-Owl

1 introduction

大型语言模型（LLMs），如GPT-3 [Brown等，2020]、BLOOM [Scao等，2022]、LLaMA [Touvron等，2023]，已经经历了快速发展，使得通用人工智能成为可能，展示了在各种语言应用中令人印象深刻的零-shot能力。然而，除了GPT-4 [OpenAI，2023]之外，当前的通用LLMs不能支持不同的输入模态并发展出令人印象深刻的多模态能力。虽然GPT-4 [OpenAI，2023]展示了出色的多模态能力，但其卓越能力背后的方法仍然是一个谜。最近，研究人员一直在扩展LLMs以理解两种不同范式的视觉输入：系统协作和端到端训练模型。然而，系统协作方法，包括Visual ChatGPT [Wu等，2023]、MM-REACT [Yang等，2023]和HuggingGPT [Shen等，2023]，旨在促进各种视觉模型或工具的协调，以用文本描述表达视觉信息。然而，由于缺乏与不同模态的对齐，这些方法可能无法理解特定的多模态指令。此外，这些方法可能会遇到与推理效率和成本相关的挑战。端到端模型，如BLIP-2 [Li等，2023]、LLaVA [Liu等，2023]和MiniGPT-4 [Zhu等，2023a]旨在使用统一模型支持不同的模态。然而，这些模型有一些限制，因为它们采用了冻结的视觉模型，这可能会导致由于参数数量有限而对齐不足。此外，由于缺少单模态和多模态指令，它们无法解锁各种能力。

本文介绍了mPLUG-Owl，它是一种创新的模块化训练范式，用于支持同时支持多种模态的大型多模态语言模型，从模块化的概念中汲取灵感[Xu等，2023b，Li等，2022，Xu等，2021，Ye等，2022]。我们的方法利用预训练的LLM、视觉知识模块和连接的视觉抽象模块的力量，实现图像和文本之间的有效对齐，并利用两阶段训练方案来刺激令人印象深刻的单模态和多模态能力。我们的方法甚至通过模态协作增强了LLM的强大生成能力。在第一步中，我们通过训练视觉知识模块和抽象模块与冻结的LLM模块一起，对齐图像和文本以获取全面的视觉知识。随后，我们使用仅语言和多模态指令对mPLUG-Owl进行微调，以解锁一系列单模态和多模态能力。我们冻结视觉知识模块，并在LLM和视觉抽象模块上共同训练低秩适应（LoRA）[Hu等，2022]。这种方法允许有效地整合文本和视觉信息，促进多功能和强大的认知能力的发展。

我们在一个精心构建的视觉相关指令评估集OwlEval上进行的实验表明，mPLUG-Owl优于现有模型，如MiniGPT-4[Zhu等，2023a]和LLaVA[Liu等，2023]。我们分别验证了mPLUG-Owl在指令理解、视觉理解、知识转移和多轮对话方面的显着能力。丰富的消融研究表明了我们训练范式的有效性。此外，我们发现了一些意外的新能力，如多图像相关性、多语言对话和场景文本理解。

我们的主要贡献可以概括如下：

• 我们提出了mPLUG-Owl，一种通过模块化进行大型语言模型训练的新范式。

• 我们精心构建了一个指令评估集OwlEval，以评估不同模型在视觉相关任务背景下的能力。

• 实验结果表明，mPLUG-Owl在多模态指令理解和多轮对话方面表现出色，超过了现有模型的性能。

2 related word

2.1 Large Language Models

近年来，大型语言模型（LLMs）因其在各种自然语言处理（NLP）任务中出色的表现而受到越来越多的关注。最初，使用不同的预训练目标开发了变压器模型，例如BERT [Devlin等，2019]，GPT [Radford和Narasimhan，2018]和T5 [Raffel等，2020]。然而，GPT-3 [Brown等，2020]的出现，它扩大了模型参数和数据规模的数量，展示了显著的零-shot泛化能力，使它们能够在以前未见过的任务上表现出色。因此，出现了许多LLMs，例如OPT [Zhang等，2022]，BLOOM [Scao等，2022]，PaLM [Chowdhery等，2022]和LLaMA [Touvron等，2023]，引领了LLMs的成功。此外，Ouyang等人 [Ouyang等，2022]通过将人类指令和反馈与GPT-3对齐，提出了InstructGPT。此外，它已经应用于Chat-GPT [OpenAI，2022]，通过回答各种不同和复杂的查询和指令，促进与人类的对话交互。

2.2 Multi-Modal Large Language Models

尽管LLMs在自然语言处理方面的应用取得了成功，但它们仍然难以感知其他形式的模态，例如视觉和音频。近年来，研究人员一直在将语言模型扩展到两种不同的范式中以理解视觉输入：系统化协作和端到端训练模型。系统化协作方法，例如Visual ChatGPT [Wu等人，2023]，MM-REACT [Yang等人，2023]和HuggingGPT [Shen等人，2023]，利用各种视觉专家或工具以文本描述的形式表达视觉信息。随后，大型语言模型（例如ChatGPT）可以充当代理，并被提示选择适当的专家和工具以进行视觉理解。最后，LLMs将总结这些专家的输出以回答用户查询。另一方面，一些方法[Liet al。，2023，Alayrac等人，2022，Liu等人，2023]利用预训练的大型语言模型构建多模式统一模型。例如，Flamingo [Alayrac等人，2022]冻结了预训练的视觉编码器和大型语言模型，并使用门控交叉注意力将视觉和语言模态融合，展示了令人印象深刻的少样本能力。此外，BLIP-2 [Liet al。，2023]设计了Q-Former，以Flan-T5 [Chunget al。，2022]和OPT [Zhanget al。，2022]为基础，将来自冻结视觉编码器和大型语言模型的视觉特征进行对齐。此外，PaLM-E [Driess等人，2023]直接使用来自传感器模态的特征输入PaLM [Chowdhery等人，2022]，后者具有5200亿个参数，有助于实现在现实世界中的强大性能。此外，一些建立在开源基础模型LLaMA [Touvron等人，2023]之上的强大的指令调整语言模型，例如Alpaca [Taoriet al。，2023]和Vicuna [Vicuna，2023]，展示了与ChatGPT [OpenAI，2022]和GPT-4 [OpenAI，2023]相当的性能。MiniGPT-4 [Zhuet al。，2023a]和LLaVA [Liu等人，2023]将这些微调模型与从冻结的视觉骨干提取的视觉特征进行对齐。相比之下，mPLUG-Owl不仅在知识获取和与现实世界的接地方面对视觉和语言基础模型（例如CLIP和LLaMA）进行了表示对齐，而且还能理解语言和多模式指令，展示了强大的零样本泛化和多轮对话能力。

3 mPLUG-Owl

3.1 Architecture Overview

如图1所示，存在主要三种类型的端到端多模态LLM：1）在预训练和指令调整期间利用有限参数和冻结的LLM和视觉模型的模型，例如MiniGPT4；2）结合可训练的LLM和冻结的视觉模型的模型，例如Kosmos-1；3）在指令调整期间涉及可训练的LLM和冻结的视觉模型，如LLaVA所示。然而，这些模型存在一定的限制，因为它们依赖于冻结的视觉模型，这可能会导致由于参数数量有限而导致不充分的对齐。此外，它们无法有效地刺激多样化的能力，因为它们缺乏单模态和多模态的指令。

为此，我们提出了mPLUG-Owl，一种多模态语言模型，能够感知各种模态，同时考虑视觉上下文和信息，并生成相应的输出。具体而言，如图2所示，mPLUG-Owl由视觉基础模型fV、语言基础模型fL和视觉抽象模块fK组成。我们首先从预训练的视觉基础模型fV中获取密集的图像表示。然而，这样的密集特征会破碎细粒度的图像信息，并由于长度较长的序列而带来大量计算，当输入到fL中时。为了缓解这个问题，我们采用视觉抽象模块fK来总结几个可学习的标记内的视觉信息，从而获得更高语义的视觉表示，并减少计算，如图2所示。将视觉表示与文本查询相结合，并输入到语言模型中生成响应。

3.2 Training Scheme

多模态预训练大规模语言模型，如GPT-3 [Brown等人，2020]和LLaMA [Touvron等人，2023]，是在从互联网收集的广泛和多样化的数据上训练的，为它们提供了对世界的全面理解。这个庞大的知识库赋予了这些模型在各种任务上的卓越能力。然而，在这些模型中利用视觉信息仍未被充分探索。以往的方法[Zhu等人，2023a，Liu等人，2023]采用了有限数量的额外参数来学习视觉数据和语言模型之间的对齐，限制了它们理解复杂视觉信息的能力。为了增强大规模语言模型感知视觉信息的能力，并整合它们的内部能力，我们提出了一种新的训练范式，其中包括一个可训练的视觉骨干fV和一个额外的视觉抽象器fK，同时保持预训练的语言模型fL处于冻结状态。这种方法使模型能够有效地捕捉低级和更高语义的视觉信息，并将其与预训练的语言模型对齐，而不会影响其性能。

在完成前一阶段后，模型获得了保留大量知识并对人类查询提供合理答案的能力。然而，它仍然存在生成连贯语言响应的挑战。正如GPT-3 [Brown等人，2020]所提出的，通过指令调整来完善模型对用户意图的准确判断是必要的。以往的多模态学习尝试[Li等人，2022，Xu等人，2023b]已经证明，从单模态和多模态源进行联合学习可以通过不同模态之间的协作带来显著的改进。基于这一认识，我们提出了一种新颖的视觉-语言联合指令调整策略，以促进mPLUG-Owl与人类指令和意图之间更好的对齐。具体而言，鉴于模型可以通过视觉知识学习理解图像中描绘的视觉概念和知识，我们冻结整个模型，并采用低秩适应（即LoRA [Hu等人，2022]）来通过训练多个低秩矩阵以有效对齐人类指令来调整fL。对于每个数据记录，我们将它们统一在Vicuna [Vicuna，2023]的一段对话片段中，并在响应上计算损失。在训练过程中，我们积累了纯文本指令数据和多模态指令数据的梯度，用于多个批次的更新参数。因此，通过同时训练语言和多模态指令，mPLUG-Owl可以更好地理解各种指令，并以更自然和可靠的输出进行响应。此外，我们的方法可以轻松处理各种文本和多模态指令，而无需像MiniGPT-4 [Zhu等人，2023a]和LLaVA [Liu等人，2023]方法所需的重新对齐视觉和语言模型。

模型使用语言建模任务进行训练，这涉及学习基于前文生成后续标记。训练过程的主要目标是最大化标记的对数似然。需要注意的是，只有离散标记，例如文本标记，在计算训练损失时才会考虑。最重要的是，在联合指令调整阶段由训练任务导致的多样化能力的出现，增强了mPLUG-Owl在下游应用中的性能。

4 Experiment

4.1 Experimental Setup

模型设置。我们选择ViT-L/14 [Dosovitskiy et al., 2021]作为视觉基础模型fV，它具有24层，隐藏维度设置为1024，补丁大小设置为14。为了更快地收敛，ViT是从通过对比学习预训练的CLIP ViT-L/14模型初始化的。与LLaVA [Liu et al., 2023]和MiniGPT-4 [Zhu et al., 2023a]不同，为了展示有效性和泛化能力，我们使用原始的LLaMA-7B [Touvron et al., 2023]，而不是其指令调整变体，如Alpaca [Taori et al., 2023]和Vicuna [Vicuna, 2023]。mPLUG-Owl的总参数数量约为72亿。有关超参数的更多详细信息可以在附录中找到。

数据和训练细节。对于第一阶段，我们利用来自几个数据集的图像-字幕对，包括LAION-400M [Schuhmann et al., 2021]，COYO-700M [Byeon et al., 2022]，概念字幕[Sharma et al., 2018]和MSCOCO [Chen et al., 2015]。我们使用批量大小为210万个标记，并训练mPLUG-Owl进行50k步，相当于约1040亿个标记。我们采用AdamW优化器，β =（0.9；0.98），并将学习率和权重衰减分别设置为0.0001和0.1。我们使用2k个热身步骤进行训练，然后使用余弦计划表衰减学习率。输入图像随机调整大小为224×224。此外，我们使用SentencePiece [Kudo和Richardson，2018]分词器对文本输入进行分词。对于第二阶段，我们从三个不同的来源收集纯文本指令数据：来自Alpaca [Taori et al., 2023]的102k数据，来自Vicuna [Vicuna, 2023]的90k数据以及来自Baize [Xu et al.，2023a]的50k数据。此外，我们还利用LLaVA数据集[Liu et al.，2023]中的150k个多模态指令数据。我们使用批量大小256对mPLUG-Owl进行2k步的训练，并将学习率设置为0.00002。

我们将mPLUG-Owl与端到端模型和系统化协作方法进行比较，包括以下几个基准模型：

• OpenFlamingo [Zhu等人，2023b]是Flamingo [Alayrac等人，2022]模型的开源版本。我们使用OpenFlamingo-9B3的发布代码进行零样本生成。

• BLIP-2 [Li等人，2023]通过使用高效的预训练策略，从现成的冻结预训练图像模型和大型语言模型中进行引导式学习预训练。我们使用BLIP-2 ViT-G FlanT5XXL4的发布代码进行零样本生成。

• MiniGPT-4 [Zhu等人，2023a]使用单个投影层将来自预训练视觉编码器的视觉信息与LLM对齐。具体来说，他们使用与BLIP-2相同的视觉编码器，即ViT，配合他们预训练的Q-Former和Vicuna作为LLM。我们使用发布的演示5进行图像指令生成。

• LLaVA [Liu等人，2023]应用单个投影层将预训练的CLIP视觉编码器ViT-L/14的图像特征转换为Vicuna的语言嵌入空间。我们使用他们发布的演示6进行图像指令生成。

• MM-REACT [Yang等人，2023]将ChatGPT/GPT-4与各种专业视觉专家集成，以实现多模态推理和行动。我们使用他们发布的演示7获取图像指令生成的响应。

我们使用BLEU-4、METEOR和CIDEr这些标准指标，在COCO-Stuff数据集上比较mPLUG-Owl与这些基准模型的性能。

4.2 Quantitative analysis

为了全面评估各种模型，我们构建了一个视觉相关的评估集OwlEval，收集了82个人工构建的问题，基于50张图像，其中21个来自MiniGPT-4，13个来自MM-REACT，9个来自BLIP-2，3个来自GPT-4，还有4个由我们收集。部分图像有多轮问题，涉及多轮对话的情况。这些问题考察了各种模型能力，包括自然图像理解、图表和流程图理解、光学字符识别（OCR）、多模态创作、知识密集型问答和指代交互问答。由于问题是开放式的，我们采用手动评估指标，按照Self-Instruct [Wang等人，2022]提出的评分方法，将模型的响应评为A、B、C或D。

我们手动评分了mPLUG-Owl和基准模型给出的82个响应。比较结果如图3所示。首先，mPLUG-Owl获得了66个A和B，而最具竞争力的基准模型MiniGPT-4获得了54个。其次，mPLUG-Owl没有获得任何D分数，超过了所有模型。这些结果表明，mPLUG-Owl能够更好地理解指令和图像，从而在生成令人满意的响应方面具有更强的能力。为了公平比较，我们排除了MM-REACT未能进行预测的情况。结果在图15中单独显示，mPLUG-Owl仍然表现出卓越的性能。

4.2 Quantitative analysis

为了分别检查单轮和多轮对话能力，我们将82个问题重新组织成单轮对话集和多轮对话集。前者包含50个图像的第一个问题。后者包含来自多轮对话的52个问题。如图4所示，mPLUG-Owl在单轮和多轮对话中都取得了出色的表现。

4.3 Ablation Study

我们进行了两个实验：去除两阶段训练方案和指令调整的数据模态。我们定义了六个能力维度来完成与视觉相关的任务，如表1所示。对于每个问题，我们手动标记所需的能力，并注释哪些能力反映在模型的响应中。表2显示了不同变体的mPLUG-Owl的能力准确性。

训练策略消融。如表2所示，没有联合指令调整，模型不擅长指令理解，并且无法将预训练的能力推广到其他任务（r1与r5）。仅进行指令调整时，虽然模型可以更好地理解指令，但由于缺乏与视觉相关的知识预训练，模型无法在视觉知识相关任务中取得良好的性能（r2与r5）。通过进行多模态预训练和联合指令调整，模型实现了最佳性能，并展示了我们两阶段训练方案的有效性。

指令数据消融。通过比较r3和r4，我们发现仅使用文本指令调整可以更好地提高指令理解能力，而多模态指令调整可以实现更好的知识和推理能力。这是因为视觉问答主要需要视觉和语言知识的对齐，而这在仅使用文本指令调整时并没有得到优化。此外，我们还验证了在指令调整期间引入多模态数据可以进一步提高模型在仅文本任务上的性能，如表3所示（r5与r4）。具体而言，按照Vicuna [Vicuna，2023]的评估设置，对于每个问题，我们将每个模型的响应与ChatGPT给出的响应进行配对，并提示ChatGPT8分别为这两个响应给出两个分数。表3显示了总分和以ChatGPT分数为参考的分数比率。

4.4 定性分析

在本节中，我们展示了来自我们评估集OwlEval的定性结果。

知识密集型问答。如图5所示，指令要求模型识别图像中的电影角色。MM-REACT无法对指令提供有效的响应，而MiniGPT-4理解了指令但未能回答电影角色。相比之下，mPLUG-Owl回答了图像中五个角色中的四个。这表明mPLUG-Owl对图像中的知识有更好的理解。

多轮对话。图6中的指令要求模型根据参考信息识别图像的内容。当面对与问题中的空间定位、人类行为和目标属性相关的指代表达式时，基线模型经常会犯错误，而mPLUG-Owl提供了最准确的响应。这种能力源于mPLUG-Owl对图像的细粒度理解，使其能够根据指令中的参考信息定位图像的相应部分。

推理。图7展示了一个指令，要求模型基于视觉信息给出预测并解释原因。mPLUG-Owl从阵容和战术两个方面分析了两支队伍的特点，并用它们来推理比赛结果。虽然MiniGPT-4表现良好，但在推理的说服力方面略逊于mPLUG-Owl。

笑话理解。图8中的案例来自GPT-4[OpenAI, 2023]，要求模型理解并解释一个与视觉相关的笑话。GPT-4不仅按照指令逐格分析，而且几乎完美地理解了充电方法的幽默。mPLUG-Owl也理解了这种不寻常的幽默，但它错误地将“VGA”识别为“USB”。这主要是由于我们的训练数据中视觉信息的限制。更多关于笑话理解的案例展示在图9中。

5.讨论和限制

在本节中，我们展示了mPLUG-Owl的一些新兴能力，这些能力尚未完全发展，并讨论了其限制。本节中的部分案例（没有分数）不在OwlEval中。

多图像相关性。在图10中，mPLUG-Owl展示了在多个图像之间出现但不强的视觉相关性能力。在左侧的案例中，模型可以在两个图像中识别出同一个人，并正确地告诉衣服颜色的差异。但在右侧的案例中，模型未能将4个图像联系起来，并产生了一些文本幻觉。

多语言对话。除了英语，我们进一步测试了模型的多语言能力。如图11所示，尽管在我们的两阶段训练过程中没有多语言数据，mPLUG-Owl展示了对中文、法语和日语的有希望的多语言理解能力。我们主要归因于LLaMa[Touvron et al., 2023]中的原始文本知识。然而，由于缺乏多语言训练，mPLUG-Owl可能无法用相应的语言进行响应。

场景文本理解。在图16中，mPLUG-Owl展示了其在一些简单场景中的OCR能力，但我们可以看到模型对图像中数字的感知仍然有限。然而，对于复杂场景的OCR，如图17-18所示，mPLUG-Owl的性能更加通用，主要是因为图像中数字的感知较弱，影响了后续的推理计算。

仅视觉文档理解。虽然我们没有使用任何文档注释数据进行训练，但模型展示了一些文本识别和文档理解能力。因此，我们深入探讨了文档理解和我们模型功能的结合，如图12所示，我们探索了电影评论撰写、代码生成、代码解释、聊天摘要和应用程序指导。模型在(a)和(b)中表现良好，但仍然存在一些错误。同时，它无法在(d)、(e)和(f)中提供可用的响应。因此，有进一步探索我们模型在文档理解和下游应用方面潜力的空间。

开放式创作。mPLUG-Owl在基于图像的诗歌、歌词、广告和其他作品的创作方面表现良好。其在某些情况下的表现如图13-14所示。然而，需要进一步探索更具功能性和实用性的创作。

我们提出了mPLUG-Owl，这是一种新颖的训练范式，可以增强大型语言模型（LLM）的多模态能力。我们的方法包括基础LLM、视觉知识模块和视觉抽象模块的模块化学习，可以支持多种模态，并通过模态协作促进多样的单模态和多模态能力。我们采用了两阶段的方法来对齐图像和文本，它可以在保持甚至提高LLM生成能力的同时，辅助学习视觉知识。实验结果表明，mPLUG-Owl具有令人印象深刻的能力，表明它在多模态生成的各种应用中具有潜力。

大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
NLP高频面试题（七）——GPT和Bert的mask有什么区别？ Chaos_Wang_ NLP常见面试题自然语言处理 gpt bert
GPT和BERT的Mask机制对比：核心区别与优化策略在NLP领域，GPT和BERT是最具代表性的预训练语言模型之一。它们都在训练过程中使用了Mask机制来引导模型学习语言表示，但具体实现方式和目标却有所不同。本文将深入探讨GPT和BERT的Mask方法的核心区别，并分析其优化策略。1.BERT的Mask机制：基于MLM（MaskedLanguageModel）BERT（Bidirectional
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！小城哇哇人工智能语言模型 AI大模型大模型微调预训练 agi LLM
前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。近年来，人工智能（AI）在各个领域的突破性进展，尤其是在自然语言处理（NLP）方面，引起了广泛关注。两项重要的技术方法——预训练和微调，成为了AI模型发展的基石。预训练通常是指在大规模数据集上进行模型训练，以帮助
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
TensorFlow和Pytorch在功能上的区别以及优势 Honeysea_70 #算法 tensorflow pytorch 人工智能
功能上的区别1.计算图TensorFlow：使用静态计算图（StaticGraph）。在运行模型之前，需要先构建完整的计算图，然后通过会话（Session）运行图。优点是性能优化更高效，适合大规模分布式训练和生产环境部署。缺点是调试相对复杂，因为计算图的构建和运行是分离的。PyTorch：使用动态计算图（DynamicGraph）。计算图是动态构建和执行的，每次迭代都会重新构建图。优点是调试方便，
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
【NLP】 API在大语言模型中的应用 Nerous_ 深度学习自然语言处理语言模型人工智能
大语言模型（LargeLanguageModels,LLMs）通过API（应用程序接口）为开发者提供了便捷的调用方式，使其能够快速集成自然语言处理能力到各类应用中。以下是API在LLM中的核心应用场景及技术实现细节：一、核心应用场景自然语言理解与生成应用示例：智能客服：解析用户问题并生成回复（如ChatGPTAPI）。内容创作：自动生成文章、广告文案或代码（如OpenAI的GPT-4）。技术实现：
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》人工智能深度学习
在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer）系列模型宛如两颗最为耀眼的星辰，引领着NLP技术不断迈向新的高度。它们基于独特的架构设计，以强大的语言理解与生成能力，彻底革新了NLP的研究与应用范式，成为学界和业界竞相探索
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
查看 CUDA cudnn 版本查看Navicat GPU版本 FergusJ 备份 python 开发语言
查看显卡型号：lspci|grepVGA（lspci是linux查看硬件信息的命令），屏幕会打印出主机的集显几独显信息python中查看显卡型号fromtensorflow.python.clientimportdevice_libdevice_lib.list_local_devices()
错误moduleNotFoundError: No module named 'matplotlib' 逆着tensor tensorflow2.0学习 tensorflow
错误ModuleNotFoundError:Nomodulenamed‘matplotlib’问题tensorflow2.0中jupyternotebook编写线性回归例子，出现ModuleNotFoundError:Nomodulenamed'matplotlib’错误解决办法好了，重新加载程序，已经可以用了。
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
TikTokenizer 项目常见问题解决方案齐飞锴Timothea
TikTokenizer项目常见问题解决方案tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目基础介绍TikTokenizer是一个开源项目，主要用于文本处理，特别是将文本转化为可用于深度学习的格式。该项目是基于TensorFlow和Keras开发
软件定义世界下的教育创新：高校计算机实验室应重心转向开源平台开源
一、一键式教学环境部署，节省90%准备时间•应用模板库：提供200+预置教学工具模板（如JupyterLab+TensorFlow、MySQL集群），教师可根据课程需求选择模板，5分钟内完成包含依赖库、运行环境的全栈部署。•多版本隔离：支持同一服务器并行运行不同版本框架（如Django3.2教学版与4.1开发版），避免版本冲突导致30%的课堂时间浪费。•自助式环境创建：学生通过命令行快速申请带GP
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
使用 TensorFlow 进行图像处理：深度解析卷积神经网络（CNN）一碗黄焖鸡三碗米饭人工智能前沿与实践 tensorflow 图像处理 cnn 人工智能机器学习 python ai
目录使用TensorFlow进行图像处理：深度解析卷积神经网络（CNN）1.什么是卷积神经网络（CNN）？CNN的基本结构为什么CNN适合图像处理？2.使用TensorFlow构建CNN2.1环境准备2.2加载并预处理MNIST数据集2.3构建CNN模型2.4编译和训练模型2.5评估模型3.CNN的优化与改进3.1使用数据增强3.2调整网络结构4.CNN在其他图像处理任务中的应用5.总结参考文献在
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
LeetCode98-验证二叉搜索树学习的学习者 LeetCode Python 二叉搜索树
上个星期和导师去了华农一趟名义上是和导师去参加一个国家级的项目其实没我啥事都是我导师在那口若悬河当时和那边的本科生去了另一间会议室交流了关于GAN的知识偶然听说大家都在用pytorch好像最新版的也挺好用的反正就是学术界目前主要用这个框架工业界主要用Tensorflow(没办法，Google出品)这两天也拿来瞧了瞧好像也确实可以的！！！98-验证二叉搜索树给定一个二叉树，判断其是否是一个有效的二叉
混合整数非线性规划的松弛与分解方法 Waiyuet Fung 混合整数非线性规划松弛方法分解技术启发式算法全局优化
背景简介混合整数非线性规划（MINLPs）作为运筹学中的一个重要领域，涉及到优化问题的连续和离散变量混合，在工程设计、生产调度、资源分配等多个领域发挥着关键作用。本书由I.Nowak撰写，旨在深入探讨这一复杂的优化问题及其解决方案。MINLPs基础概念在本书的第一部分，Nowak介绍了MINLPs的基本概念。MINLPs的目标是寻找一组连续和整数变量的最优组合，以最小化或最大化某个非线性目标函数。
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

多语言多模态（融合图像和文本）大模型-mPLUG-Owl论文解读

1 introduction

2 related word

2.1 Large Language Models

2.2 Multi-Modal Large Language Models

3 mPLUG-Owl

3.1 Architecture Overview

3.2 Training Scheme

4 Experiment

4.1 Experimental Setup

4.2 Quantitative analysis

4.3 Ablation Study

4.4 定性分析

5.讨论和限制

你可能感兴趣的:(NLP,tensorflow)