weixin_42653320

2022VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

摘要

我们提出了一个统一的视觉-语言预训练模型(VLMo)，该模型与一个模块化的transformer网络共同学习一个双编码器和一个融合编码器。具体地，我们引入了模态混合专家(MoME)Transformer，其中每个块包含一个特定于模态的专家的池化和一个共享的自注意力层。由于MoME的建模灵活性，预训练好的VLMo可以作为视觉语言分类任务的融合编码器进行微调，或者用作有效的图像-文本检索的双编码器。此外，我们提出了一种阶段预训练策略，该策略有效地利用了除图像-文本对之外的大规模的仅图像和仅文本数据。实验结果表明，VLMo在各种视觉-语言任务上取得了最先进的结果，包括VQA、NLVR2和图像文本检索。

一、介绍

视觉-语言(VL)预训练从大规模的图像-文本对中学习通用的跨模态表示。以往的模型通常采用图像-文本匹配、图像-文本对比学习、掩码区域分类/特征回归、单词-区域/补丁对齐和掩码语言建模等方法来对视觉和语言信息进行聚合和对齐，然后，预训练好的模型可以直接对下游的视觉-语言任务进行微调，如VL检索和分类(视觉问答、视觉推理等)。

两种主流体系结构在以前的工作中被广泛使用。CLIP和ALIGN采用双编码器架构，分别编码图像和文本，模态交互作用是由图像和文本特征向量的余弦相似度来处理的。双编码器架构对检索任务是有效的，特别是对大量的图像和文本，图像和文本的特征向量可以预先计算和存储。然而，图像和文本之间的浅层交互并不足以处理复杂的VL分类任务。ViLT发现CLIP在视觉推理任务上的准确性相对较低。另一行工作依赖于对建模图像-文本对具有跨模态注意力的融合编码器。融合编码器架构在VL分类任务上取得了优越的性能，但它需要联合编码所有可能的图像-文本对。二次时间复杂度导致的推理速度比时间复杂度为线性的双编码器模型要慢得多。

为了利用这两种类型的架构，我们提出一个统一的视觉-语言预训练模型(VLMo)，可以作为一个双编码器分别编码图像和文本检索任务，或作为融合编码器建模图像-文本对的深度交互用于分类任务。这是通过引入模态混合专家(MoME)Transformer，这可以编码一个Transformer块内的各种模态(图像、文本、和图像-文本对)。MoME采用了多模态专家的池化来取代标准Transformer中的前馈网络，它通过切换到不同的模态专家来捕捉特定于模态的信息，并使用跨模态的共享自注意力来对齐视觉和语言信息。具体地，MoME Transformer包含三个模态专家，分别是用于图像编码的视觉专家、用于文本编码的语言专家、和用于图像-文本融合的视觉-语言专家。由于建模的灵活性，我们可以为不同的目的使用共享参数重用MoME Transformer，即仅文本编码器、仅图像编码器、和图像-文本融合编码器。

VLMo与三个预训练任务共同学习，即图像-文本对比学习、图像-文本匹配、和掩码语言建模。此外，我们还提出了一种阶段预训练策略，在VLMo预训练中有效利用图像-文本对之外的大规模仅图像和进文本语料库。我们首先利用BEIT中提出的掩码图像建模方法，对MoME Transformer的视觉专家和自注意力模块在仅图像数据上进行了预训练，然后，我们使用掩码语言建模对语言专家在纯文本数据上预训练，最后，利用该模型初始化视觉-语言预训练。通过摆脱有限大小的图像-文本对及其简单的和简短的标题，对大量的仅图像和仅文本数据进行阶段预训练，有助于VLMo学习更通用的表示。

实验结果表明，VLMo在视觉-语言检索和分类任务上取得了最先进的结果。我们的模型，用作一个双编码器，优于融合编码器基本模型，同时在检索任务上享受到更快的推理速度。此外，我们的模型还在视觉问答(VQA)和视觉推理的自然语言(NLVR2)方法取得了最先进的结果，其中VLMo被用作融合编码器。

我们的主要贡献如下：1）我们提出了一个统一的视觉-语言预训练模型VLMo，它可以用作分类任务的融合编码器，也可以作为检索任务的双编码器进行微调。2）我们介绍了一种用于视觉-语言任务的通用多模态transformer，即MoME Transformer，以编码不同的模态。它由模态专家捕获特定于模态的信息，并通过跨模态共享的自注意力模块来对齐不同模态的内容。3）我们表明，使用大量的仅图像和仅文本数据的阶段预训练极大地改进了我们的视觉-语言预训练模型。

二、相关工作

与之前的工作不同，我们使用共享的MoME Transformer进行统一的预训练，使模型能够对检索任务执行单独的编码，并联合编码图像-文本对，以捕获分类任务的更深层次的交互。我们的模型实现了具有竞争力的性能，同时在检索和分类任务中具有更快的推理速度。

三、方法

给定图像-文本对，VLMo通过MoME Transformer网络获得仅图像、仅文本、和图像-文本对表示。如图1所示，统一的预训练优化了具有仅图像和仅文本表示的图像-文本对比学习、图像-文本对表示的图像-文本匹配和掩码语言建模的共享MoME Transformer。由于建模的灵活性，该模型可以作为检索任务的双编码器，在微调过程中分别编码图像和文本。它还可以作为融合编码器进行微调，以建模图像和文本的更深层的模态交互。

图1是VLMo预训练的概述。我们引入了混合模态专家(MOME)Transformer来编码特定模态专家的不同模态输入。该模型参数在图像-文本对比学习、掩蔽语言建模和图像-文本匹配的训练前任务中共享。在微调过程中，灵活的建模使我们能够使用VLMO作为双编码器（即，分别将图像和文本编码用于检索任务）或融合编码器（即，联合编码图像-文本对，以更好地跨模式交互）。

3.1 输入表示

给定一个图像-文本对，我们将图像-文本对编码为图像、文本、和图像-文本向量表示。然后将这些表示输入MoME Transformer，以学习上下文表示，并对齐图像和文本特征向量。

图像表示 根据视觉Transformer，2D图像v∈RH×W×C被分割并重塑为N=HW/P2补丁vp∈RN×(P2C)，其中C是通道数，(H，W)是输入图像的分辨率，(P，P)是补丁分辨率。然后将图像补丁展平为向量，并进行线性投影，得到补丁嵌入。我们还在序列上准备了一个可学习的特殊标记[I_CLS]。最后，通过叠加补丁嵌入、可学习的1D位置嵌入Vpos∈R(N+1)×D和图像类型嵌入Vtype∈RD：H0v=[v[I_CLS]，vvip，…+Vpype，其中H0v∈R(N+1)×D，线性投影V∈R(P2C)×D。

文本表示 根据BERT，我们通过WordPiece将文本标记为子词。一个序列的开始标记(I_CLS)和一个特殊边界标记(T_SEP)被添加到文本序列中。文本输入表示H0w∈R(M+2)×D被计算通过加上相应的单词嵌入、文本位置嵌入和文本类型嵌入H0w=[w[T_CLS]，wi，…，wM，w[T_SEP]]+Tpos+Ttype。M表示标记化的子字单位的长度。

图像-文本表示 我们将图像和文本输入向量连接起来，形成图像-文本表示H0 vl=[H0w；H0v]。

3.2 模态混合专家Transformer

受专家混合网络的启发，我们提出了一种用于视觉-语言任务的通用多模态Transformer，即MoME Transformer，以编码不同的模态。MoME Transformer引入了混合模态专家来代替标准Transformer的前馈网络。给定前一层的输出向量Hl−1，l∈[1，L]，每个MoME Transformer块通过切换到不同模态的模态专家来捕获特定于模态的信息，并使用跨模态共享的多头自注意力来对齐视觉和语言内容。LN是层归一化的缩写。

MoME-FFN根据输入向量Hl'的模态和Transformer层的索引，选择多个模态专家中的一个专家。具体来说，由三种模态专家：视觉专家(V-FFN)、语言专家(L-FFN)、和视觉-语言专家(VL-FFN)。如果输入是仅图像向量或仅文本向量，我们使用视觉专家编码图像，使用语言专家编码文本。如果输入包含多个模态的向量，如图像-文本对的向量，我们使用视觉专家和语言专家在Transformer的底层编码各自的模态向量，然后在顶层使用视觉-语言专家来捕获更多的模态交互。给定输入向量的三种类型，我们得到了仅图像、仅文本和图像-文本上下文表示。

3.3 预训练任务

VLMo通过图像和文本表示上的图像-文本对比学习、在图像-文本对表示上的掩码语言建模和图像-文本匹配，共享参数。

图像-文本对比 给定一批N个图像-文本对，图像-文本对比学习的目标是预测N*N个可能的图像-文本对的匹配对。在一个训练批中由N2-N个负的图像-文本对。

[I_CLS]标记和[T_CLS]标记的最终输出向量分别被用作图像和文本的聚合表示。然后进行线性投影和归一化，我们在一个训练批中获得图像向量{ˆhvi}Ni=1和文本向量{ˆhwi}Ni=1，以计算图像到文本和文本到图像的相似性：

其中，si2t i，j表示第i对图像和第j对文本的图像到文本的相似度，st2i i，j表示文本对图像的相似度。ˆhwi∈RD和ˆhvj∈RD表示第i个文本和第j幅图像的归一化向量，σ是学习到的温度参数。pi2t i和pt2i i是softmax标准化相似性。利用图像到文本和文本到图像相似性的交叉熵损失来训练模型。

掩码语言建模 在BERT[10]之后，我们在文本序列中随机选择标记，并将它们替换为[MASK]标记。该模型被训练成从所有其他未掩蔽标记和视觉线索中预测这些掩蔽标记。我们使用15%的掩蔽概率作为BERT。掩码标记的最终输出向量被输入到整个文本词汇表上的分类器中用交叉熵损失。

图像-文本匹配 图像-文本匹配的目的是预测图像和文本是否匹配。我们使用[T_CLS]标记的最终隐藏向量来表示图像-文本对，并将该向量输入具有交叉熵损失的分类器进行二值分类。受ALBEF[23]的启发，我们基于对比图像到文本和文本到图像的相似性采样硬负图像-文本对。与ALBEF不同，它从单个GPU的训练样例中采样硬负挖掘(我们将其命名为局部硬负挖掘)。我们提出了全局硬负挖掘，并从所有gpu中收集的更多的训练例子中采样硬负图像-文本对。全局硬负挖掘可以找到更多信息丰富的图像-文本对，并显著地改进了我们的模型。

3.4 阶段性预训练

我们引入一个阶段性预训练策略，利用大规模仅图像和仅文本语料库来改进视觉-语言模型。如图2所示，我们首先对仅图像数据进行视觉预训练，然后对仅文本数据进行语言预训练，以学习一般的图像和文本表示。该模型用于初始化视觉-语言预训练，以学习视觉和语言信息的对齐。对于视觉预训练，我们训练了MoME Transformer的注意力模块和视觉专家，就像BEIT中的仅图像数据一样。我们直接利用BEIT的预训练的参数来初始化注意力模块和视觉专家。对于语言预训练，我们冻结了注意力模块和视觉专家的参数，并利用掩码语言建模对语言专家的纯文本数据进行了优化。与图像-文本对相比，仅图像数据和仅文本数据更容易收集。此外，图像-文本对的文本数据通常较短而简单。对仅图像和仅文本语料库的预训练提高了对复杂对的泛化效果。

图2：使用仅图像和仅文本语料库进行阶段性预训练。我们首先对视觉专家(V-FFN)和自我注意模块进行了大规模的仅图像数据的预训练，就像在BEIT[2]中一样。然后冻结视觉专家和自我注意模块的参数，通过对大量的纯文本数据进行掩码语言建模，训练语言专家(L-FFN)。最后，我们用视觉语言的预训练来训练整个模型。

3.5 在下游任务上微调VLMo

如图3所示，我们的模型可以进行微调，以适应各种视觉-语言的检索和分类任务。

图3：微调视觉语言检索和分类任务上的VLMO。该模型可以作为一个双编码器进行微调，以分别对图像和文本进行编码用于检索任务。VLMO还可以作为一个融合编码器来处理分类任务中的图像-文本对的交互。

视觉-语言分类 对于视觉问题回答和视觉推理等分类任务，VLMO被用作一个融合编码器来建模图像和文本的模态交互。我们使用标记[T_CLS]的最终编码向量作为图像-文本对的表示，并将其提供给特定于任务的分类器层来预测标签。

视觉-语言检索 对于检索任务，VLMO可以作为双编码器分别对图像和文本进行编码。在微调过程中，我们的模型对图像-文本对比损失进行了优化。在推理过程中，我们计算所有图像和文本的表示，然后使用点积得到所有可能的图像-文本对的对图像到文本和文本到图像的相似度得分。单独的编码比基于融合编码器的模型能够实现更快的推理速度。

四、实验

我们使用大规模的图像-文本对对模型进行预训练，并在视觉-语言分类和检索任务上评估模型。

4.1 预训练设置

继之前的工作之后，我们的预训练数据包含四个图像标注数据集：概念标注(CC)、SBU标注、COCO和Visual Genome(VG)数据集。预训练数据中约有4M图像和10M图像-文本对。

4.3 在视觉-语言分类任务上的评估

我们首先在两个广泛使用的分类数据集上进行微调实验：视觉问题回答[15]和视觉推理[42]的自然语言。该模型被微调为一个融合编码器，以建模更深层次的交互。

视觉问答(VQA) 对于VQA，给出一个自然图像和一个问题，任务是生成/选择正确的答案。我们在VQA 2.0数据集[15]上训练和评估该模型。按照常见的做法，我们将VQA 2.0转换为一个分类任务，并从一个由3,129个答案组成的共享集合中选择答案。我们使用[T_CLS]标记的最终编码向量作为图像-问题对的表示，并将其提供给分类器层来预测答案。

4.6 消融研究

五、结论

在这项工作中，我们提出了一个统一的视觉语言预训练模型VLMO，它共同学习一个双编码器和一个具有共享的MoME Transformer主干的融合编码器。MOME引入了一群模态专家来编码特定于模态的信息，并使用共享的自我注意模块来对齐不同的模态。使用MOME的统一预训练使模型能够用作高效视觉语言检索的双编码器，或作为融合编码器来建模分类任务的跨模态交互。我们还表明，利用大规模的仅图像和仅文本语料库的阶段性预训练极大地改善了视觉语言的预训练。实验结果表明，VLMO在各种视觉语言分类和检索基准上优于以往最先进的模型。

在未来，我们希望从以下几个角度来改进VLMO：1）我们将扩大在VLMO预训练中使用的模型规模。2）我们还希望根据UniLM[11]中提出的方法，对视觉语言生成任务的VLMO进行微调，比如图像字幕。3）我们将探索视觉语言预训练在多大程度上可以帮助彼此，特别是当共享的MOME主干自然地混合在文本和图像表示中。4）我们可以扩展所提出的模型来集成更多的模式（例如，语音、视频和结构化知识），支持通用的多模态预训练。

Python 训练营打卡 Day 46 2401_86382089 Python打卡 python
通道注意力一、什么是注意力注意力机制是一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。transformer中的叫做自注意力机制，他是一种自己学习自己的机制，他可以自动学习到图片中的主体，并忽略背景。我们现在说的很多模块，比如通道注意力、空间注意力、通道注意力等等，都是基于自注意力机制的。从数学角度看，注意力机制是对输入特征进行加权求
Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
从技术支持到UX设计大师：Adam Schilling的成长之路 AR新视野用户体验设计职业转型持续学习视觉传达技术支持
背景简介本篇博文基于AdamSchilling的访谈记录，他是一位从技术支持成功转型为用户体验（UX）设计师的专业人士。通过Adam的故事，我们将探讨如何在技术领域内发展设计思维，并成功转型为UX设计师。AdamSchilling的设计之路早期学习与兴趣培养Adam的旅程始于南澳大利亚大学的视觉传达课程，虽然没有完成，但他从中学习到了平面设计原则和插画技能。在闲暇时间，他为朋友免费进行网页设计和开
Neo4j 的向量搜索（Neo4jVector）和常见的向量数据库（比如 Milvus、Qdrant）之间的区别与联系
先说联系（共同点）点内容✅都支持向量检索都可以基于embedding（向量）做相似度搜索，比如给一段文本、找出最相似的若干条记录。✅都用于语义检索你可以把它们用在RAG（检索增强生成）、ChatwithDocs、智能问答、推荐系统等应用里。✅都支持批量插入、查询都可以批量向数据库中插入文本+向量，然后用向量做top-k检索（如search(k=8)）。✅都和LangChain集成它们都可以通过la
开源模型应用落地-OpenAI Agents SDK-集成MCP与Qwen3-8B模型的创新应用探索（七）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术飞速发展的今天，如何将先进的模型和技术无缝结合，成为推动行业变革的关键。OpenAIAgents通过集成模型上下文协议（MCP）和阿里巴巴推出的Qwen3-8B模型，正开启一场智能应用的革命。这种创新的结合不仅提升了AI代理与外部工具之间的通信能力，还在多模态任务处理、个性化服务等领域展现出巨大潜力。本文将深入探讨这一技术组合的实际应用场景，揭示其在改善客户体验和提升运营效率
开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-探索output_guardrail的创意应用（六）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言随着人工智能技术的迅猛发展，大语言模型（LLM）在各行各业的应用日益广泛。然而，模型生成的内容是否安全、合规、符合用户预期，成为开发者和企业不可忽视的问题。为此，OutputGuardrail应运而生，作为一种关键的安全机制，它在模型生成结果之后进行内容审核与过滤，确保输出不偏离道德、法律和业务规范。通过检测不当的内容，不仅提升了AI系统的可信度，也为构建更加稳健和负责任的人工智能应用提供
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
开源模型应用落地-让AI更懂你的每一次交互-Mem0集成Qdrant、Neo4j与Streamlit的创新实践（四）开源技术探险家开源模型-实际应用落地 neo4j 开源人工智能语言模型
一、前言在人工智能迅速发展的今天，如何让AI系统更懂“你”？答案或许藏在个性化的记忆管理之中。Mem0作为一个开源的记忆管理系统，正致力于为AI赋予长期记忆与个性化服务能力。通过结合高性能向量数据库Qdrant、图数据库Neo4j的强大关系分析能力以及Streamlit的高效可视化交互，我们可以打造出一个既能存储用户历史行为、又能实时推理并展示结果的智能记忆助手。本文将带您一步步探索这一技术组合的
【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
视觉设计全栈解析：必知的8大核心方向与应用场景
在数字时代，视觉设计早已渗透到生活的方方面面——从手机APP界面到街头广告牌，从书籍的版式到产品的包装，这些统统离不开视觉设计的支撑！所以，了解视觉设计分类，不仅能帮助我们理清设计的边界与应用场景，更能让初学者找到学习的方向，让从业者精准定位创作目标哦。接下来，我们就来详细解析视觉设计分类中的8大常见类型，一起来享受这场视听盛宴吧~一、视觉识别图形设计在视觉设计分类中，视觉识别图形设计是构建品牌形
ViP-LLaVA: 使大型多模态模型理解任意视觉提示 AI专题精讲 Paper阅读多模态人工智能 AI
摘要现有的大型视觉-语言多模态模型主要关注整体图像理解，但在实现区域特定的理解方面仍存在显著差距。目前，使用文本坐标或空间编码的方法通常无法为视觉提示提供用户友好的接口。为了解决这个问题，我们提出了一种新颖的多模态模型，能够解码任意（自由形式）视觉提示。这使得用户可以通过自然提示（如“红色边框”或“指向箭头”）直观地标记图像并与模型互动。我们的简单设计直接将视觉标记叠加在RGB图像上，避免了复杂的
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
QA - RAG智能问答系统中的文档切片与实现原理 ai开发
引言在现代企业知识管理系统中，智能问答系统正发挥着越来越重要的作用。GC-QA-RAG系统作为葡萄城技术栈中的重要组成部分，其核心功能是通过对文档内容进行智能切片和向量化存储，实现对技术文档的高效检索和问答。本文将深入剖析该系统的文档切片原理，包括短文档和长文档的不同处理策略，以及如何将这些技术应用于实际场景中。正文1.原始方案及其局限性最初的GC-QA-RAG系统采用了一种直观的方法：将整个文档
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
ShaderGraph节点解析(136):矩形节点（Rectangle Node）详解小李也疯狂 #Unity ShaderGraph Rectangle
目录一、节点功能概述二、端口详解三、控制选项四、技术原理解析4.1数学原理（距离场计算）4.2生成代码解析4.3视觉特性五、应用场景与实战案例5.1UI元素（矩形按钮/面板）场景：在UI中生成无纹理的矩形按钮或面板，支持动态调整大小和圆角（配合其他节点）5.2材质纹理（网格/条纹）场景：为材质添加矩形网格或条纹纹理（如布料格子、屏幕像素感）5.3粒子形状（矩形粒子/条纹）场景：控制粒子的形状为矩形
网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
在 Dify 平台中集成上下文工程技术由数入道人工智能数据库大数据人工智能软件工程 dify
1.提升LLM问答准确率的上下文构建与提示策略大语言模型在开放领域问答中常面临幻觉和知识过时等问题。为提高回答准确率，上下文工程的关键是在提示中注入相关背景知识与指导。具体策略包括：检索增强(RAG)：通过从知识库中检索相关内容并将其纳入提示，可以显著提升回答的准确性和可信度。Dify提供了知识检索节点，支持向量数据库存储外部知识，并将检索结果通过上下文变量注入LLM提示中。例如，在知识库问答应用
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
《北京市加快推动“人工智能+医药健康“创新发展行动计划（2025-2027年）》深度解读
引言随着新一轮科技革命和产业变革的深入推进，人工智能技术与医药健康的深度融合已成为全球科技创新的重要方向。北京市于2025年7月正式发布《北京市加快推动"人工智能+医药健康"创新发展行动计划（2025-2027年）》，旨在充分发挥北京在人工智能技术策源、头部医疗资源汇聚、健康数据高度富集等方面的突出优势，构建形成"人工智能+医药健康"创新和应用并举的产业生态体系，打造具有国际影响力的创新策源地、应
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一