栗子酱15551

CLIP在V&L的应用论文笔记《HOW MUCH CAN CLIP BENEFIT VISION-AND- LANGUAGE TASKS?》

HOW MUCH CAN CLIP BENEFIT VISION-AND- LANGUAGE TASKS?

大多数现有的视觉和语言(V&L)模型依赖于预先训练过的视觉编码器，使用相对较小的手动注释数据集（与网络爬行的数据相比）来感知视觉世界。然而，我们可以观察到，大规模的预训练通常可以得到更好的泛化性能。我们建议在两种典型场景中使用CLIP作为各种V&L模型的视觉编码器：1)将CLIP插入特定任务的微调；2)将CLIP与V&L预训练结合起来，并转移到下游任务中。我们表明，CLIP显著优于广泛使用的使用领域内注释数据训练的视觉编码器，比如BottomUp-TopDown。我们在不同的V&L任务上取得了有竞争力或更好的结果，同时在Visual Question Answering,
Visual Entailment, and V&L Navigation tasks（视觉问答、视觉设计和V&L导航任务）上建立了新的最先进的结果。

1 INTRODUCTION

大多数V&L模型依赖于视觉编码器来感知视觉世界，它将原始像素转换为表示空间的向量。视觉表示已经成为V&L模型的性能瓶颈，并强调了学习一个强大的视觉编码器的重要性。检测或图像分类数据的收集成本很高，而且视觉表示受到预定义的类标签的限制。我们假设CLIP对V&L任务具有很大的潜力。然而，直接将CLIP作为零镜头模型应用于V&L任务被证明是困难的，因为许多V&L任务需要复杂的多模态推理。因此，我们建议将CLIP与现有的V&L模型集成，用CLIP的视觉编码器代替它们。

我们是最先使用CLIP作为视觉编码器的大规模实证研究。我们考虑两个典型的场景：1）我们直接在特定任务的微调中使用CLIP；2）将CLIP与在图像-文本对上预训练的V&L集成起来并转移到下游任务中we integrate CLIP with V&L pre-training on image-text pairs and transfer to downstream tasks.

为了清晰起见，我们将在这两种场景中使用的模型表示为 $C L I P - V i L$ (不需要V&L预训练)和 $CLIP-ViL_p$ (需要V&L预训练)。

在直接特定任务的微调中，我们考虑了三个广泛采用的任务： Visual Question Answering , Image Captioning , Vision-and-Language
Navigation，即视觉问题回答，图像字幕，视觉与语言导航。。在所有三个任务上，CLIP-ViL比强基线带来了相当大的改进，在VQAv2.0的准确率为1.4%，COCO字幕为6.5CIDEr，Room-to-Room导航的准确率为4.0%的成功率。

在V&L预训练中，我们用CLIP取代了传统使用的基于区域的表示。

2 BACKGROUND AND MOTIVATION

Vision-and-Language (V&L) models

V&L任务需要一个模型来理解视觉世界，并将自然语言与视觉观察相结合。突出的任务包括visual question
answering, image captioning, vision-language navigation, image-text retrieval，即视觉问题回答、图像字幕、视觉语言导航、图像-文本检索等。为这些任务设计的V&L模型通常包括一个视觉编码器、一个文本编码器和一个跨模态交互模块。

我们在图1中说明了三个典型的训练阶段

1）视觉编码器在标注的视觉数据集上进行训练。（记为视觉编码器预训练）

2）（可选）使用重建目标和图像文本匹配目标对配对的图像标题数据进行预训练（记为视觉和语言预训练）

3)对特定任务数据的微调（表示为特定任务的微调）

Visual encoders in V&L models

从左到右依次为：基于区域的方法在对象上进行训练检测数据；对于基于网格的方法（图像分类或者检测任务）；前两者均需要进行标注，而CLIP只需要对齐的文本。

CLIP

CLIP遵循一种“浅层交互设计”，其中一个视觉编码器和一个文本编码器独立地对输入图像和文本进行编码，并使用两个编码器输出之间的点积作为输入图像和文本之间的相似性得分。
它是预先训练的对比损失，其中模型需要区分对齐的对和随机抽样的对。CLIP利用了一个大量可用的监督来源，而没有人工注释：在互联网上发现的4亿对图像-文本对。因此，CLIP在零镜头设置下的一系列图像分类和图像-文本检索任务中实现了Sota的性能。

2.1 MOTIVATION

我们建议将CLIP的视觉编码器与以前的V&L模型集成起来（图1）。接下来，我们将在两种场景下描述我们的方法：1）直接针对特定任务的微调，2）V&L预训练。

3 CLIP-VIL

在本节中，我们直接使用CLIP作为特定任务模型（称为CLIP-ViL）中的视觉编码器，并对三个代表性任务进行微调，包括视觉问题回答（第3.1节）、图像字幕（第3.2节）和视觉语言导航（第3.3节）。

3.1 VISUAL QUESTION ANSWERING

Model Architecture

To integrate CLIP for the VQA models, we extract grid features using CLIP. For CLIP-ViT-B models, we reshape the patch representation from the final layer into grid features. For CLIP-ResNet models, we simply take the grid features from the last layer before the pooling.

Implementation Details

For training the detector on the VG dataset, we replace the backbone with CLIP visual module using implementation of Faster R-CNN in Detectron2. For training VQA models, we use hyperparameters of the open-source implementation from (Jiang et al., 2020) for the large version of the MCAN and base version of Pythia.

与在ImageNet分类任务中预训练的视觉特征提取器相比，CLIP视觉模块表现出明显的改进（表1的前两个块)。

$Pythia_{VG}$ 比 $P y t h i a$ 的CLIP-Res50的性能显著下降了5.54%， $MCAN_{VG}$ 比 $MCAN_{VG}$ 的性能显著下降了4.08%。潜在的原因是CLIPRes50是在不同的数据上训练的，与ImageNet的方法不同，因此遵循之前为ImageNet模型设计的Visual-Genome（视觉基因组）微调实践可能会造成伤害。

3.2 IMAGE CAPTIONING

对于模型架构，我们用base Transformer模型进行了实验。为每个图像提取网格特征映射。我们在COCO数据集上评估了我们的模型。我们使用标准的自动评估指标，包括CIDEr, BLUE-4, METEOR and SPICE metric。

3.3 VISION-AND-LANGUAGE NAVIGATION

视觉和语言导航测试了代理根据人类指令采取行动的能力，这最近在具身人工智能中获得了广泛欢迎。具体来说，agent被放置在环境中的一个位置，并被要求按照语言指令达到目标。在这里，我们研究了CLIP视觉编码器对这项新任务的影响。

我们选择预训练的视觉编码器，把ImageNet预训练的ResNet替换为预先训练的CLIP视觉编码器。与使用特征图来包含详细信息的VQA任务不同，我们根据之前的工作对整个图像使用单向量输出。对于CLIP-ViT-B模型，我们取[CLS]标记的输出。对于CLIP-ResNet模型，我们取 attentive pooled feature of the feature map。这些特征也在CLIP被线性投影和L2归一化。

4 VISION-AND-LANGUAGE PRE-TRAINING

近年来，V&L预训练被认为是一种提高各种V&L任务性能的有效技术。 Before task-specific fine-tuning, the model is pre-trained on aligned image-text data with
a reconstructive objective and an image-text matching objective. 我们试图测试将CLIP预训练和V&L预训练相结合的潜力。 $CLiP-ViL_p$ 以CLIP视觉编码器为其visual backbone，对图像-文本数据进行预先训练的视觉和语言模型。

4.1 $CLIP-VIL_P$

Model Architecture

CLiP-ViLp假定一个文本段 $T$ 和一个图像 $I$ 作为输入。像在BERT中，文本被标记为一系列子单词{w1，w2，…，wk}。

Every subword is embedded
as the sum of its token, position, and segment embeddings and thus the text
is embedded as a sequence of word embeddings ${w1, w2, ..., wn\}$ .

上图是Bert

The image is embedded as
a set of visual vectors {v1, v2, …, vm} from the grid-like feature map. The text and visual input
are then concatanated into a sequence, ${w1, w2, ..., wn, v1, v2, ..., vm\}$ , and processed by a single Transformer.

In most region-based models, the visual backbone is frozen as fine-tuning the object
detector along with the Transformer remains an open problem.

In $CLiP-ViL_p$ , the CLIP backbone is trained during both V&L pre-training and task-specific fine-tuning.

Model

For the model architecture, we experiment with the basic attentive neural agent.然后，代理模型(i.e., another LSTM)关注视觉特征和语言表征来预测动作。在每个时间步t中，代理会关注全景视图 ${v_{t,i}\}_i$ 和指示 ${w_j\}$ 来进行操作。全景视图用预先训练过的视觉编码器(如ResNet)处理，指令由语言LSTM处理，记为 $LSTM_L$ 。代理模型， $LSTM_A$ ，关注视觉特征和语言表示来预测动作。

其中 $h_t$ 和 $c_t$ 分别是时间步长t时动作LSTM的隐藏层和状态。

Pre-training on Image-Text Data

为了学习视觉和语言的统一表示，我们遵循之前的工作，并对图像-文本对对模型进行预训练。我们考虑了LXMERT的三个预训练目标：1)grounded masked language modeling，我们随机屏蔽输入句子中15%的单词，训练模型重建掩码单词；2)文本图像匹配，其中模型提供一个不匹配的概率为0.5的句子，并训练其分类文本是否对应于图像；3)视觉问题回答，我们训练模型预测给定问题的正确答案。

Results Comparison to Grid Features

We also report the comparison to grid features that is trained with detection dataset. The results with these features are comparable to the original bottom-up attention with a heavy detection module.

如表9所示，在相同的ResNet50主干下,我们发现， detection-trained grid features与classification-trained
grid features相同，仍然与contrastive-trained grid features存在差距。We hypothesize that the grid features inject regional knowledge into the dense feature map thus showing good results with
grid-based modules. However, pooling the feature map into a single feature
vector (as in previous VLN works) leads to a loss of this dense information.

4.2 EXPERIMENTS

Setup

我们实验用CLIP的两种变体作为视觉编码器，CLIP-res50和CLIP-Res50x4。Following LXMERT, we use the same corpora aggregated from MS COCO Captions, Visual Genome Captions, VQA, GQA, and VG-QA for pre-training.我们遵循相同的预处理程序，并从训练前数据集中排除任何测试数据。这导致了918万像素的图像-文本对（9.18M image-text pairs）。

为了提高计算效率，我们对图像使用了相对较小的分辨率。我们通过保留的长宽比，将图像中较短的边调整为384，将较长的边调整为640以下。在预训练过程中，由于图像补丁的数量较大，我们根据PixelBERT为每张图像随机抽取100个图像补丁。我们对该模型进行了20次迭代的预训练，并在预训练和微调过程中解冻了CLIP主干。

Task

为了进行评估，我们在三个V&L任务上调整了预先训练过的模型: VQA v2.0, visual entailment SNLI-VE,和GQA。

Results

As our model is based on $BERT_{BASE}$ , we compare only with models based on $BERT_{BASE}$ . The models are grouped by their visual encoder type.

LXMERT与我们的模型在相同的预训练数据集上进行训练，并且对相同数量的迭代次数进行训练，然而，我们使用CLIP-Res50的CLIP-ViLp在VQA上的表现超过了LXMERT 2.59分。

VinVL是基于区域的范式的一个极端扩展，该范式在多个对象检测数据集上进行了预先训练。然而，我们使用CLIP-Res50x4的模型在VQA上优于VinVL，同时需要明显更少的V&L预训练步骤。在GQA上，我们的模型的性能没有VinVL表现好。潜在的原因是GQA是由对象边界框数据自动构建的，这可能会给根据这些对象数据训练的基于区域的模型一个显著的优势。

Pixel-BERT 与我们的模型类似，但使用ImageNet初始化的ResNet。CLIP初始化显然比ImageNet初始化具有优势，CLIP-Res50显著优于用ImageNet-Res50的Pixel-bert。

5 ANALYSIS

Zero-Shot Performance of CLIP in VQA

在本文中，CLIP是一种零镜头模型，在各种视觉和图像检索任务上表现出较强的性能。因此，我们很好奇，CLIP是否也可以在可能需要复杂推理的V&L任务上执行零镜头模型。为了进行零拍摄图像分类，CLIP使用数据集中所有类的名称作为候选文本集，并预测最可能的（图像、文本）对。因此，我们在VQA上使用类似的设置，但将候选文本修改为每个问题的问答对的连接。 Moreover, Radford et al. (2021) find
a result improvement from prompt engineering.
我们按照这个设计，构建 “question:
[question text] answer: [answer text]”作为prompt template。VQA v2.0 mini-eval的结果如表7所示。所有的CLIP变体在零镜头设置中表现at near-chance level，而提示工程只有一点帮助。当问题变得更加困难时，CLIP模型的性能也更差 (“other” vs. “yes/no”)。所有这些结果表明需要一个深度交互模型和额外的预训练/微调。

Unfreezing the Visual Backbone

Because of technical difficulty in fine-tuning the object detector, most V&L models rely on frozen region-based encoders. However, we find that
unfreezing the visual backbone may bring performance improvement.

在VQA(test-dev)上测试两个CLIP特性的主干微调性能(即CLIP-Res50，CLIP-Res50x4)，并与冻结的BUTD-Res101特性进行比较。

在没有预训练的情况下，BUTD-Res101比CLIP-Res50获得了更高的性能。然而，经过V&L预训练后，CLIP-Res50的性能显著优于BUTD-Res101，因为CLIP-Res50从预训练中获益（+9.25）大于BUTD-Res101（+5.72）。这表明，在预训练期间解冻visual backbone可以使CLIP-Res50适应预训练的任务。我们希望我们的发现能够激发未来的工作，在计算预算允许的情况下，进一步探索解冻V&L模型中的visual backbone。

Low Detection Performance of CLIP-ViT-B

如表1和表2所示，与其他模型相比，具有网格特征的CLIP-ViT-B有较大的性能下降。We hypothesize
that such decrease is due to the lack of visual localization inside the ViT feature map since different
pooling strategies may affect the localization ability.
We thus train a detector on Visual Genome over the CLIP-ViT-B grid feature maps to confirm it.

Qualitative Comparison of CLIP Variants

如上所述，我们怀疑CLIP-ViT-B缺乏一定的定位能力。为了更好地理解这一点，我们执行了基于梯度的定位(Grad-CAM)来可视化CLIP模型的显著区域。图3中的定性例子清楚地显示了CLIP-Res50定位了“左边女人的衬衫是什么颜色的？”比CLIP-ViT-B更好。

6 Conclusions

在本文中，我们建议利用CLIP作为不同任务的不同V&L模型的视觉编码器。我们实验了两种方法：第一种，我们直接将CLIP插入特定任务的微调；第二种，我们将CLIP与V&L预训练集成，然后对下游任务进行微调。在不同的V&L任务上进行的各种大量实验表明，与强基线相比，CLIP-ViL和CLIP-ViLp可以实现具有竞争力或更好的性能。从不同的角度进行的分析解释了某些有趣的现象，并为未来的V&L研究提供了新的方向。

深度 |AI高质量数据集交易爆发式增长数智前沿数字化转型人工智能数据集
AI产业从通用模型向行业垂直应用快速融合下沉的阶段演进，人工智能三大基本要素之一数据，面临的高质量数据不足问题却凸显。财联社记者最新从业内获悉，目前各大模型企业迫切希望获得更多更好的高质量数据集，需求集中于头部企业行业知识底座构建，人工智能高质量数据集的需求量、交易量激增，已成为数据流通最活跃的领域。不过，高质量数据集的建设、流通环节均面临诸多问题，目前数据交易所并非模型语料最主要的采购途径。需求
轻量化分布式AGI架构：基于区块链构建终端神经元节点的互联网智脑探客木木夕分布式 agi 人工智能架构区块链
在2025年的技术发展背景下，轻量化分布式AGI架构正成为人工智能领域的重要突破方向。通过将终端设备转化为神经元节点，结合区块链技术构建去中心化的互联网智脑，不仅能够突破传统AGI开发的算力瓶颈，还能实现数据安全共享与价值分配。**这一架构将重塑人工智能的发展范式，使AGI能力从中心化实验室扩散至全球终端设备网络，最终形成一个去中心化、自演进、高可用的互联网级智能系统**。研究显示，通过知识密度提
写测试太烦？Copilot + Jest 让你 3 分钟搞定单元测试
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
基于迁移学习的多视图卷积神经网络在乳腺超声自动分类中的应用 despacito, 论文精读-乳腺超声分类
BREASTCANCERCLASSIFICATIONINAUTOMATEDBREASTULTRASOUNDUSINGMULTIVIEWCONVOLUTIONALNEURALNETWORKWITHTRANSFERLEARNINGYIWANG,*,1EUNJUNGCHOI,y,1YOUNHEECHOI,*HAOZHANG,*GONGYONGJIN,yandSEOK-BUMKO*TAGGEDEND*De
Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
开源模型应用落地-OpenAI Agents SDK-集成MCP与Qwen3-8B模型的创新应用探索（七）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术飞速发展的今天，如何将先进的模型和技术无缝结合，成为推动行业变革的关键。OpenAIAgents通过集成模型上下文协议（MCP）和阿里巴巴推出的Qwen3-8B模型，正开启一场智能应用的革命。这种创新的结合不仅提升了AI代理与外部工具之间的通信能力，还在多模态任务处理、个性化服务等领域展现出巨大潜力。本文将深入探讨这一技术组合的实际应用场景，揭示其在改善客户体验和提升运营效率
开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-探索output_guardrail的创意应用（六）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言随着人工智能技术的迅猛发展，大语言模型（LLM）在各行各业的应用日益广泛。然而，模型生成的内容是否安全、合规、符合用户预期，成为开发者和企业不可忽视的问题。为此，OutputGuardrail应运而生，作为一种关键的安全机制，它在模型生成结果之后进行内容审核与过滤，确保输出不偏离道德、法律和业务规范。通过检测不当的内容，不仅提升了AI系统的可信度，也为构建更加稳健和负责任的人工智能应用提供
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
开源模型应用落地-让AI更懂你的每一次交互-Mem0集成Qdrant、Neo4j与Streamlit的创新实践（四）开源技术探险家开源模型-实际应用落地 neo4j 开源人工智能语言模型
一、前言在人工智能迅速发展的今天，如何让AI系统更懂“你”？答案或许藏在个性化的记忆管理之中。Mem0作为一个开源的记忆管理系统，正致力于为AI赋予长期记忆与个性化服务能力。通过结合高性能向量数据库Qdrant、图数据库Neo4j的强大关系分析能力以及Streamlit的高效可视化交互，我们可以打造出一个既能存储用户历史行为、又能实时推理并展示结果的智能记忆助手。本文将带您一步步探索这一技术组合的
【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
反向传播神经网络极简入门自信哥
单个神经元神经网络是多个“神经元”（感知机）的带权级联，神经网络算法可以提供非线性的复杂模型，它有两个参数：权值矩阵{Wl}和偏置向量{bl}，不同于感知机的单一向量形式，{Wl}是复数个矩阵，{bl}是复数个向量，其中的元素分别属于单个层，而每个层的组成单元，就是神经元。神经元神经网络是由多个“神经元”（感知机）组成的，每个神经元图示如下：这其实就是一个单层感知机，其输入是由和+1组成的向量，其
1.线性神经网络--线性回归温柔济沧海深度学习神经网络线性回归 python
1.1从零实现线性回归importrandomimporttorch#fromd2limporttorchasd2limportmatplotlib.pyplotaspltdeftrain_data_make(batch_size,X,y):num_examples=len(X)idx=list(range(num_examples))#生成0-999random.shuffle(idx)#样本需
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
跨平台ZeroMQ：在Rust中使用zmq库的完整指南涵树_fx 架构设计 Rust 实战 rust 开发语言后端
“消息就像神经元间的电信号，而ZeroMQ就是那个让系统思考的神经网络”——某个深夜调试zmq的程序员当你需要轻量级、高性能的进程间通信时，ZeroMQ就像代码世界里的瑞士军刀。今天我们一起探索如何在Rust生态中使用这把利器，感受它如何在不同操作系统间架起通信的桥梁。安装ZeroMQ：三大操作系统的通关秘籍Linux(Debian/Ubuntu)sudoaptupdatesudoaptinsta
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
【机器学习笔记Ⅰ】13 正则化代价函数
正则化代价函数（RegularizedCostFunction）详解正则化代价函数是机器学习中用于防止模型过拟合的核心技术，通过在原始代价函数中添加惩罚项，约束模型参数的大小，从而提高泛化能力。以下是系统化的解析：1.为什么需要正则化？过拟合问题：当模型过于复杂（如高阶多项式回归、深度神经网络）时，可能完美拟合训练数据但泛化性能差。解决方案：在代价函数中增加对参数的惩罚，抑制不重要的特征权重。2.
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
PyTorch 的 torch.nn 模块学习
torch.nn是PyTorch中专门用于构建和训练神经网络的模块。它的整体架构分为几个主要部分，每部分的原理、要点和使用场景如下：1.nn.Module原理和要点：nn.Module是所有神经网络组件的基类。任何神经网络模型都应该继承nn.Module，并实现其forward方法。使用场景：用于定义和管理神经网络模型，包括层、损失函数和自定义的前向传播逻辑。主要API和使用场景：__init__
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一