木羊子羽

自监督模型---MoCo

论文地址：Momentum Contrast for Unsupervised Visual Representation Learning

开源代码：PyTorch implementation of MoCo

摘要

该论文提出了动量对比度(MoCo)用于无监督的视觉表示学习。构建了一个带有一个队列和一个移动平均编码器的动态字典。这使得建立一个大的和一致的字典的动态，促进对比无监督学习。MoCo在ImageNet分类的通用线性协议下提供了有竞争的结果。更重要的是，MoCo学习到的表示可以很好地转移到下游任务中。MoCo可以在PASCAL VOC、COCO和其他数据集上的7个检测/分割任务中优于其有监督的训练，有时会大大超过它。这表明，在许多视觉任务中，无监督和监督表征学习之间的差距在很大程度上被缩小。

介绍

无监督表示学习在自然语言处理中非常成功，例如，如GPT和BERT所示。但是有监督的预训练在计算机视觉中仍然占主导地位，因为无监督的方法通常会落后。其原因可能是由于它们各自的信号空间的不同。语言任务具有离散的信号空间（单词、子词单位等）。用于构建标记化字典，它可以基于无监督学习。相比之下，计算机视觉进一步关注字典构建，因为原始信号是在一个连续的高维空间中，并不是为人类交流而构建的结构（例如，不像单词）。

最近的几项研究在使用与对比损失相关的方法进行无监督视觉表征学习方面提供了有希望的结果。尽管受到各种动机的驱动，但这些方法可以被认为是构建动态字典。字典中的“键”（tokens）从数据（例如，图像或patches）中采样，并由编码器网络表示。无监督学习训练编码器来执行字典查找：一个编码的“查询”应该与它的匹配键相似，而与其他键不同。学习被表述为最小化对比损失。

从这个角度来看，我们假设构建字典：(i)大的，(ii)在训练期间随着改变。直观地说，一个更大的字典可以更好地采样底层的连续的、高维的视觉空间，而字典中的键应该由相同或相似的编码器表示，以便它们与查询的比较是一致的。然而，使用对比损失的现有方法在这两个方面之一被限制。

我们提出了动量对比(MoCo)，作为一种构建大型和一致的学习字典的方法，用于具有对比损失的无监督学习（图1）。我们将字典维护为数据样本队列：当前小批量的编码表示入队，最旧的出队。队列将字典大小与小批量大小解耦，允许它很大。此外，由于字典键来自前面的几个小批量，因此提出了一种缓慢进展的键编码器，实现为查询编码器的基于动量的移动平均值，以保持一致性。

动量对比度(MoCo)通过使用对比度损失将编码的查询q与编码键的字典匹配来训练视觉表示编码器。字典键{k0、k1、k2、……}是由一组数据样本动态定义的。字典被构建为一个队列，当前的小批进入队列，最古老的小批移除队列，将其与小批量大小解耦。keys由一个缓慢发展的编码器编码，由查询编码器的动量更新驱动。这种方法可以使用一个大而一致的字典来学习视觉表示。

MoCo 是一种为对比学习构建动态词典的机制，可用于各种借口任务(pretext tasks)。在本文中，我们遵循一个简单的实例判别任务：如果它们是同一图像的编码视图（例如，不同的裁剪），则查询匹配一个键。使用这个借口任务，MoCo在ImageNet 数据集中的线性分类通用协议下显示了有竞争力的结果。

无监督学习的一个主要目的是预训练可以通过微调转移到下游任务的表示（即特征）。我们表明，在与检测或分割相关的 7 个下游任务中，MoCo 无监督预训练可以超越其 ImageNet 监督对应物，在某些情况下，差距不小。在这些实验中，我们探索了在 ImageNet 或 10 亿张 Instagram 图像集上预训练的 MoCo，证明 MoCo 可以在更真实的、10 亿张图像规模和相对未经处理的场景中很好地工作。这些结果表明，MoCo 在很大程度上缩小了许多计算机视觉任务中无监督和有监督表示学习之间的差距，并且可以在多个应用中作为 ImageNet 监督预训练的替代方案。

方法

对比学习作为字典查找

对比学习及其最近的发展，可以被认为是为字典查找任务训练编码器，如下所述。考虑一个编码查询 q 和一组编码样本 {k0, k1,k2, ...}（即字典的键）。

考虑一个编码的查询q和一组编码的样本{k0k1k2…}，它们是字典的键。假设在字典中有一个q匹配的键(记为k+)。对比损失是一个函数，当q与正键k+相似，而与所有其他键不同(被认为是q的负键)时，它的值较低。利用点积度量相似性，本文考虑了一种对比损失函数的形式，称为InfoNCE：

import torch.nn as nn

criterion = nn.CrossEntropyLoss()


output, target = model(im_q=images[0], im_k=images[1])
loss = criterion(output, target)

其中，τ是每个的温度超参数。这个总和超过一个正样本和K个负样本。直观地说，这种损失是一个(k+1)方式的基于softmax的分类器的对数损失，该分类器试图将q分类为k+。对比损失函数也可以基于其他形式的，如基于保证margin-based的损失和NCE损失的变体。

对比损失作为一个无监督的目标函数来训练表示查询和关键[29]的编码器网络。一般来说，查询表示是，其中fq是一个编码器网络，xq是一个查询样本(同样，)。它们的实例化取决于具体的借口任务。输入的xq和xk可以是图像、补丁，或包含一组补丁的上下文。网络fq和fk可以是相同的，部分共享的，或不同的。

动量对比

从上述角度来看，对比学习是一种在图像等高维连续输入上构建离散字典的一种方法。字典是动态的，因为keys是随机采样的，并且keys编码器在训练过程中优化。我们的假设是，好的特征可以通过一个包含大量负样本的大型字典来学习，而字典键的编码器尽管还在优化，但仍尽可能地保持一致。基于这个动机，我们将呈现出下面所描述的动量对比。

字典作为队列。我们方法的核心是将字典作为数据样本队列。这允许我们重用前面的小批中的编码keys。队列的引入可以将字典大小与小批处理大小解耦。我们的字典大小可以比一个典型的小批量大小大得多，并且可以灵活地、独立地设置为一个超参数。

字典中的样本逐渐被替换。当前的小批将被排队到字典中，队列中最老的小批将被删除。字典总是表示所有数据的一个采样子集，而维护此字典的额外计算是可管理的。此外，删除最古老的小批处理可能是有益的，因为它的key编码器是最过时的，因此与最新的key编码器最不一致。(最新的momentum encoder 参数通过学习已经优化了，而最开始得到的keys其momentum encoder 是没有优化或者说次优化的)。

动量更新。使用队列可以使字典变大，但它也使通过反向传播更新键编码器变得困难（梯度应该传播到队列中的所有样本）。一个 “na¨ıve”解决方案是从查询编码器fq复制key编码器fk(即两个网络参数共享)，忽略这个梯度。但是这个解决方案在实验中产生的结果很差。我们假设，这种失败是由快速变化的编码器，减少了key 表示的一致性。我们建议动量更新来解决这个问题。形式上，fk参数为θk，fq参数为θq，我们更新θk：

这里的m∈[0,1)是一个动量系数。只有参数θq才会通过反向传播进行更新。源码里面使用的是两个相同的编码器:

@torch.no_grad()
 def _momentum_update_key_encoder(self):
     """
     Momentum update of the key encoder
     """
     for param_q, param_k in zip(self.encoder_q.parameters(), self.encoder_k.parameters()):
         param_k.data = param_k.data * self.m + param_q.data * (1. - self.m)

动量更新使θk比θq进化得更顺利。因此，尽管队列中的key由不同的编码器编码，但这些编码器之间的差异可以很小。在实验中，一个相对较大的动量(例如，m=0.999，我们的默认值)比一个较小的值(例如，m=0.9)要好得多，这表明一个缓慢优化的key编码器(slowly evolving key encoder)是利用队列的核心。

与以前的机制之间的关系。MoCo是使用对比损失的一般机制。我们将其与图2中两种现有的通用机制进行了比较。它们在字典的大小和一致性上表现出不同的属性。

三种对比损失机制的概念性比较。这里我们将举例说明一对查询和密钥。这三种机制在如何维护密钥和如何更新密钥编码器方面有所不同。 (a): 用于计算查询和密钥表示的编码器通过反向传播进行端到端进行更新（这两个编码器可以有所不同）。 (b): 密钥表示法从内存库中采样。 (c): MoCo通过一个动量更新的编码器动态地对新键进行编码，并维护一个键的队列（图中没有说明）。

通过反向传播进行的端到端更新是一种自然的机制(图2a)。它使用当前小批处理中的示例作为字典，因此keys被一致地编码（由相同的一组编码器参数编码）。但是字典的大小与小批量的大小相结合，受到GPU内存大小的限制。它也受到了大型小批量优化的挑战。最近的一些方法是基于由局部位置驱动的借口任务，其中多个位置可以使字典的大小变大。但是这些借口任务可能需要特殊的网络设计，如细化输入或定制接受场大小，这可能会使这些网络向下游任务的转移复杂化。

另一种机制是提出的内存库方法(图2b)。内存库由数据集中所有样本的表示组成。每个小批处理的字典都是从内存库中随机抽样的，没有反向传播，因此它可以支持一个大的字典大小。但是，存储库中样本的表示在上次看到时已更新，因此采样的keys本质上是关于过去 epoch 中多个不同步骤的编码器，因此不太一致。有些方法的记忆库上采用了动量更新。它的动量更新是在同一样本的表示上，而不是在编码器上。这种动量更新与我们的方法无关，因为 MoCo 不会跟踪每个样本。此外，我们的方法更节省内存，并且可以在十亿规模的数据上进行训练，这对于内存库来说是难以处理的。

# f_q, f_k: encoder networks for query and key
# queue: dictionary as a queue of K keys (CxK) # m: momentum
# t: temperature
f_k.params = f_q.params # initialize
for x in loader: # load a minibatch x with N samples
    x_q = aug(x) # a randomly augmented version
    x_k = aug(x) # another randomly augmented version

    q = f_q.forward(x_q) # queries: NxC
    k = f_k.forward(x_k) # keys: NxC
    k = k.detach() # no gradient to keys

    # positive logits: Nx1
    l_pos = bmm(q.view(N,1,C), k.view(N,C,1))

    # negative logits: NxK
    l_neg = mm(q.view(N,C), queue.view(C,K))

    # logits: Nx(1+K)
    logits = cat([l_pos, l_neg], dim=1)
    # contrastive loss, Eqn.(1)
    labels = zeros(N) # positives are the 0-th
    loss = CrossEntropyLoss(logits/t, labels)

    # SGD update: query network
    loss.backward()
    update(f_q.params)

    # momentum update: key network
    f_k.params = m*f_k.params+(1-m)*f_q.params

    # update dictionary
    enqueue(queue, k) # enqueue the current minibatch
    dequeue(queue) # dequeue the earliest minibatch

借口任务(Pretext Task)

对比学习可以驱动各种借口任务。由于本文的重点不是设计一个新的借口任务，我们主要在中的实例识别任务之后使用一个简单的借口任务。

在之后，如果一个查询和一个键来自同一图像，则我们将它们视为正对，否则我们将它们视为负样本对。在之后，我们在随机数据增强下对同一图像进行两个随机的“视图”，形成一个正对。查询和键分别由它们的编码器fq和fk进行编码。该编码器可以是任何卷积神经网络。

对于当前的小批处理，我们对查询及其相应的键进行编码，它们形成了正样本对。阴性样本来自于队列。

技术细节。我们采用ResNet作为编码器，其最后一个全连接层（在全局平均池化之后）具有固定维的输出(128-D)。这个输出向量由它的l2-范数进行归一化。这是查询或键的表示形式。InfoNCE等式中的温度τ被设置为0.07。数据增强设置遵循：从一个随机调整大小的图像中提取224×224像素的裁剪，然后进行随机颜色抖动、随机水平翻转和随机灰度转换。

Shufflfling BN。我们的编码器fq和fk都有批处理归一化(BN)，就像在标准的ResNet中一样。在实验中，我们发现使用BN可以阻止模型学习良好的表示，就像在中所报道的那样(它避免了使用BN)。该模型似乎“欺骗”借口任务，容易找到低损失的解决方案。这可能是因为样品之间的批内通信(由BN引起)会泄漏信息。

我们通过变换BN来解决这个问题。我们使用多个GPU进行训练，并为每个GPU独立地对样本执行BN（如通常做法那样）。对于关键编码器fk，我们在将其分配到gpu之间之前，在当前的小批中打乱样本顺序（并在编码后打乱）；查询编码器fq的小批量的样本顺序没有改变。这确保了用于计算查询及其正键的批处理统计信息来自两个不同的子集。这有效地解决了作弊问题，并允许训练受益于BN。

实验略。

总结

我们的方法在各种计算机视觉任务和数据集中显示了无监督学习的积极结果。有一些开放式的问题值得讨论。MoCo从IN-1M到IG-1B的改进始终是明显的，但相对较小，这表明更大规模的数据可能没有得到充分利用。我们希望一项先进的借口任务能改善这一点。除了简单的实例识别任务之外，还可以采用MoCo来进行掩码自动编码等借口任务。我们希望MoCo能够用于处理其他涉及对比学习的借口任务。

AIGC视觉生成革命：文生图、图生图与视频生成垂直模型发展全景报告（2025） Liudef06小白 AIGC 人工智能 AI作画语言模型
一、引言：从实验工具到产业引擎的跃迁人工智能生成内容（AIGC）技术正经历从文本向多模态的范式转移。2023-2025年间，文生图、图生图与视频生成垂直模型逐步跨越技术奇点，从实验室玩具进化为工业化生产力工具。这一进程的核心驱动力在于架构创新、数据优化与场景深耕的三重突破：扩散模型与Transformer的融合催生了更高保真度的图像生成；十亿级多模态数据训练解决了复杂语义理解难题；而面向影视、电商
【一起来学AI大模型】支持向量机（SVM）：核心算法深度解析运器123 AI大模型支持向量机机器学习人工智能 ai 大数据 AI编程算法
一、算法核心思想支持向量机（SVM）是一种强大的监督学习算法，核心思想是通过寻找最优超平面实现分类或回归：分类目标：找到能最大化两类数据间隔的超平面回归目标：找到包含最多数据点的ε带关键概念图解超平面：w·x+b=0/\/\+1|支持向量|-1|●●||●●||●●||_________________|最大间隔(margin)二、数学原理与优化问题1.线性可分情况目标函数：\min_{w,b}\
[论文阅读] 人工智能 | 读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法张较瘦_ 前沿技术论文阅读人工智能
读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法论文标题：Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsarXiv:2507.02533Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsMiguelRomero-Arjona,JoséA.Parejo,Jua
深度 |AI高质量数据集交易爆发式增长数智前沿数字化转型人工智能数据集
AI产业从通用模型向行业垂直应用快速融合下沉的阶段演进，人工智能三大基本要素之一数据，面临的高质量数据不足问题却凸显。财联社记者最新从业内获悉，目前各大模型企业迫切希望获得更多更好的高质量数据集，需求集中于头部企业行业知识底座构建，人工智能高质量数据集的需求量、交易量激增，已成为数据流通最活跃的领域。不过，高质量数据集的建设、流通环节均面临诸多问题，目前数据交易所并非模型语料最主要的采购途径。需求
轻量化分布式AGI架构：基于区块链构建终端神经元节点的互联网智脑探客木木夕分布式 agi 人工智能架构区块链
在2025年的技术发展背景下，轻量化分布式AGI架构正成为人工智能领域的重要突破方向。通过将终端设备转化为神经元节点，结合区块链技术构建去中心化的互联网智脑，不仅能够突破传统AGI开发的算力瓶颈，还能实现数据安全共享与价值分配。**这一架构将重塑人工智能的发展范式，使AGI能力从中心化实验室扩散至全球终端设备网络，最终形成一个去中心化、自演进、高可用的互联网级智能系统**。研究显示，通过知识密度提
写测试太烦？Copilot + Jest 让你 3 分钟搞定单元测试
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Python 训练营打卡 Day 46 2401_86382089 Python打卡 python
通道注意力一、什么是注意力注意力机制是一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。transformer中的叫做自注意力机制，他是一种自己学习自己的机制，他可以自动学习到图片中的主体，并忽略背景。我们现在说的很多模块，比如通道注意力、空间注意力、通道注意力等等，都是基于自注意力机制的。从数学角度看，注意力机制是对输入特征进行加权求
Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
数据结构 ---- 静态链表
作为数据结构的一大难点，静态链表也为我们更好的理解数据结构这门课做了铺垫。记得老师告诉我们，数据结构是操作系统的核心，那静态链表也为我们理解操作系统等方面的工程起了很好的铺垫作用。对于静态链表，我个人的主观感受就是，比双链表要难许多，毕竟是涉及到数据更加基本的存储，静态链表其实更能反映其本质，也更能体现出C语言本身的魅力。与此同时，静态链表带给我的直观感受是，它其实对于我们程序员来说，具有更强的自
基于Flutter的web登录设计 aiprtem Flutter web 嵌入式Linux flutter 前端
基于Flutter的web登录设计1.概述本文档详细介绍了基于FlutterWeb的智能家居系统登录模块的设计与实现。登录模块作为系统的入口，不仅提供了用户身份验证功能，还包括注册新用户的能力，确保系统安全性的同时提供良好的用户体验。本文档中的前端代码示例摘录自项目中的smarthomefe目录，后端服务代码摘录自fcgiServer目录。这些代码共同构成了完整的登录系统实现。项目源码：https
振动分析常用的频谱类型 m0_55576290 工作一二三信号与系统振动分析
文章目录振动分析常用的频谱类型1.幅值谱（AmplitudeSpectrum）-最常用2.功率谱密度（PSD）-用于随机信号3.自功率谱（AutoPowerSpectrum）振动分析中的选择原则.振动分析中的频谱选择建议故障诊断→幅值谱模态分析→自功率谱随机振动→功率谱密度宽动态范围→对数坐标实际应用中的处理方法总结振动分析常用的频谱类型1.幅值谱（AmplitudeSpectrum）-最常用%幅
开源模型应用落地-OpenAI Agents SDK-集成MCP与Qwen3-8B模型的创新应用探索（七）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术飞速发展的今天，如何将先进的模型和技术无缝结合，成为推动行业变革的关键。OpenAIAgents通过集成模型上下文协议（MCP）和阿里巴巴推出的Qwen3-8B模型，正开启一场智能应用的革命。这种创新的结合不仅提升了AI代理与外部工具之间的通信能力，还在多模态任务处理、个性化服务等领域展现出巨大潜力。本文将深入探讨这一技术组合的实际应用场景，揭示其在改善客户体验和提升运营效率
开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-探索output_guardrail的创意应用（六）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言随着人工智能技术的迅猛发展，大语言模型（LLM）在各行各业的应用日益广泛。然而，模型生成的内容是否安全、合规、符合用户预期，成为开发者和企业不可忽视的问题。为此，OutputGuardrail应运而生，作为一种关键的安全机制，它在模型生成结果之后进行内容审核与过滤，确保输出不偏离道德、法律和业务规范。通过检测不当的内容，不仅提升了AI系统的可信度，也为构建更加稳健和负责任的人工智能应用提供
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
开源模型应用落地-让AI更懂你的每一次交互-Mem0集成Qdrant、Neo4j与Streamlit的创新实践（四）开源技术探险家开源模型-实际应用落地 neo4j 开源人工智能语言模型
一、前言在人工智能迅速发展的今天，如何让AI系统更懂“你”？答案或许藏在个性化的记忆管理之中。Mem0作为一个开源的记忆管理系统，正致力于为AI赋予长期记忆与个性化服务能力。通过结合高性能向量数据库Qdrant、图数据库Neo4j的强大关系分析能力以及Streamlit的高效可视化交互，我们可以打造出一个既能存储用户历史行为、又能实时推理并展示结果的智能记忆助手。本文将带您一步步探索这一技术组合的
【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
SQLite和MySQL数据库的区别与应用坚持学习的小菜鸟数据库
简单来说，SQLITE功能简约，小型化，追求最大磁盘效率；MYSQL功能全面，综合化，追求最大并发效率。如果只是单机上用的，数据量不是很大，需要方便移植或者需要频繁读/写磁盘文件的话，就用SQLite比较合适；如果是要满足多用户同时访问，或者是网站访问量比较大是使用MYSQL比较合适。下面详细介绍两者的区别和应用：SQLiteSQLite是非凡的数据库，他可以进程在使用它的应用中。作为一个自包含、
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
【机器学习笔记 Ⅱ】11 决策树模型巴伦是只猫机器学习机器学习笔记决策树
决策树模型（DecisionTree）详解决策树是一种树形结构的监督学习模型，通过一系列规则对数据进行分类或回归。其核心思想是模仿人类决策过程，通过不断提问（基于特征划分）逐步逼近答案。1.核心概念节点类型：根节点：起始问题（最佳特征划分点）。内部节点：中间决策步骤（特征判断）。叶节点：最终预测结果（类别或数值）。分支：对应特征的取值或条件判断（如“年龄≥30？”）。2.构建决策树的关键步骤(1)
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

自监督模型---MoCo

摘要

介绍

方法

总结

你可能感兴趣的:(自监督,深度学习,计算机视觉,人工智能)