CVHub

ConvNeXt-V2：当 MAE 遇见 ConvNeXt 会碰撞出怎样的火花？

本文首发于微信公众号 CVHub，不得以任何形式转载到其它平台，仅供学习交流，违者必究！

Title: ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

Author:Sanghyun Woo et al. (KAIST, Meta AI and New York University)

Paper: https://arxiv.org/pdf/2301.00808.pdf

Github: https://github.com/facebookresearch/ConvNeXt-V2

引言

受掩码自编码机制的启发，本文在 ConvNeXt 的架构基础上延伸出了一个完全卷积掩码自编码器框架——ConvNeXt V2，同时作者设计了一个全新的全局响应归一化(Global Response Normalization, GRN)层以增强原始 ConvNeXt 模块通道间的特征竞争，从而捕获更具有判别力的通道特征。

ConvNeXt V2 最终在各种识别基准上的性能，包括 ImageNet 分类、COCO 检测和 ADE20K 分割任务上均取得了极具竞争力的结果，其中最小的模型仅 3.7M 参数可获取 76.7% top-1 准确率，而最大的模型约 650M 参数则能达到 88.9% 准确率。

前情回顾

ConvNeXt

先来看下经典卷积神经网络的发展史：

紧接着 ViT 的提出带火了一众基于 Transformer 的模型：

然后便是 Swin Transformer received ICCV 2021 best paper award (Marr Prize)，一时间轰动~~华语乐坛~~视觉领域：

可以看出，Swin 其实是将传统 CNNs 三个重要的先验信息融入到了 Vision Transformer 的设计：

带局部窗口的注意力设计；
共享权重；
分层特征；

另一方面，我们从各大CV顶会接收的论文情况也能看出一些端倪：

可以发现，基于各种 **Former 的模型遍地开花，而基于传统的卷积神经网络几乎没有增长。当然，除了 idea 新颖外，基于 Transformer 的模型效果也确实惊艳，例如：

那么，这两者的本质区别在哪里呢？

首先，Transformer 模型由于缺乏固有的归纳偏置属性，这也意味着在小数据量的情况下它是很难“硬train一发”，因此大部分 Vision Transformer 模型训练的时候都会加入一堆 DataAug 和 Training Tricks，如果我们将这些 Tricks 应用到原始的 ResNet 上也能获得不错的性能增益：

好了，让我们看下 ConvNeXt 的设计思路是怎么样的：

整体设计遵循由粗粒度到细粒度的原则，可以看到，通过最终一步步的实验论证，ConvNeXt 的精度也随即提升，最终获得了完全可以媲美 Vision Transformer 的结果：

下面展示的是不同模块之间的结构对比图：

总的来说，ConvNeXt 是一个基于纯 ConvNets 的网络结构设计，其通过借鉴 Vision Transformer 的一些优化技巧，在 ResNet 的基础上一步步扎实的进行实验论证，最终获得了一个极具实际应用价值的网络结构模型，最终实现了优于 Swin Transformers 的性能，同时保持了标准 ConvNets 的简单性和效率，非常值得大家伙借鉴。

MAE

MAE 想必大家伙都认识了，毕竟CV界盛传的一句经典谚语——“凯明出品，必属精品”！自编码器一开始是应用在 NLP 领域，例如 BERT 模型便是被提出应用在句子的不同部分屏蔽单词，并尝试通过预测要填充到空白处的单词来重建完整的句子。因此自然而然的一个想法便是是否可以将这一想法嫁接到计算机视觉领域。

作为CV界的头号种子选手，老何当然是不负众望，凭借着多年来异常敏锐的嗅觉，不费吹灰之力便提出了一种使用自编码器对计算机视觉模型进行自监督预训练的新方法：

在 MAE 中，作者提倡使用非常高的遮挡率，例如 75%，这能带来两个好处：

训练速度提升3倍，因为模型仅需处理更少(unmasked)的图像块；
强迫模型学习出泛化能力，提高特征提取的能力；

此处，这是一个非对称的编解码器，这意味着其应用了一个相当轻量的解码器，而编码器的输出便是输入图像块的潜在向量表示。而 MAE 的关键步骤之一便是利用解码器重建初始图像，其中每个掩码标记都是一个共享的学习向量，表示存在缺失的补丁。解码器则接收潜在表示以及掩码标记作为输入，并输出每个补丁的像素值，包括掩码。根据此信息，可以将原始图像拼凑在一起，以根据用作输入的掩码图像形成完整图像的预测版本。

一旦重建了目标图像，我们只需测量它与原始输入图像的差异并将其用作损失执行反向传播即可。最终，当模型训练完成后，解码器将会被丢弃掉，只保留编码器部分，以供下游任务使用。

本文方法

动机

上面我们提到过，ConvNeXt 架构是对传统的 ConvNet 进行的一次现代化改造，作者证明了纯卷积模型也可以成为像 Vision Transformer 一样的可扩展架构。然而，探索神经网络架构设计空间的最常用方法仍然是通过在 ImageNet 上对监督学习性能进行基准测试。

近年来，自监督学习也是非常热门，相比之下，自监督学习不需要任何人工创建的标签。顾名思义，模型学会自我监督。在计算机视觉中，对这种自监督进行建模的最常见方法是对图像进行不同裁剪或对其应用不同的增强，并将修改后的输入传递给模型。即使图像包含相同的视觉信息但看起来不一样，我们让模型学习这些图像仍然包含相同的视觉信息，即相同的对象。这导致模型为相同的对象学习相似的潜在表示（输出向量）。特别地，MAE 的提出成功地将掩码语言建模成功带到了视觉领域，并迅速成为视觉表示学习的流行方法。然而，自监督学习中的一种常见做法是使用为监督学习设计的预定架构，并假设模型架构是固定的。例如，MAE 是基于 ViT 开发的。

既然 ConvNeXt 和 MAE 有这么大的优势，那么简单将 MAE 的思想套在 ConvNeXt 上会有什么问题呢？首先，正如上述所说，MAE 有一个特定的编解码器设计，是专门针对 Transformer 的序列处理能力进行了优化，这使得计算量大的编码器可以专注于可见的补丁，从而降低预训练成本。此设计可能与使用密集滑动窗口的标准 ConvNet 不兼容。此外，如果不考虑体系结构和训练目标之间的关系，则很大可能获取不到最佳性能。事实上，相关研究表明，使用基于掩码的自监督学习训练 ConvNets 是比较困难的，并且 Transformers 和 ConvNets 本质上提取到的特征本身就没有良好的兼容性。

因此，本文的重点便是探讨如何在同一框架下共同设计网络架构和掩码自编码器，目的是使基于掩码的自监督学习对 ConvNeXt 模型有效，并获得与使用 Transformer 相当的性能。

具体地，在设计 MAE 时，作者将 mask 输入视为一组稀疏补丁，同时使用稀疏卷积仅处理可见部分，这点跟原始的 MAE 保持一致。这个想法的灵感来自于在处理大规模 3D 点云时所采用的稀疏卷积一致。在实践中，我们可以用稀疏卷积实现 ConvNeXt，在微调时，权重被转换回标准的密集层，不需要特殊处理。为了进一步提高预训练效率，作者应用了单个 ConvNeXt 块替换了原始的基于 Transformer 的解码器，使整个设计完全卷积化。最后，作者对 ConvNeXt 的不同训练配置进行特征空间分析。当直接在掩码输入上训练 ConvNeXt 时，会发现 MLP 层的潜在特征崩溃问题。为了解决这个问题，本文额外设计了一个全新的 Global Response Normalization 层来鼓励通道间的特征竞争。

FCMAE

上图左半部分展示了一种全卷积掩码自编码器 (FCMAE)。它是由一个基于稀疏卷积的 ConvNeXt 编码器和一个轻量级的 ConvNeXt 块解码器组成。整体来看，这是一个非对称的编解码器。其中编码器仅处理可见像素，解码器则使用编码像素和掩码标记重建图像，损失仅在 mask 区域上计算，与 MAE 保持一致。大家可以明显的看出本文方法在概念上很简单，并且以纯卷积的方式运行。学习信号是通过以高屏蔽率随机屏蔽原始输入视觉效果并让模型在给定剩余上下文的情况下预测缺失部分来生成的。下面让我们拆解下整个网络结构具体看看作者作出了什么改进和优化。

Masking

首先，本文使用 mask ratio 为 0.6 的随机 mask 策略，相对之下 MAE 是建议使用 0.75。由于卷积模型具有分层设计，其特征会在不同阶段被下采样，因此掩码在最后阶段生成并递归上采样到最精细的分辨率。为了在实践中实现这一点，作者从原始输入图像中随机删除 60% 的 32 × 32 patch，同时使用最少的数据增强，仅包括随机调整大小的裁剪策略。

Encoder design

ConvNeXt V2 顾名思义是使用 ConvNeXt 模型作为编码器。使 mask 图像建模有效的一个挑战是防止模型学习允许它从 mask 区域复制和粘贴信息的快捷方式。这在基于 Transformer 的模型中相对容易防止，它可以将可见补丁作为编码器的唯一输入。然而，使用 ConvNets 其实是比较难实现这一点，因为必须保留 2D 图像结构。一种最简单的解决方案是在输入端引入可学习的掩码标记，如 BEiT 和 Simmim，但这些方法降低了预训练的效率并导致训练和测试时间不一致，因为在测试时没有掩码标记。特别是当遮挡率过高时问题便会尤其凸显。

为了解决这个问题，本文借鉴在 3D 任务中学习稀疏点云的道理，将 mask 图表示为一个二维的稀疏像素阵列。因此，一种自然而然的想法便是引入稀疏卷积，以促进 MAE 的预训练。在具体的代码实现中，我们可以将标准卷积层转换为稀疏卷积，这使得模型可以仅对可见数据点进行操作，而在 fine-tune 阶段，完全可以转换为标准卷积，而无需额外处理。作为替代方案，也可以在密集卷积运算之前和之后应用 binary masking operation。此操作在数值上与稀疏卷积等价，但理论上计算量更大些，不过在 TPU 等 AI 加速器上更友好。

Decoder design

同 MAE 一致，ConvNeXt V2 也采用轻量级的解码器设计。其次，作者还考虑了更复杂的解码器，例如分层解码器如 FPN 和 U-Net 或 ViT 和 MAE，不过最终的实验表明更简单的单个 ConvNeXt 块解码器效果其实就很不错了，而且还可以显著减少预训练时间，本文将将解码器的维度设置为 512。

Reconstruction target

这里目标重构的方式同 MAE 类似，也是采用 MSE 来衡量损失，目标是原始输入的 patch-wise 归一化图像，并且损失仅应用于 mask 过后的 patch。在具体的训练步骤中，作者基于 ImageNet-1K 数据集进行了 800 轮 epochs 的预训练并额外微调了 100 轮 epochs。

Global Response Normalization

如上所述，当直接在 mask 输入上训练 ConvNeXt 时，会导致特征崩溃的问题。为此，作者引入了一种全新的全局响应归一化层，以结合 ConvNeXt 架构使 FCMAE 预训练更加有效，下面让我们介绍下具体细节。

Feature collapse

为了更深入地了解学习行为，我们首先在特征空间中进行定性分析。具体的，可以将 FCMAE 预训练的 ConvNeXt-Base 模型的激活可视化，由此可以观察到一个有趣的“特征崩溃”现象：即存在许多饱和的特征图，并且激活在通道之间变得很多余。如下图所示，这些特征图可以通过可视化 ConvNeXt 块中的维度扩展 MLP 层中观察到：

Feature cosine distance analysis

上图展示了定量分析结果。为了执行此分析，本文随机选择 ImageNet-1K 验证集中不同类别的 1,000 张图像，并从不同模型的每一层提取高维特征，包括 FCMAE 模型、ConvNeXt 监督模型和 MAE 预训练 ViT 模型。随后作者计算了每个图像的每层距离，并对所有图像像素值求平均。从给出的结果图可以看出，FCMAE 预训练的 ConvNeXt 模型表现出明显的特征崩溃趋势，这与我们从之前的激活可视化中观察到的结果一致。这促使作者进一步考虑在学习过程中使特征多样化并防止特征崩溃的方法。

Approach

在这项工作中，全局响应归一化的引入主要旨在增加通道的对比度和选择性。具体地，给定一个输入特征 $ X \in R^{H×W×C} $，所提出的 GRN 单元包括三个步骤：

全局特征聚合;
特征归一化；
特征校准；

下面给出伪代码示例：

通过将 GRN 层整合到原始的 ConvNeXt 块中，我们可以得到下面的结构：

此外，作者发现，当应用 GRN 时，LayerScale 其实是没有必要的，因此在此版本中将其删掉。使用这种新的模块设计，我们可以创建具有不同效率和容量的各种模型，分别适用于不同的应用场景。

Impact of GRN

从图 3 中的可视化和图 4 中的余弦距离分析，我们可以观察到 ConvNeXt V2 有效地缓解了特征崩溃问题。其中余弦距离值一直很高，这表明跨层机制保持了特征的多样性。这种行为类似于 MAE 预训练的 ViT 模型。总体而言，这表明在类似的掩码图像预训练框架下，ConvNeXt V2 的学习行为可以类似于 ViT。

此外，当配备 GRN 时，FCMAE 预训练模型可以显着优于 300 个 epoch 的监督模型。GRN 通过增强特征多样性来提高表示质量，这在原始的 ConvNeXt 模型中是不存在的，但已被证明对于基于掩码的预训练至关重要。值得一提的是，这种改进是在不增加额外参数开销或增加 FLOPS 的情况下实现的。

Relation to feature normalization methods

如上表所示，作者将 GRN 与三个广泛使用的归一化层进行了比较，即局部响应归一化(LRN)、批量归一化(BN)和层归一化(LN)。从结果可以观察到只有 GRN 可以显着优于 baseline，这是由于：

LRN 缺乏全局上下文，因为它只对比附近领域的通道；
BN 沿批处理轴在空间上归一化，这不适用于 mask 输入；
LN 则通过全局均值和方差标准化隐含地鼓励特征竞争，但效果显然不如 GRN。

Relation to feature gating methods

另一种增强神经元间竞争的方法是使用动态特征门控方法，例如 SE 和 CBAM，一个注重通道，一种注重空间。这两个模块都可以增加单个通道的对比度，类似于 GRN 所做的。不过 GRN 显然更简单、更高效，因为它不需要额外的参数层（例如 FC 层）。

The role of GRN in pre-training/fine-tuning

最后我们可以看下 GRN 在预训练和微调中的重要性。从表格最后一栏可以看到，无论我们是从微调中删除 GRN，还是仅在微调时添加新初始化的 GRN，都可以观察到模型性能显着下降，这表明在预训练和微调中使用 GRN 层是非常有必要的。

实验

参数设置

Pre-training setting

End-to-end IN-1K fine-tuning setting for Atto (A), Femto (F), Pico § and Nano (N) models

End-to-end IN-1K fine-tuning setting for Tiny model

End-to-end IN-1K fine-tuning setting for Base (B), Large (L), and Huge (H) models

End-to-end IN-22K intermediate fine-tuning settings

End-to-end IN-1K fine-tuning settings (after IN-22K intermediate fine-tuning)

协同设计

可以发现，在不修改模型架构的情况下使用 FCMAE 框架对表示学习质量的影响有限。同样，新的 GRN 层对监督设置下的性能影响很小。然而，如果我们将两者结合起来使用可以令微调性能显着提高。

与 SOTA 方法对比

总结

在本文中，我们介绍了一个名为 ConvNeXt V2 的新 ConvNet 模型系列，一种更适合自监督学习而设计的新型网络架构。通过使用全卷积掩码自编码器预训练，可以显着提高纯 ConvNets 在各种下游任务中的性能，包括 ImageNet 分类、COCO 对象检测和 ADE20K 分割。

写在最后

如果您也对人工智能和计算机视觉全栈领域感兴趣，强烈推荐您关注有料、有趣、有爱的公众号『CVHub』，每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案！欢迎添加小编微信号:cv_huber，一起探讨更多有趣的话题！

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
第三章：网络安全基础——构建企业数字防线阿贾克斯的黎明网络安全 web安全安全
目录第三章：网络安全基础——构建企业数字防线3.1网络协议安全深度解析3.1.1TCP/IP协议栈安全漏洞图谱3.1.2关键安全协议剖析3.2网络攻击全景防御3.2.1OWASPTop102023最新威胁3.2.2高级持续性威胁(APT)防御3.3网络安全设备部署指南3.3.1下一代防火墙(NGFW)配置要点3.3.2IDS/IPS系统部署方案3.4企业网络架构安全设计3.4.1安全分区最佳实践3
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本