有为少年

卷积操作改进之Involution: Inverting the Inherence of Convolution for Visual Recognition

Involution: Inverting the Inherence of Convolution for Visual Recognition

原始文档：https://www.yuque.com/lart/papers/frxyq3#FVXRR

文章目录

Involution: Inverting the Inherence of Convolution for Visual Recognition
- 前言
- 具体实现
- 文章动机
- - 传统卷积
  - Involution的提出
  - Involution与传统卷积
  - RedNet
- 相关内容
- - 动态卷积
  - Unfold
  - - 简单的例子——单通道输入
    - 稍微复杂一点的例子——多通道输入
    - 与卷积的关系
- 链接

卷积操作改进之Involution: Inverting the Inherence of Convolution for Visual Recognition_第1张图片

前言

这是一篇改进卷积操作的论文，实际上是一种仍然是一种卷积参数与特征相关的动态卷积网络（Dynamic Convolution Networks）。

具体实现

由于卷积参数动态生成自特征，而且也不再是标准卷积那种局部处理的策略，所以在实现起来需要有些额外的技巧。

本文的实现中，作者提供了两种手段，一种是基于pytorch自身的unfold方法（https://github.com/d-li14/involution/blob/main/cls/mmcls/models/utils/involution_naive.py）和相乘求和，而另一种是直接使用cuda手动编写特征与生成的卷积核之间的整合过程（https://github.com/d-li14/involution/blob/main/cls/mmcls/models/utils/involution_cuda.py）。

而基于unfold的实现方法实际上理解起来非常简单，这里直接从代码入手，先看看这份工作到底怎么做的：

import torch.nn as nn
from mmcv.cnn import ConvModule


class involution(nn.Module):
    def __init__(self, channels, kernel_size, stride):
        super(involution, self).__init__()
        self.kernel_size = kernel_size
        self.stride = stride
        self.channels = channels
        reduction_ratio = 4
        self.group_channels = 16
        self.groups = self.channels // self.group_channels

        self.conv1 = ConvModule(in_channels=channels,
                                out_channels=channels // reduction_ratio, kernel_size=1,
                                conv_cfg=None, norm_cfg=dict(type="BN"), act_cfg=dict(type="ReLU"))
        self.conv2 = ConvModule(in_channels=channels // reduction_ratio,
                                out_channels=kernel_size ** 2 * self.groups,
                                kernel_size=1, stride=1, conv_cfg=None, norm_cfg=None, act_cfg=None)
        if stride > 1:
            self.avgpool = nn.AvgPool2d(stride, stride)
        self.unfold = nn.Unfold(kernel_size, 1, (kernel_size - 1) // 2, stride)

    def forward(self, x):
        weight = self.conv2(self.conv1(x if self.stride == 1 else self.avgpool(x)))
        b, c, h, w = weight.shape
        weight = weight.view(b, self.groups, self.kernel_size ** 2, h, w).unsqueeze(2)
        out = self.unfold(x).view(b, self.groups, self.group_channels, self.kernel_size ** 2, h, w)  # 组内共享卷积核
        out = (weight * out).sum(dim=3).view(b, self.channels, h, w)
        return out

这里的实现中依赖了pytorch的一个非常重要的方法，就是 unfold ，该方法的主要功能就是实现了卷积的滑窗操作，每一次窗口中的数据会被收集到并堆叠到通道维度上，即dim=1上。

实际上的它的主要参数和卷积也基本一致，就是 kernel_size, stride, padding, dilation 这些。关于 unfold 的简单介绍可见后文。

这里可以看到，对于生成卷积权重的过程使用了一个简单的 Conv-BN-ReLU-Conv 的结构，生成权重tensor后对其进行reshape操作，按照Line26和Line27的内容可以理解，这里实际上构造了一种动态的分组卷积。针对输入特征x，在 unfold 收集滑窗数据并堆叠到通道维度上后(就是 b, self.groups, self.group_channels, self.kernel_size ** 2, h, w 这里的 self.groups, self.group_channels, self.kernel_size ** 2 这部分所指代的数据)，这里堆叠数据进行了拆分，将原始的通道中的数据进行分组，对于组里每一通道的滑窗数据共享同一个卷积核（即weight在 self.group_channels 对应的维度上是使用相同的广播得到的数据）。

对权重和调整后的x进行乘法（这里用的是元素乘法后累和，和后面介绍 unfold 中提到的矩阵乘法在思想上是一致的，都是在进行卷积中的加权求和）。

总体而言，这里的involution操作可以被称为动态的（空间不共享）、分组（组内共享）的卷积。（感觉这里应该整理下不同方法的差异了，其实已经有一些论文出现了类似的构造，例如CARAFE中实际上是一种动态的深度分离的卷积）。

既然已经知道了核心操作的过程，那么接下来我们需要了解的是，这么一个概念，作者是怎么思考或者展示的。

文章动机

传统卷积

从传统图像滤波方法中可以了解到，卷积核具有两个引人注目的特性，这些特性有助于其吸引力（magnetism）和流行性（popularity），即，与空间无关(spatial-agnostic)和特定于通道(channel-specific)。

在空间范围内，前一属性通过在不同位置之间重用卷积核来保证卷积核的效率，并且追求变换等效性[translation equivalence: Making convolutional networks shift-invariant again]。
在通道域中，一系列（a spectrum of）卷积核负责收集在不同通道中编码的各种信息，满足着后一特性。

自开创性的VGG问世以来，神经网络通过将卷积核的空间跨度限制为不超过3x3的区域，从而追求卷积核的紧凑性。但是这也带来了一些问题：

一方面，尽管spatial-annostic以及spatial-compact的性质在提高效率和解释translation equivalence方面是有意义的，但它剥夺了卷积核适应于不同空间位置的各种视觉模式的能力。此外，局部性(locality)限制了卷积的感受野，这给在单次滑窗处理中就想要捕获长距离空间交互带来了挑战。
另一方面，众所周知，卷积滤波器内部的通道间(inter-channel)冗余在许多成功的深度神经网络中都非常突出[Speeding up convolutional neural networks with low rank expansions]，这使得卷积核的较大灵活性（对于不同通道而言）受到质疑。

Involution的提出

为了克服以上局限，这里提出了involution，这种实现正好是相对于卷积的两种属性的各自的反面，即实现了spatial-specific和channel-agnostic。具体而言，involution核对于空间各个位置是不同的，但是在通道上确是共享的。

受spatial-specific这一属性的限制，如果involution核被参数化为固定大小的矩阵（例如卷积核那样）并使用反向传播算法进行更新，则将阻止学习到的卷积核在具有可变分辨率的输入图像之间的迁移使用。在处理可变特征分辨率时，可以将一个对应于某一空间位置的involution kernel仅以相应位置本身上的输入特征向量为条件来生成，作为直观而有效的实例化手段。
此外，通过沿通道维度共享involution kernel来减轻kernel的冗余。

综合以上两个因素，involution操作的计算复杂度随特征通道数量而线性放缩，基于此，动态参数化的involution kernel在空间维度上具有广泛的覆盖范围（更广的感受野）。
由于这种反转的设计策略，提出的involution相较于convolution有着两个好处：

involution could summarize the context in a wider spatial arrangement, thus overcome the difficulty of modeling long-range interactions well
involution could adaptively allocate the weights over different positions, so as to prioritize the most informative visual elements in the spatial domain (这种全局不共享的卷积核，实际上在一定程度上特别类似空间attention的操作，这不过这里针对每个位置实际上进一步包含了一个局部的整合，以及通道上的共享策略略有不同）

类似地，最近的方法开始尝试使用自注意力来替换卷积操作，以捕获远程依赖关系[Stand-alone self-attention in vision models, Exploring self-attention for image recognition]。在这些作品中，纯粹的自注意力机制可以被用来构建具有良好性能的独立模型。有趣的是(intriguingly)，文章揭示了自注意力通过涉及内核构造的复杂公式化来具体化了我们一般化定义的involution操作。相比之下，这项工作中采用的involution kernel根据单个像素而不是依据相邻像素的关系生成的。更进一步，在实验中证明，即使使用令人尴尬(embarrassingly)的简单版本，involution也可以实现相较于self-attention在accuracy-cost的权衡。充分意识到在self-attention中，通过将查询与每个键进行比较而获得的亲和度矩阵(affinity matrix)也是involution kernel一种实例，在这里作者们开始质疑组合query和key特征以生成这样一个kernel的必要性，因为作者们简化了的involution kernel可以在避免key内容的冗余使用的同时还可以获得不错的性能。至于self-attention中的专用的位置编码就更不用说了（可能更不是有必要的了）。

提出的involution运算通过以相当轻量级的方式将可扩展(extendable)和可切换(switchable)的空间模型嵌入到表示学习范式中，轻松地促进了视觉识别。

在重新设计的视觉原语(visual primitive)的基础上，建立了一个被称为RedNet的主干架构，该架构可以实现优于基于卷积的ResNet和基于自注意力的图像分类模型的性能。在包括检测和分割在内的下游任务上，我们全面进行了逐步研究，以检验involution对检测器和分割器的不同组件（例如其backbone和neck）的有效性。事实证明，对每个考虑的组件而言，involution都是有帮助的，并且将它们组合在一起可带来最高的效率。

说了这么多，看看作者是如何总结贡献的：

We rethink the inherent properties of convolution, associated with the spatial and channel scope. This motivates our advocate of other potential operators embodied with discrimination capability and expressiveness for visual recognition as an alternative, breaking through existing inductive biases of convolution. 我们重新思考卷积的固有特性，它与空间和通道范围有关。这促使我们提倡使用其他具有辨别能力和表达能力的潜在算子作为视觉识别的替代，突破了卷积现有的归纳偏见。（这是从involution的动机出发）
We bridge the emerging philosophy of incorporating self-attention into the learning procedure of visual representation. In this context, the desiderata of composing pixel pairs for relation modeling is challenged. Furthermore, we unify the view of self-attention and convolution through the lens of our involution. 我们在把自注意融入视觉表征的学习过程这一新兴哲学（应该是指代架构设计思路）上架起了桥梁。在此背景下，关系建模中对像素对的组合要求受到了挑战。此外，我们通过involution的镜头统一了自注意和卷积的观点。（这是从involution对于架构设计的意义出发）
The involution-powered architectures work universally well across a wide array of vision tasks, including image classification, object detection, instance and semantic segmentation, offering significantly better performance than the convolution-based counterparts. 基于involution的架构在广泛的视觉任务中都能很好地工作，包括图像分类、目标检测、实例和语义分割，并且比基于卷积的架构提供了更好的性能。（从involution的实际效果出发）

Involution与传统卷积

最直接是按照他们的计算方式来进行表示。
假设对于仅包含卷积操作的单一卷积层，输入特征为 $\in \mathbb{R}^{C_i \times H \times W}$ ，输出特征为 $\in \mathbb{R}^{C_{o} \times H \times W}$ 。

标准卷积 $Y_{c_o,h,w} = \sum^{C_i}_{c_i=1} \underbrace{\sum_{u, v} F_{c_o, c_i, u + \lfloor \frac{K_h}{2} \rfloor, v + \lfloor \frac{K_w}{2} \rfloor}}_{基于相对卷积核中心的偏移量遍历参数} X_{c_i, h + u, w + v}$
- 使用的卷积核参数整体可以表示为 $\in \mathbb{R}^{C_o \times C_i \times K_h \times K_w}$ ，这里的 $K_h \times K_w$ 表示卷积核的大小。
  - 一般两个K都为奇数以区分中心和周围像素，当然，对于池化等操作可能是偶数。
  - 由于涉及到对于卷积核内参数和对应的tensor输入的参数的索引，为了方便，这里使用相对卷积核中心的偏移值来索引，即使用 $\in \Delta_{K} = [-\lfloor \frac{K}{2} \rfloor, \cdots, \lfloor \frac{K}{2} \rfloor] \times [-\lfloor \frac{K}{2} \rfloor, \cdots, \lfloor \frac{K}{2} \rfloor] \in \mathbb{Z}^{2}$ ，这里后面的乘积是笛卡尔乘积，二者共同合成一个新的二维空间坐标偏移集合。
- 这里的 $c_o$ 实际上对应的是每一个卷积核，它有着 $C_i \times K_h \times K_w$ 大小。
分组卷积 $Y_{g, c_{og}, h, w} = \sum^{C_{ig}}_{c_{ig}=1} \sum_{u, v} F_{g, c_{og}, c_{ig}, u + \lfloor \frac{K_h}{2} \rfloor, v + \lfloor \frac{K_w}{2} \rfloor} X_{g, c_{ig}, h + u, w + v}$
- 此时需要引入额外的通道分组数 $G$ ，且其必须可以整除 $C_i\&C_o$ 。卷积核由于分组的设定，大小变成了 $C_i // G \times K_h \times K_w$ ，即 $\in \mathbb{R}^{G \times C_o // G \times C_i // G \times K_h \times K_w}$ 。
- 另外这里为了方便索引，直接应用了组内索引，即 $C_{ig}\&C_{og}$ ，分别表示输入通道分组和输出通道分组组内的索引。
分组卷积的极致，即深度分离卷积 $Y_{g,c_{og},h,w} = \sum_{u, v} F_{g,c_{og}, u + \lfloor \frac{K_h}{2} \rfloor, v + \lfloor \frac{K_w}{2} \rfloor} X_{g, h + u, w + v}$
- 此时分组数等于输入通道数。一般而言，此时会设置 $C_i = C_o$ ，这里我们考虑更一般的情况。卷积核参数可以表示为 $\in \mathbb{R}^{G \times C_o // G \times 1 \times K_h \times K_w}$
Involution $Y_{c_i,h,w} = \sum_{u, v} F_{\lceil \frac{c_i}{C_g} \rceil, h, w, u + \lfloor \frac{K_h}{2} \rfloor, v + \lfloor \frac{K_w}{2} \rfloor} X_{c_i, h + u, w + v}$
- 卷积核和形式分组卷积类似，但是空间不共享，组内特征通道共享的，即 $\in \mathbb{R}^{G \times H \times W \times K_h \times K_w}$ 。
- 这里由于是组内共享的卷积核，所以需要用到组内通道数这个量，设为 $C_g = C_i // G$ 。
- 这里的卷积核依赖于输入特征图 $X$ ，即由其生成。实际代码中使用了两层卷积实现。

RedNet

为了通过渐进式构建整个网络，我们通过堆叠残差快来模仿ResNet的设计，因为ResNet的优雅架构使其易于尝试新思想并进行比较。我们对ResNet的stem中（使用3x3或7x7 involution进行分类或密集预测）和trunk（对所有任务使用7x7 involution）位置中的所有bottleneck位置的3x3卷积进行替换，但保留所有1x1卷积用于通道投影和融合。这些经过精心设计的实体联合起来，形成了一种称为RedNet的新型高效backbone。

一旦空间和通道信息交织在一起，神经网络内部就会出现大量的冗余。但是，信息交互在RedNet中巧妙地解耦，朝着有利的精度与效率的权衡的方向发展。具体而言，在一个像素的通道维度中编码的信息隐式分散在其空间中核生成步骤中的邻近区域，此后，由于具有庞大且动态的involution kernel，因此可以收集到丰富的感受野中的信息。必不可少的是，线性变换（通过1x1卷积实现）用于信道信息交换。综上所述，channel-spatial，spatial-alone和channel-alone的交互，交替且独立地作用于信息传播流，在确保表征能力的同时，协同促进了网络体系结构的小型化。

链接

论文：https://arxiv.org/abs/2103.06255
代码：https://github.com/d-li14/involution
解析：https://blog.csdn.net/amusi1994/article/details/114697821

Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
【论文阅读】实时全能分割模型万里守约论文阅读论文阅读图像分割图像处理计算机视觉
文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。为了解决这些挑战，本文介绍了一种新方法——RMP-SAM（Real-TimeMulti-PurposeSegmentAnything），旨在实现实时的多功能分割。RMP-SAM结合了动态卷积与高效的模型
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
卷积神经网络 - 理解卷积核的尺寸 k×k×Cin 谦亨有终 AI学习笔记 cnn 人工智能神经网络深度学习机器学习
卷积神经网络中，每个卷积核的尺寸为k×k×Cin，这一设计的核心原因在于多通道输入的数据结构和跨通道特征整合的需求。以下是详细解释：1.输入数据的结构输入形状：假设输入数据为三维张量，形状为H×W×Cin，其中：H：高度（Height）W：宽度（Width）Cin：通道数（Channelsin）多通道的物理意义：对于RGB图像，Cin=3（红、绿、蓝三通道）。对于中间层的特征图，Cin可能为64、
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option

卷积操作改进之Involution: Inverting the Inherence of Convolution for Visual Recognition

Involution: Inverting the Inherence of Convolution for Visual Recognition

文章目录

前言

具体实现

文章动机

传统卷积

Involution的提出

Involution与传统卷积

RedNet

相关内容

动态卷积

Unfold

简单的例子——单通道输入

稍微复杂一点的例子——多通道输入

与卷积的关系

链接

你可能感兴趣的:(深度学习,计算机视觉,人工智能,卷积)