NorthSmile

深度学习中常用的几种卷积（下篇）：膨胀卷积、可分离卷积（深度可分离、空间可分离）、分组卷积（附Pytorch测试代码）

卷积分类

一、膨胀卷积
- 1.介绍
- 2.调用方式
- 3.实例
- 4.缺点
二、可分离卷积
- 1.空间可分离卷积
- - 1）介绍
  - 2）优点及缺点
  - 3）实例
- 2.深度可分离卷积
- - 1）介绍
  - 2）优点及缺点
  - 3）实例
三、分组卷积
- 1.介绍
- 2.调用方式以及nn.Conv2d的groups参数详解
- 3.实例
- 4.优点
四、可变形卷积
参考资料

标准二维卷积、转置卷积等详见上篇： https://blog.csdn.net/qq_43665602/article/details/126668764。

一、膨胀卷积

1.介绍

膨胀卷积也称为扩张卷积或空洞卷积，一般可通过对标准二维卷积的卷积核设置合适的膨胀率（具体地指卷积核元素之间的距离）实现。合理利用膨胀卷积可在不引入其他参数的同时，扩大输出中元素的感受野，提高特征的全局表示能力。
下面通过展示几个不同膨胀率下的卷积核大小以及感受野变化情况，可以更直观的理解：
图中灰色为输入，蓝色为卷积核，黄色为输出。
1）dilation=1：表示卷积核元素之间距离为1，使用0进行大小为dilation-1=0的填充（这是默认情况），因此卷积核大小保持不变，依然是（2，2），输出中的每个元素映射回原始输入的大小为（2，2），既此时输出中元素的感受野大小为（2，2）。

2）dilation=2：表示卷积核元素之间距离为2，使用0进行大小为dilation-1=1的填充，此时卷积核大小变为（3,3），输出中的每个元素映射回原始输入的大小为（3,3），既此时输出中元素的感受野大小为（3,3）。

3）dilation=3：表示卷积核元素之间距离为3，使用0进行大小为dilation-1=2的填充，此时卷积核大小变为（4,4），输出中的每个元素映射回原始输入的大小为（4,4），既此时输出中元素的感受野大小为（4,4）。

通过图示，可观察到当膨胀率变大时，输出特征元素对应的感受野随之变大，意味着输出特征更能体现原始输入的全局信息。

2.调用方式

torch.nn.Conv2d(
	in_channels, 
	out_channels, 
	kernel_size, 
	stride=1, 
	padding=0, 
	dilation=1, 
	groups=1, 
	bias=True, 
	padding_mode='zeros', 
	device=None, 
	dtype=None)

在调用时，通过设置合适的dilation（膨胀率，默认为1）即可实现不同的膨胀卷积。卷积核通过设置的膨胀率更改元素之间的距离，使用0填充这些间隔元素。

3.实例

inp=torch.tensor([[[[8., 8., 7., 4.],
          [4., 4., 8., 3.],
          [3., 9., 4., 1.],
          [7., 7., 9., 5.]]]])
# torch.Size([1, 1, 4, 4])
# print(inp)
# print(inp.shape)
print("-"*25)
dilation_conv2d=nn.Conv2d(
    in_channels=1,
    out_channels=1,
    kernel_size=2,
    stride=1,
    dilation=2
)
out=dilation_conv2d(inp)
print(out)
print(out.shape)
print("-"*25)
print(dilation_conv2d.weight)
print(dilation_conv2d.weight.shape)
print("-"*25)
print(dilation_conv2d.bias)
print(dilation_conv2d.bias.shape)
print("-"*25)

1）dilation=1：卷积核大小不变；

2）dilation=2：使用0对卷积核进行填充，使得卷积核元素之间距离为dilation-1=1，卷积核大小变为（3,3）；

3）dilation=3：使用0对卷积核进行填充，使得卷积核元素之间距离为dilation-1=2，卷积核大小变为（4,4）；

4.缺点

卷积核元素不连续（因为元素之间按照膨胀率对卷积核进行0填充，所以原始元素被间隔开了，对应原始输入的元素也就被间隔开了），导致提取特征不连续；
对于小目标而言，本身需要的感受野就不是很大，因此膨胀卷积在这种情况下不太适用；

二、可分离卷积

可分离卷积分为空间可分离卷积（spatially separable convolution）和深度可分离卷积（depthwise separable convolution）。对于类似多通道图像这样的三维数据而言，空间维度指高和宽维度，而深度指通道构成的维度。标准二维卷积通常利用大小为（kernel_size_h，kernel_size_w）的卷积核在高、宽方向的移动，实现特征提取。

1.空间可分离卷积

1）介绍

空间可分离卷积是在空间维度进行，首先将（kernel_size_h，kernel_size_w）=（M，M）的卷积核拆分为两个更小的（1，M）、（M，1）卷积核，然后依次使用（M，1）、（1，M）卷积核进行特征提取，达到标准卷积同样的效果。这样做可以很大程度降低卷积核需要学习的参数量，并且降低卷积过程中乘法运算的次数，网络运行速度更快。
下面通过实例及图示对此进行详细解释：
（1）比较经典的空间可分离卷积核，Sobel算子：将3×3卷积核拆为3×1，1×3的两个更小的卷积核，此时卷积核需要学习的参数从3×3=9个减少为3×1+1×3=6个参数。

（2）图中灰色为（5,5）输入，蓝色卷积核大小为（3,3），其他参数保持默认，黄色为输出，分别展示标准卷积与空间可分离卷积的卷积过程，以及卷积过程中涉及的乘法运算次数、参数量：
标准卷积情况下，卷积核沿着输入的高、宽方向均可移动三次，共移动3×3=9次，而每次要进行3×3=9次乘法运算，故乘法运算总次数为：9×9=81，参数量为卷积核大小：3×3=9

深度可分离卷积情况下，将卷积核拆分为大小为3×1，1×3的两个卷积核，然后分两步进行特征提取：①先使用3×1卷积核对输入进行特征提取；②然后使用1×3卷积核对第一步的卷积结果进行特征提取得到最终的卷积结果。在第一步卷积过程中，卷积核沿着输入的高、宽方向分别移动五、三次，共移动5×3=15次，而每次要进行3×1=3次乘法运算，故第一步乘法运算总次数为：15×3=45，参数量为卷积核大小：3×1=3；而第二步卷积过程中，卷积核沿着输入的高、宽方向均移动三次，共移动3×3=9次，而每次要进行1×3=3次乘法运算，故第二步乘法运算总次数为：9×3=27，参数量为卷积核大小：1×3=3；所以就最终的输出结果而言，乘法运算总次数为：45+27=72，参数量为：3+3=6，可看到相比标准卷积，空间可分离卷积降低了网络学习的参数量以及计算复杂性。

（3）推广验证
假设输入大小为：（N,N），卷积核大小为（M,M），其他参数保持默认，分别计算标准卷积和空间可分离卷积过程中涉及到的乘法运算次数：
标准卷积进行的过程中，卷积核在高、宽方向均可移动N-M+1次，故一共移动（N-M+1）×（N-M+1）次，每次移动执行M×M次乘法运算，因此乘法运算总次数为：（N-M+1）×（N-M+1）×M×M

空间可分离卷积进行的过程中，先将M×M卷积核拆分为大小为M×1，1×M的两个卷积核，然后分两步进行特征提取：①先使用M×1卷积核对输入进行特征提取；②然后使用1×M卷积核对第一步的卷积结果进行特征提取得到最终的卷积结果。在第一步卷积过程中，卷积核沿着输入的高、宽方向分别移动N、N-M+1次，共移动（N-M+1）×N次，而每次要进行M×1=M次乘法运算，故第一步乘法运算总次数为：（N-M+1）×N×M；而第二步卷积过程中，卷积核沿着输入的高、宽方向均移动（N-M+1）次，共移动（N-M+1）×（N-M+1）次，而每次要进行1×M=M次乘法运算，故第二步乘法运算总次数为：（N-M+1）×（N-M+1）×M；所以就最终的输出结果而言，乘法运算总次数为：（N-M+1）×（2N-M+1）×M。

现在我对，二者涉及的乘法次数进行比较，观察以下结果，通常输入大小N远大于卷积核大小M，

因此二者之比为：当M>=3时很明显看到空间可分离卷积可以大幅降低计算复杂度。

2）优点及缺点

优点：

降低卷积过程中的乘法运算的次数；
降低网络需要学习的参数量（体现在卷积核拆成两个更小的卷积核，而这两个小卷积核的总元素数量小于原卷积核）；

缺点：

并非所有的卷积核都可以合理拆分为两个更小的卷积核，因此如果在神经网络中使用大量的深度可分离卷积去替换常用的标准卷积，则会降低卷积核参数的搜索空间，进而造成网络表示能力的下降。因此空间可分离卷积并不常用，局限性较大。

3）实例

此处实例将使用卷积核大小分别为（3,1）和（1,3）的连续卷积替代卷积核为（3,3）的标准卷积，依次展示空间可分离卷积实现的过程。

inp=torch.randint(10,size=(1,3,7,7),dtype=torch.float32)
conv0=nn.Conv2d(in_channels=3,out_channels=2,kernel_size=(3,3))
out0=conv0(inp)
print(out0.shape)
print('--'*10)
# 可分离卷积第一阶段
conv1=nn.Conv2d(in_channels=3,out_channels=2,kernel_size=(3,1))
out1=conv1(inp)
print(out1.shape)
print('--'*10)
# 可分离卷积第二阶段
conv2=nn.Conv2d(in_channels=2,out_channels=2,kernel_size=(1,3))
out2=conv2(out1)
print(out2.shape)
print('--'*10)

标准卷积输出：
torch.Size([1, 2, 5, 5])
--------------------
空间可分离卷积中间输出：
torch.Size([1, 2, 5, 7])
--------------------
空间可分离卷积最终输出：
torch.Size([1, 2, 5, 5])
--------------------

2.深度可分离卷积

1）介绍

相比空间可分离卷积而言，深度可分离卷积的应用更为普遍，深度可分离卷积同样可以大幅降低网络学习的计算复杂性，降低参数量，提高网络效率！深度可分离卷积分以下两阶段实现：

利用深度卷积得到与输入通道数一致的特征；
利用多组由1×1卷积核构成的过滤器扩展输入特征的深度；

此处利用到的深度卷积是一种特殊的分组卷积方式，详见https://blog.csdn.net/qq_43665602/article/details/126750410

下面通过一系列图示及实例进行详细说明，此处实例的原始输入为（3，7，7），期望输出为（128,5，5）：
（1）标准卷积：采用128组过滤器对输入进行特征提取，每个过滤器由3个（3,3）卷积核叠加而成。以此方式每个过滤器分别可在高、宽方向移动5次，共移动5×5=25次，每次移动所需乘法运算为3×3×3=27次，故乘法运算总次数为：25×27=675次，整个卷积过程中乘法运算总次数为：675×128=86400次，涉及到的参数量为：128×(3×3×3)=3456

（2）深度可分离卷积，分为深度卷积和1×1卷积两步完成：
深度卷积：对于深度卷积来说，采用三组过滤器进行特征提取。每个滤波器的大小为（1,3，3），各自对应输入的一个通道进行特征提取得到各自大小为（1,5，5）的特征，再将得到的所有特征级联获得深度卷积的（3,5，5）输出结果。在此过程中，每个过滤器分别可在高、宽方向移动5次，共移动5×5=25次，每次移动所需乘法运算为3×3=9次，故乘法运算总次数为：25×9=225次，整个卷积过程中乘法运算总次数为：225×3=675次，涉及到的参数量为：3×3×3=27

1×1卷积：通过利用多组过滤器进行对深度卷积的输出结果进行特征提取，扩展其深度得到期望的结果。在这里，采用128组过滤器进行特征提取。每个滤波器的大小为（3,1，1），以此方式得到（128,5，5）的最终结果。此过程中，每个过滤器分别可在高、宽方向移动5次，共移动5×5=25次，每次移动所需乘法运算为3×1×1=3次，故乘法运算总次数为：25×3=75次，整个卷积过程中乘法运算总次数为：75×128=9600次，涉及到的参数量为：128×(3×1×1)=384
结合深度卷积和1×1卷积两个步骤，在深度可分离卷积整个过程中涉及的乘法运算总次数为：675+9600=10275次，涉及到的参数量为：27+384=411。与标准卷积比较，深度可分离卷积大大降低了网络学习的参数量和计算复杂性。

2）优点及缺点

优点：

可在不显著损失性能的前提下，提高网络效率；
大幅降低网络学习的参数量和计算复杂性；
缺点：
对于小模型而言，由于参数量大幅下降，可能会严重损失模型性能；

3）实例

inp=torch.randint(10,size=(1,3,7,7),dtype=torch.float32)
conv0=nn.Conv2d(in_channels=3,out_channels=64,kernel_size=(3,3))
out0=conv0(inp)
print(out0.shape)
print('--'*10)
# 深度可分离卷积：通过设置groups沿着深度进行分组
conv1=nn.Conv2d(in_channels=3,out_channels=3,kernel_size=(3,3),groups=3)  # 深度卷积
out1=conv1(inp)
print(out1.shape)
print('--'*10)
conv2=nn.Conv2d(in_channels=3,out_channels=64,kernel_size=(1,1))  # 1*1卷积
out2=conv2(out1)
print(out2.shape)
print('--'*10)

标准卷积输出：
torch.Size([1, 64, 5, 5])
--------------------
深度可分离卷积中间输出（深度卷积）：
torch.Size([1, 3, 5, 5])
--------------------
深度可分离卷积最终输出（1×1卷积）：
torch.Size([1, 64, 5, 5])
--------------------

三、分组卷积

1.介绍

分组卷积的提出是为了解决当时硬件设备的限制问题，作者在《ImageNet Classification with Deep Convolutional Neural Networks》一文中引入分组卷积，利用多个GPU对输入进行并行处理，最后将各个GPU的处理结果融合在一起，完成特征提取工作。

图中网络的多数中间层均分两条支路进行多GPU并行学习，直观地体现了分组卷积的工作方式。

2.调用方式以及nn.Conv2d的groups参数详解

分组卷积是通过对标准卷积的in_channels, out_channels以及groups参数进行合适的设置实现，下面对groups参数做一个详细介绍：

torch.nn.Conv2d(
	in_channels, 
	out_channels, 
	kernel_size, 
	stride=1, 
	padding=0, 
	dilation=1, 
	groups=1, 
	bias=True, 
	padding_mode='zeros', 
	device=None, 
	dtype=None)

groups：这是分组的意思，控制对于卷积层的输入特征和输出特征之间的联系，表示在进行卷积处理时，将整个输入特征沿着通道的方向划分为多少组进行各自的处理。需要注意，该卷积层in_channels和out_channels均可被设置的groups整除，默认groups=1。

这里我通过不同groups下，输入、卷积核、输出之间的关系对此进行直观的展示：
图中蓝色为输入特征，绿色为卷积核，输出为黄色
1）首先复习以下标准卷积在卷积过程中的一个通用情况：对于标准卷积而言，采用C_out组过滤器进行特征提取。每个过滤器由C_in个卷积核叠加而成，每个过滤器沿着输入的高、宽方向移动，实现卷积过程，得到一个单通道的输出，所有过滤器的卷积结果最后级联在一起构成最终的卷积结果。

2）对于分组卷积而言，设置不同的groups可控制不同的卷积过程：
（1）groups=1，此时和标准卷积等价，所有的输入特征一起进行卷积得到最后的输出结果；
（2）groups=2，此时将输入特征沿着通道分为2组分别进行卷积，卷积通过两个分支进行，最后将各自的结果级联构成最后的输出。此时每个过滤器均由C_in/groups=C_in/2个卷积核叠加构成，而每个分支中均有C_out/groups=C_out/2个过滤器，因此各个分支中卷积核的大小为（C_in/2,K_h,K_w），输出结果为（C_out/2,H_out,W_out），然后将两个分支的结果级联构成（C_out,H_out,W_out）的输出。

（3）同理，当groups=C_in，此时将输入特征沿着通道分为C_in组分别进行卷积，卷积通过两个分支进行，最后将各自的结果级联构成最后的输出。此时每个过滤器均由C_in/groups=C_in/C_in=1个卷积核叠加构成，而每个分支中均有C_out/groups=C_out/C_in个过滤器，因此各个分支中卷积核的大小为（1,K_h,K_w），输出结果为（C_out/C_in,H_out,W_out），然后将C_in个分支的结果级联构成（C_out,H_out,W_out）的输出。
从以上不同的分组卷积的输入、输出结果来看，其实最终完成的任务与标准卷积一样，区别只是在分组卷积中我们通过设置groups将卷积过程分为多个分支进行，而标准卷积由一个分支完成（下面代码测试结果也可以说明这一点）。

3.实例

import torch
import torch.nn as nn


inp=torch.randint(10,size=(1,10,4,4),dtype=torch.float32)
print("-"*25)
conv2d=nn.Conv2d(
    in_channels=10,
    out_channels=8,
    kernel_size=2,
    stride=1,
)
out=conv2d(inp)
print(out.shape)
print("-"*25)
groups_conv2d=nn.Conv2d(
    in_channels=10,
    out_channels=8,
    kernel_size=2,
    stride=1,
    groups=2
)
out1=groups_conv2d(inp)
print(out1.shape)
print("-"*25)

-------------------------
torch.Size([1, 8, 3, 3])
-------------------------
torch.Size([1, 8, 3, 3])
-------------------------

4.优点

先看以下分组卷积与标准卷积各自需要学习的参数量：
标准卷积：过滤器形状为（C_out,C_in,K_h,K_w），则参数量为：C_out×C_in×K_h×K_w
分组卷积（以groups=2为例）：过滤器分两组，每组过滤器形状为（C_out/2,C_in/2,K_h,K_w），则参数量为：(C_out/2×C_in/2×K_h×K_w)×2=(C_out×C_in×K_h×K_w)/2。推广，通用情况下参数量为：(C_out×C_in×K_h×K_w)/groups。很明显看到分组卷积使用更小的参数量实现了与标准卷积相同的结果。

优点：
（1）降低网络学习的参数量，缓解过拟合，提高网络训练速度；
（2）在多GPU上的多分支模型并行学习的方式使模型训练更高效；
（3）采用分组卷积通常可以比标准卷积提供更好的模型；

四、可变形卷积

关于可变形卷积有机会我会单独写一篇文章来说明。

参考资料

1.部分图来源：
（1）https://towardsdatascience.com/intuitively-understanding-convolutions-for-deep-learning-1f6f42faee1
（2）https://www.163.com/dy/article/E8F50CLJ05118HA4.html
（3）https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
2.参考：
https://www.163.com/dy/article/E8F50CLJ05118HA4.html
文章通过参考及自己理解汇总，如有错误，欢迎大家评论探讨！我会及时更正，谢谢。

利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
分享12个国内AI对话聊天的免费网站（含DeepSeek大模型）码上飞扬人工智能语言模型 DeepSeek
在人工智能领域，基于对话的语言模型已成为当前研究的热点，其中以ChatGPT为代表的模型凭借其卓越的语言理解与交互能力备受瞩目。为帮助用户更好地选择和使用这类AI工具，本文将介绍12个国内可直接体验对话聊天功能的平台，为用户提供实用参考。1、腾讯元宝地址：https://hunyuan.tencent.com/bot/chat腾讯混元大模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预
《今日AI-人工智能-编程日报》-源自2025年3月21日小亦编辑部人工智能
一、AI编程领域最新动态AI编程工具崛起，程序员职业面临挑战Anthropic首席执行官DarioAmodei预言，未来一年内，90%的代码将由AI生成，传统程序员的工作可能被大幅替代。最新发布的AI编程模型（如Claude3.7、Sonnet3.7）在初级开发评估中表现优异，得分率超过60%，部分模型甚至在全球程序员排名中位列前0.1%。字节跳动的Trae海外版接入Claude3.7和GPT-4
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
普通人学习AI应该如何入手？2025年最新AI大模型学习路线+全套学习资料，适合新手小白！小城哇哇人工智能学习大数据语言模型 AI大模型 agi ai
引言随着人工智能（AI）技术的飞速发展，越来越多的人开始意识到掌握这项技能的重要性。然而，对于许多没有编程背景或数学基础的人来说，进入AI领域似乎是一个遥不可及的梦想。但实际上，通过合理的规划和适当的学习资源，任何人都可以逐步掌握AI的核心知识，并应用到实际工作中去。本文将为普通读者提供一份详细的2025年最新AI大模型学习路线图，并附带一套完整的自学资料，帮助您从零基础起步，顺利开启AI学习之旅
【猫狗分类】Pytorch VGG16 实现猫狗分类1-数据清洗+制作标签文件努力的小巴掌 pytorch分类项目 pytorch 分类人工智能
Pytorch猫狗分类用Pytorch框架，实现分类问题，好像是学习了一些基础知识后的一个小项目阶段，通过这个分类问题，可以知道整个pytorch的工作流程是什么，会了一个分类，那就可以解决其他的分类问题，当然了，其实最重要的还是，了解她的核心是怎么工作的。那首先，我们的第一个项目，就做猫狗的分类。声明：整个数据和代码来自于b站，链接：使用pytorch框架手把手教你利用VGG16网络编写猫狗分类
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
30秒生成电子合同：B2B系统+AI引擎缩短80%交易周期|数商云数商云网络 B2B系统数字化电商平台人工智能大数据云计算数据库运维 java spring
引言在数字经济时代，B2B（Business-to-Business）电子商务正在以前所未有的速度改变着企业的运营模式。随着交易量的不断攀升，传统的合同生成和审核流程逐渐成为制约交易效率的瓶颈。然而，随着人工智能（AI）技术的飞速发展，结合B2B系统的智能化升级，我们正见证一场合同生成效率的革命。本文将深入探讨“30秒生成电子合同：B2B系统+AI引擎缩短80%交易周期”这一创新模式，解析其背后的
关于误差平面小记文弱_书生乱七八糟平面算法神经网络机器学习
四维曲面的二维切片：误差平面详解在深度学习优化过程中，我们通常研究损失函数（LossFunction）的变化，试图找到权重的最优配置。由于神经网络的参数空间通常是高维的，我们需要使用低维可视化的方法来理解优化过程和误差平面（ErrorSurface）。在这里，我们讨论一个四维曲面的二维切片，其中：三个维度是网络的权重（w1,w2,w3w_1,w_2,w_3w1,w2,w3）。第四个维度是误差（损失
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

深度学习中常用的几种卷积（下篇）：膨胀卷积、可分离卷积（深度可分离、空间可分离）、分组卷积（附Pytorch测试代码）

卷积分类

一、膨胀卷积

1.介绍

2.调用方式

3.实例

4.缺点

二、可分离卷积

1.空间可分离卷积

1）介绍

2）优点及缺点

3）实例

2.深度可分离卷积

1）介绍

2）优点及缺点

3）实例

三、分组卷积

1.介绍

2.调用方式以及nn.Conv2d的groups参数详解

3.实例

4.优点

四、可变形卷积

参考资料

你可能感兴趣的:(Pytorch,深度学习,深度学习,pytorch,人工智能,计算机视觉,卷积神经网络)