夹猪逃

【深度学习】各种卷积的理解笔记（2D，3D，1x1，可分离卷积）

卷积

1. 2D卷积
- 单通道版本
- 多通道版本
2. 3D卷积
3. 1x1卷积
- 作用
- 应用
4. 卷积算法
5. 可分离卷积
- 空间可分离卷积
- 深度可分离卷积

1. 2D卷积

卷积的目的是从输入中提取有用的特征。在图像处理中，卷积可以选择多种不同的滤波器。每种类型的过滤器都有助于从输入图像中提取不同的方面或特征，例如横向/纵向/对角线边缘。同样，在卷积神经网络中，通过卷积，利用训练过程中自动学习权值的滤波器来提取不同的特征。然后，所有这些提取的特征被“组合”以做出决定。

卷积有几个优点，如权值共享和平移不变性。卷积还考虑了像素的空间关系。这些任务可能非常有用，尤其是在许多计算机视觉任务中，因为这些任务通常涉及识别某些组件与其他组件在空间上有一定关系的对象（例如，狗的身体通常与头部、四条腿和尾巴相连）。

单通道版本

深度学习中，卷积是元素的乘法和加法。对于具有一个通道的图像（灰度图像），卷积如图所示，过滤器也即卷积核是3x3矩阵，元素为[[0，1，2]，[2，2，0]，[0，1，2]]。滤波器在输入端滑动。在每一个位置上，它都进行元素乘法和加法。每个滑动位置以一个数字结束。最后的输出是一个3×3的矩阵。（注意，在本例中，步幅=1，填充=0。这些概念将在下面的算术部分中描述。

多通道版本

在许多应用程序中，我们处理的是具有多个通道的图像。一个典型的例子是RGB图像。

多通道数据的另一个例子是卷积神经网络中的层。卷积网络层通常由多个信道（通常是数百个信道）组成。每个通道描述前一层的不同方面。我们如何在不同深度的层之间进行转换？如何将深度为n的层转换为深度为m的层？

澄清一些术语：层，通道，特征图，滤波器，核。从层次结构角度来看，层和滤波器概念属于同一层次，而通道和核处于下面的一个层次。通道和特征图是一样的。一个图层可以有多个通道（或特征图）：如果输入是RGB图像，则输入图层有3个通道。“通道”通常用来描述“层”的结构。类似地，“核”用于描述“滤波器”的结构。

“层”（“滤波器”）和“通道”（“核”）之间的区别：
滤波器和核之间区别有些棘手。有时，它们可以互换使用，这会造成混乱。本质上，这两个术语有细微的区别。
“核”是指一个二维权重数组。
“滤波器”是指堆叠在一起的多个核的三维结构
对于二维滤波器，滤波器和核是一样的。但对于一个3D滤波器和深度学习中的大多数卷积来说，滤波器就是核的集合。每个核都是唯一的，强调输入通道的不同方面。

有了这些概念，多通道卷积就如下所示。每个核被应用到前一层的输入通道上，以输出一个输出通道。这是一个核扩展的过程。我们对所有核重复这样的过程以生成多个通道。然后将这些通道中的每一个相加，形成一个单独的输出通道。如图

这里输入层是一个5x5x3矩阵，有3个通道。滤波器是一个3x3x3矩阵。
首先滤波器中的每个核分别应用于输入层的3个通道，进行3次卷积，产生3个尺寸为3x3的通道。

然后将这三个通道相加（元素相加），形成一个单通道（3x3x1）。该通道是使用滤波器（3x3x3矩阵）对输入层（5x5x3矩阵）进行卷积的结果。

我们可以把这个过程看作是在输入层中滑动一个三维过滤矩阵。请注意，输入层核滤波器具有相同的深度（通道数=核数）。3D滤波器尽在图像的两个方向：高度和宽度上移动（这就是为什么这种操作称为二维卷积，尽管3D滤波器用于处理三维体积数据）。在每个滑动位置，我们执行元素相乘和相加，结果是一个数字。在下面示例中，滑动5个水平位置和5个垂直位置执行。总的来说，我们得到一个单一的输出通道。

现在我们可以看到如何在不同深度之间进行过渡。假设输入层有Din通道，我们希望输出层有Dout通道。我们需要做的是将Dout个滤波器应用到输入层，每个滤波器都有Din个核。每个滤波器提供一个输出通道。在应用了Dout个滤波器后，我们就有了Dout通道，这些通道可以叠加在一起形成输出层。如下图所示：

2. 3D卷积

在上一节得最后一个插图中，我们看到我们实际上对一个3D卷积，通常仍称这种操作为深度学习中得二维卷积。3D滤波器仅沿两个方向移动（图像得高度和宽度）。这种操作的输出是一个二维图像（只有一个通道）

3D卷积是二维卷积的推广。3D卷积中，滤波深度小于输入层深度（核大小<通道大小）。因此，3D滤波器可以在所有三个方向（图像的高度，宽度，通道）移动。在每个位置，元素的乘法和加法都提供一个数字。由于滤波器在三维空间滑动，因此输出数字也排列在三维空间中，然后输出三维数据。

3D卷积广泛应用于视频理解领域，用于提取视频中的时间特征与空间特征。

3D卷积与多通道卷积有什么区别呢？

多通道卷积不同通道上的卷积核的参数是不同的
3D卷积由于卷积核本身是3D的，所以这个由于“深度”造成的看似不同通道上用的就是同一个卷积，权重共享嘛。

多了一个深度通道，这个深度可能是视频上的连续帧

3. 1x1卷积

为什么这是有帮助的。我们只是把一个数字乘以输入层中的每个数字吗？对于只有一个通道的层来说，操作很简单。在这里，我们将每个元素乘以一个数字。

如果输入层有多个通道，事情就会变得有趣。下图说明了1 x 1卷积如何用于尺寸为H x W x D的输入层。在1 x 1卷积（滤波器尺寸为1 x 1 x D）之后，输出通道的尺寸为H x W x 1。如果我们应用n个这样的1×1卷积，然后将结果连接在一起，我们就可以得到一个尺寸为h×w×n的输出层。

1 x 1卷积，其中滤波器尺寸为1 x 1 x D
最初，在Network-in-network论文中提出了1×1卷积。然后，他们在谷歌的inception论文中被广泛使用。1 x 1卷积的几个优点是：

有效减少维度
有效低维嵌入
卷积后再应用非线性

上图中可以看到前两个优点。经过1×1的卷积，我们显著地减小了尺寸深度。假设原始输入有200个通道，那么1x1卷积将把这些通道（特性）嵌入到单个通道中。第三个优点是在1×1卷积之后，可以添加非线性激活，如relu。非线性允许网络学习更复杂的功能。

作用

降维/升维

由于 1×1 并不会改变 height 和 width，改变通道的第一个最直观的结果，就是可以将原本的数据量进行增加或者减少。这里看其他文章或者博客中都称之为升维、降维。

增加非线性
1*1卷积核，可以在保持feature map尺度不变的（即不损失分辨率）的前提下大幅增加非线性特性（利用后接的非线性激活函数），把网络做的很deep。

跨通道信息交互（channal 的变换）
使用1x1卷积核，实现降维和升维的操作其实就是channel间信息的线性组合变化，3x3x64channels的输入后面添加一个1x1x28channels的卷积核，就变成了3x3x28channels的输出，原来的64个channels就可以理解为跨通道线性组合变成了28channels，这就是通道间的信息交互。

应用

inception

在GoogLeNet里。对于每一个Inception模块（如下图），原始模块是左图，右图中是加入了1×1卷积进行降维的。虽然左图的卷积核都比较小，但是当输入和输出的通道数很大时，乘起来也会使得卷积核参数变的很大，而右图加入1×1卷积后可以降低输入的通道数，卷积核参数、运算复杂度也就跟着降下来了。

以GoogLeNet的3a模块为例，输入的feature map是28×28×192，3a模块中1×1卷积通道为64，3×3卷积通道为128,5×5卷积通道为32，如果是左图结构，那么卷积核参数为1×1×192×64+3×3×192×128+5×5×192×32，而右图对3×3和5×5卷积层前分别加入了通道数为96和16的1×1卷积层，这样卷积核参数就变成了1×1×192×64+（1×1×192×96+3×3×96×128）+（1×1×192×16+5×5×16×32），参数大约减少到原来的三分之一。

同时在并行pooling层后面加入1×1卷积层后也可以降低输出的feature map数量，左图pooling后feature map是不变的，再加卷积层得到的feature map，会使输出的feature map扩大到416，如果每个模块都这样，网络的输出会越来越大。

而右图在pooling后面加了通道为32的1×1卷积，使得输出的feature map数降到了256。GoogLeNet利用1×1的卷积降维后，得到了更为紧凑的网络结构，虽然总共有22层，但是参数数量却只是8层的AlexNet的十二分之一（当然也有很大一部分原因是去掉了全连接层）

Resnet

ResNet同样也利用了1×1卷积，并且是在3×3卷积层的前后都使用了，不仅进行了降维，还进行了升维，参数数量进一步减少，如下图的结构

其中右图又称为”bottleneck design”，目的一目了然，就是为了降低参数的数目，第一个1x1的卷积把256维channel降到64维，然后在最后通过1x1卷积恢复，整体上用的参数数目：1x1x256x64 + 3x3x64x64 + 1x1x64x256 = 69632，而不使用bottleneck的话就是两个3x3x256的卷积，参数数目: 3x3x256x256x2 = 1179648，差了16.94倍。

对于常规ResNet，可以用于34层或者更少的网络中，对于Bottleneck Design的ResNet通常用于更深的如101这样的网络中，目的是减少计算和参数量（实用目的）。

4. 卷积算法

我们现在知道如何处理卷积中的深度。让我们继续讨论如何处理其他两个方向（高度和宽度）的卷积，以及重要的卷积算法。

下面是一些术语：

卷积核大小：卷积核在前面的章节讨论过。卷积核大小决定了卷积的感受野大小。

步长：它定义了卷积核扫过特征图时的步长大小。步长为1表示卷积核逐个扫过特征图的像素。步长为2表示卷积核以每步移动2个像素（即跳过一个元素）扫描特征图。我们可以用步长（>=2）对特征图进行向下采样。

填充：它定义了如何处理特征图的边框。如果必要的话，在输入边界进行全0填充，填充卷积（Tersorflow中padding=‘same’）将保持输出和输入的特征图尺寸相同。另一方面，完全不使用填充的卷积（ Tersorflow中padding=‘valid’）只对输入的像素执行卷积，而不在输入边界填充0。输出的特征图尺寸小于输入的特征图尺寸。

下图展示了一个卷积核大小为3、步长为1和填充为1的二维卷积。

对于尺寸为i、卷积核大小为k、填充为p、步长为s的输入图像，卷积后的输出图像尺寸o：

例如图中的例子：尺寸为i=5，卷积核大小k=3，填充p=1，步长s=1，卷积后的图像尺寸o=（5+2*1-3）/1 + 1 = 5

输入尺寸为i=8，卷积核大小k=3，填充p=1，步长s=2，卷积后的输出图像尺寸o=（8+2*1-3）/2 + 1 = 4。
因为前部分向下取整为3，加1得4。这也是很多网络取步长stride=2进行下采样的原理，得到输出尺寸为输入尺寸一半。

问题：为什么卷积核都是奇数呢？

更容易padding：
在卷积时，我们有时候需要卷积前后的尺寸不变。这时候我们就需要用到padding。假设图像的大小，也就是被卷积对象的大小为n×n，卷积核大小为k，padding设定为 (k-1)/2时，我们由计算公式可知 o=（n-k+2((k-1)/2)）/1 +1 = n ，即保证了卷积输出也为n×n。保证了卷积前后尺寸不变。
但是如果k是偶数的话，(k-1)/2就不是整数了。
更容易找到卷积锚点！
在CNN中，进行卷积操作时一般会以卷积核模块的一个位置为基准进行滑动，这个基准通常就是卷积核模块的中心。若卷积核为奇数，卷积锚点很好找，自然就是卷积模块中心，但如果卷积核是偶数，这时候就没有办法确定了，让谁是锚点似乎都不怎么好。

5. 可分离卷积

可分离卷积用于一些神经网络架构，例如 MobileNet。可分离卷积分为空间可分离卷积（spatially separable convolution）和深度可分离卷积（depthwise separable convolution）。

空间可分离卷积

空间可分离卷积在图像的2维空间维度上执行，例如高和宽两个维度。从概念上来看，顾名思义，空间可分离卷积将卷积分解为两项单独的操作。下面例子中，一个卷积核为 3x3 的 Sobel 卷积核被拆分成了 3x1 和 1x3的两个卷积核。

在卷积中，3x3 卷积核可以直接对图像进行卷积操作。在空间可分离卷积中，首先由 3x1 卷积核对图像进行卷积，之后再应用 1x3 卷积核。当执行相同的操作中，就值需要 6 个参数就够了，不用9个。

此外，比起卷积，空间可分离卷积要执行的矩阵乘法运算也更少。举一个具体的例子，用3x3卷积核在 5x5 图像上做卷积操作，要求横向扫描 3 个位置（以及纵向扫描 3 个位置）上的卷积核，共有 9 个位置，如下图标出的 9 个点所示。在每个位置都进行 9 次元素级别的乘法运算，共执行 9 x 9 = 81 次运算。

对于空间可分离卷积，我们首先在5x5图像上用3x1卷积。这样的话卷积核就能横向扫描5个位置，纵向扫描3个位置，总共有5x3=15个位置，如下图所标的点所示。这样的话共要进行15x3=45次乘法运算。现在得到的是一个3x5的矩阵，这个矩阵经过1x3卷积核的卷积操作——从横向上的 3 个位置以及纵向上的 3个位置来扫描该矩阵。对于这 9 个位置中的每一个，都进行了 3 次元素级别的乘法运算，这个步骤总共要求 9 x 3=27 次乘法运算。因此，总体上，该空间可分离卷积共进行了 45 + 27 = 72 次乘法运算，也比标准的卷积所要进行的乘法运算要少。

稍微概括一下上面的案例。假设我们现在设置 m x m 卷积核、卷积步长stride=1 、填充padding=0 ，对 N x N 图像做卷积操作。传统的卷积需要进行 (N-2) x (N-2) x m x m 次乘法运算，而空间可分离卷积只需要进行 N x (N-2) x m + (N-2) x (N-2) x m = (2N-2) x (N-2) x m 次乘法运算。空间可分离卷积与标准的卷积的计算成本之比为：

对于图像大小为N大于过滤器大小（N >> m），这个比率就变成了 2 / m，这就意味着在这种渐进情况（N >> m）下，对于一个 3x3 的filter，空间可分离卷积与标准的卷积之间的计算成本比率为 2/3；对于一个 5x5 的过滤器，比率为 2/5；对于一个 7x7 的过滤器，比如为 2/7，以此类推。

虽然空间可分离卷积节省了计算成本，但是它很少应用于深度学习中。一个主要的原因是，并不是所有的卷积核都能被拆分为 2 个更小的卷积核。如果我们用这种空间可分离卷积来取代所有传统的卷积，就会束缚我们去搜寻训练期间所有可能存在的卷积核，因为这个训练的解可能是次优的。

深度可分离卷积

深度可分离卷积 depthwise separable convolutions，它在深度学习中的应用要更普遍得多（例如在 MobileNet 和 Xception 中）。深度可分离卷积由两步组成：depthwise卷积以及 1x1 卷积。

介绍这些步骤前，值得回顾一下前面部分所提到的 2D 卷积和 1x1 卷积。让我们先快速过一下标准的 2D 卷积。举一个具体的案例，假设输入层的大小为 7 x 7 x 3（高 x 宽 x 通道），filter大小为 3 x 3 x 3，经过一个filter的 2D 卷积后，输出层的大小为 5 x 5 x 1（仅剩 1 个通道）。

一般来说，两个神经网络层间应用了多个filter，现在假设filter个数为 128。128 次 2D 卷积得到了 128 个 5 x 5 x 1 的输出映射。然后将这些映射堆叠为一个大小为 5 x 5 x 128 的单个层。空间维度如高和宽缩小了，而深度则扩大了。

现在有了深度可分离的卷积，让我们看看我们如何实现相同的转换。

首先，我们在输入层上应用深度卷积。我们在 2D 卷积中分别使用 3 个卷积核（每个的大小为 3 x 3 x 1），而不使用一个 3 x 3 x 3大小的filter。每个卷积核仅对输入层的 1 个通道做卷积，这样的卷积每次都得出大小为 5 x 5 x 1 的映射，之后再将这些映射堆叠在一起创建一个 5 x 5 x 3 的图像，最终得出一个大小为 5 x 5 x 3 的输出图像。这样的话，图像的空间维度缩小了，但是深度保持与原来的一样。

深度可分离卷积的第二步是扩大深度，我们用大小为 1x1x3 的卷积核做 1x1 卷积操作。每个 1x1x3 卷积核对 5 x 5 x 3 输入图像做卷积后都得出一个大小为 5 x 5 x1 的映射。

这样，做 128 次 1x1 卷积后，就可以得出一个大小为 5 x 5 x 128 的层

深度可分离卷积完成这两步后，同样可以将一个 7 x 7 x 3 的输入层转换为 5 x 5 x 128 的输出层。

深度可分离卷积的完整过程如下图所示：

因此，做深度可分离卷积的优势是什么？高效！相比于 2D 卷积，深度可分离卷积的执行次数要少得多。

让我们回忆一下 2D 卷积案例中的计算成本：128 个 3x3x3 的卷积核移动 5x5 次，总共需要进行的乘法运算总数为 128 x 3 x 3 x 3 x 5 x 5 = 86,400 次。

那可分离卷积呢？在深度卷积这一步，有 3 个 3x3x3 的卷积核移动 5x5 次，总共需要进行的乘法运算次数为 3x3x3x1x5x5 = 675 次；在第二步的 1x1 卷积中，有 128 个 1x1x3 的卷积核移动 5x5 次，总共需要进行的乘法运算次数为 128 x 1 x 1 x 3 x 5 x 5 = 9,600 次。因此，深度可分离卷积共需要进行的乘法运算总数为 675 + 9600 = 10,275 次，花费的计算成本仅为 2D 卷积的 12%。

因此对于任意大小的图像来说，应用深度可分离卷积能节省多少次计算呢？我们稍微概括一下上面的案例。假设输入图像大小为 H x W x D，2D 卷积的卷积步长为 1，填充为 0，卷积核大小为 h x h x D（两个 h 相等）、个数为 Nc。2D 卷积后，大小为 (H x W x D) 的输入层最终转换为大小为(H-h+1 x W-h+1 x Nc) 的输出层，总共需要进行的乘法运算次数为：

Nc x h x h x D x (H-h+1) x (W-h+1)

针对同样的转换，深度可分离卷积总共需要进行的乘法运算次数为：

D x h x h x 1 x (H-h+1) x (W-h+1) + Nc x 1 x 1 x D x (H-h+1) x (W-h+1) = (h x h + Nc) x D x (H-h+1) x (W-h+1)

深度可分离卷积与 2D 卷积之间的乘法运算次数之比为：

对于大部分现代框架而言，输出层往往都有许多个通道，例如几百甚至几千个通道。对于 Nc >> h 的层，上面的表达式会缩短为 1/h/h，这就意味着对于这个表达式而言，如果使用的 3 x 3大小的filter，这样2D卷积需要进行的乘法运算次数是深度可分离卷积的9 倍；使用大小为 5 x5 的过滤器，则是25 倍。

使用深度可分离卷积有什么缺点吗？当然有。深度可分离卷积减少了卷积中的参数数量。因此，在小型模型中，如果用深度可分离卷积替换2D卷积，则模型容量可以显着降低。结果，该模型可能变得次优。但是，如果使用得当，深度可分离卷积可以提高效率而不会明显损害模型的性能。

opencv 4.12.0版本发布详解：核心优化与新特性全解析 Risehuxyc #opencv opencv 人工智能计算机视觉
OpenCV4.12.0夏季更新带来核心模块优化、图像处理增强、深度学习支持扩展及新兴硬件适配，全面提升计算机视觉开发效率与性能。引言OpenCV（开源计算机视觉库）作为计算机视觉领域最受欢迎的开源库之一，在2025年7月发布了4.12.0版本。这个夏季更新带来了大量性能优化、新功能和错误修复，覆盖了核心模块、图像处理、3D校准、深度学习等多个领域。本文将详细介绍OpenCV4.12.0的主要更新
使用 C++ 和 OpenCV 进行表面划痕检测 whoarethenext c++opencv 开发语言划痕检测
使用C++和OpenCV进行表面划痕检测在工业自动化生产中，产品表面的质量控制至关重要。划痕作为一种常见的表面缺陷，其检测是许多领域（如金属、玻璃、塑料制造）质量保证流程中的一个关键环节。本文将介绍如何使用C++和强大的计算机视觉库OpenCV来实现一个基本的表面划痕检测算法。核心思路划痕通常在图像中表现为具有以下一个或多个特征的区域：高对比度的线性结构：划痕区域的像素强度通常会与其周围背景有明显
AI人工智能领域Actor - Critic算法的可视化分析 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能领域Actor-Critic算法的可视化分析关键词：Actor-Critic算法、强化学习、策略梯度、价值函数、可视化分析、神经网络、马尔可夫决策过程摘要：本文深入浅出地讲解Actor-Critic算法的核心原理，通过生活化的比喻和可视化分析，帮助读者理解这一强化学习中的重要算法。我们将从基础概念入手，逐步剖析算法架构，并通过Python代码实现和可视化演示，展示算法在实际问题中的应用
如何用深度学习实现图像风格迁移
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。前言图像风格迁移是人工智能领域中一个非常有趣且富有创意的应用。它能够让一张普通的照片瞬间变成梵高笔下的《星月夜》风格，或者像莫奈的《睡莲》一样充满艺术感。这种技术不仅在
“闭门造车”之多模态思路浅谈：自回归学习与生成 PaperWeekly 回归学习数据挖掘人工智能机器学习
©PaperWeekly原创·作者|苏剑林单位|科学空间研究方向|NLP、神经网络这篇文章我们继续来闭门造车，分享一下笔者最近对多模态学习的一些新理解。在前文《“闭门造车”之多模态思路浅谈：无损》中，我们强调了无损输入对于理想的多模型模态的重要性。如果这个观点成立，那么当前基于VQ-VAE、VQ-GAN等将图像离散化的主流思路就存在能力瓶颈，因为只需要简单计算一下信息熵就可以表明离散化必然会有严重
AI人工智能领域TensorFlow的模型训练策略 AIGC应用创新大全人工智能 tensorflow python ai
AI人工智能领域TensorFlow的模型训练策略关键词：TensorFlow、模型训练、深度学习、神经网络、优化策略、分布式训练、迁移学习摘要：本文将深入探讨TensorFlow框架下的模型训练策略，从基础概念到高级技巧，全面解析如何高效训练深度学习模型。我们将从数据准备、模型构建、训练优化到部署应用，一步步揭示TensorFlow模型训练的核心技术，并通过实际代码示例展示最佳实践。背景介绍目的
ROS2 通过相机确定物品坐标位置
要实现通过相机确定物品坐标位置，通常需要相机标定、物体检测和坐标转换几个步骤。下面我将提供一个完整的解决方案，包括相机标定、物体检测和3D坐标估计。1.系统架构相机标定-获取相机内参和畸变系数物体检测-使用OpenCV或深度学习模型检测物品坐标转换-将2D图像坐标转换为3D世界坐标ROS2集成-将上述功能集成到ROS2节点中2.实现步骤2.1创建功能包bashros2pkgcreateobject
【机器学习&深度学习】什么是量化？一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、量化的基本概念1.1量化对比示例1.2量化是如何实现的？二、为什么要进行量化？2.1解决模型体积过大问题2.2降低对算力的依赖2.3加速模型训练和推理2.4优化训练过程2.5降低部署成本小结：量化的应用场景三、量化的类型与实现3.1权重量化（WeightQuantization）3.2激活量化（ActivationQuantization）3.3梯度量化（GradientQuantiz
基于AutoCut实现在文档中按照片段剪辑视频 Mr数据杨 Python 音频技术音视频
本项目致力于通过构建一个具备深度学习支持的多功能视频处理环境，为用户提供高效、智能的视频编辑和字幕生成工具。依托Anaconda环境管理工具和PyTorch的GPU加速能力，用户能够迅速搭建一个符合项目需求的Python环境。结合FunClip的源代码以及相关插件的安装和配置，用户可充分利用项目所支持的图像、音频识别功能，并以极少的配置便获得理想的视频裁剪效果。项目的核心在于简化深度学习项目的环境
MATLAB 基于图像处理的杂草识别技术鱼弦 matlab 图像处理计算机视觉
MATLAB基于图像处理的杂草识别技术1.系统介绍杂草识别是精准农业中的重要环节，基于图像处理的杂草识别技术利用计算机视觉和机器学习算法，自动识别田间杂草，为精准施药提供决策支持。本系统基于MATLAB实现杂草图像处理，包括图像预处理、特征提取、分类识别等模块。2.应用场景精准农业:自动识别田间杂草，实现精准施药，减少农药使用量。生态监测:监测农田杂草种类和分布，评估生态环境。植物保护:识别有害杂
基于深度学习的和平精英（吃鸡）内置锁头训练摆烂仙君深度学习人工智能
前言本教程以和平精英为例，主要讲解如何构建深度学习模型对游戏中角色进行头部标注，并控制鼠标对其进行锁定射击，同时围绕其游戏防作弊系统进行算法攻防讲解，该方案对于csgo,cf等游戏也同样适用。请注意，该教程仅供娱乐教学，若本教程评论超过100，将会开源相关代码并对实际的代码部署进行进一步分析。一、和平精英伤害机制分析在《刺激战场》（现为《和平精英》）中，击中头部的伤害远高于身体其他部位，这是由游戏
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
迁移学习让深度学习更容易城市中迷途小书童
摘要：一文读懂迁移学习及其对深度学习发展的影响！深度学习在一些传统方法难以处理的领域有了很大的进展。这种成功是由于改变了传统机器学习的几个出发点，使其在应用于非结构化数据时性能很好。如今深度学习模型可以玩游戏，检测癌症，和人类交谈，自动驾驶。深度学习变得强大的同时也需要很大的代价。进行深度学习需要大量的数据、昂贵的硬件、甚至更昂贵的精英工程人才。在ClouderaFastForward实验室，我们
股票基金量化开源平台对比 Mr.小海开源开源金融
股票基金量化开源平台对比分析报告引言研究背景与意义在金融科技快速发展的背景下，量化交易已成为现代金融市场中投资者追求高效与精准交易的核心工具。通过程序化方式，投资者能够迅速处理海量市场数据，制定并执行复杂交易策略，其高效性、低情绪干扰及策略多样性等优势显著[1]。特别是随着人工智能技术的深化，2025年基于深度学习与机器学习的开源量化工具持续涌现，推动行业向数据驱动转型——量化交易将决策逻辑从经验
开源基金/股票量化平台调研报告 Mr.小海金融
开源基金/股票量化平台调研报告引言调研背景与目的近年来，随着人工智能技术的持续深化，量化交易领域迎来了深刻变革。2025年，基于深度学习和机器学习的开源工具不断涌现，不仅在技术层面实现突破，更在实际应用中展现出强大竞争优势，推动行业创新与升级[1].作为融合数学、统计与计算机技术的科技驱动型金融策略，量化交易通过自动化与数据驱动方法提升投资决策效率与准确性，已成为金融机构与投资者追求超额收益的重要
神经网络：模拟人脑的 AI 信息处理系统
1.神经网络是什么：AI的“数字大脑”1.1从生物神经元到人工神经元人脑由860亿个神经元通过突触连接形成复杂网络，神经元通过电信号传递信息——当信号强度超过阈值时，神经元被激活并向其他神经元发送信号。神经网络正是模仿这一结构设计的计算模型，其核心是“人工神经元”和“层级连接”。人工神经元接收多个输入信号，通过权重（模拟突触强度）加权求和，再经激活函数处理（模拟神经元“是否激活”），输出结果。例如
Python Gradio：快速搭建人脸识别应用 Python编程之道 Python人工智能与大数据 Python编程之道 python 开发语言 ai
PythonGradio：快速搭建人脸识别应用关键词：Python,Gradio,人脸识别,深度学习,计算机视觉,交互式应用,模型部署摘要：本文详细介绍了如何使用Python的Gradio库快速搭建一个交互式的人脸识别应用。我们将从基础概念出发，逐步讲解人脸识别的核心算法原理、Gradio的界面设计方法，并通过完整的项目实战演示如何将深度学习模型部署为可交互的Web应用。文章包含详细的代码实现、数
嵌入式学习-PyTorch（8）-day24 LGGGGGQ 学习 pytorch 深度学习
torch.optim优化器torch.optim是PyTorch中用于优化神经网络参数的模块，里面实现了一系列常用的优化算法，比如SGD、Adam、RMSprop等，主要负责根据梯度更新模型的参数。️核心组成1.常用优化器优化器作用典型参数torch.optim.SGD标准随机梯度下降，支持momentumlr,momentum,weight_decaytorch.optim.Adam自适应学习
【图像处理基石】如何入门大规模三维重建？小米玄戒Andrew 图像处理基石深度学习人工智能三维重建大规模三维重建立体视觉大模型 LLM
入门大规模三维重建需要从基础理论、核心技术到实践工具逐步深入，同时需关注该领域的经典工作和前沿进展。以下是分阶段的入门路径及值得重点学习的工作：一、基础理论与前置知识大规模三维重建的核心是从海量图像或传感器数据中恢复场景的三维结构，涉及计算机视觉、摄影测量、图形学、最优化等多个领域，需先掌握以下基础：数学基础线性代数：矩阵运算、特征值分解（用于相机姿态估计）、奇异值分解（SVD，用于基础矩阵求解）
OpenCV 入门指南 —— 从环境搭建到图像处理 m0_74751715 opencv 图像处理人工智能 python
文章目录前言一、什么是OpenCV？二、环境准备与安装1.Python虚拟环境2.安装OpenCV3.验证安装三、读取与显示图像四、常见图像处理操作1.色彩空间转换2.图像平滑（模糊）3.边缘检测（Canny算法）4.在图像上绘制图形与文字五、视频与摄像头操作六、推荐学习路线七、参考资料前言在计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）凭借其开源、
DataWhale 二月组队学习-深入浅出pytorch-Task04 －273.15K DataWhale组队学习学习 pytorch 人工智能
一、自定义损失函数1.损失函数的作用与自定义意义在深度学习中，损失函数（LossFunction）用于衡量模型预测结果与真实标签之间的差异，是模型优化的目标。PyTorch内置了多种常用损失函数（如交叉熵损失nn.CrossEntropyLoss、均方误差nn.MSELoss等）。但在实际任务中，可能需要针对特定问题设计自定义损失函数，例如：处理类别不平衡问题（如加权交叉熵）实现特殊业务需求（如对
大模型核心概念 | 嵌入模型（Embedding）、向量模型（Vector Model）
一、核心概念解析1.1嵌入模型（Embedding）作为AI领域的核心基础技术，嵌入模型通过将非结构化数据映射为低维稠密向量，实现语义特征的深度捕捉：文本嵌入：如将语句转换为1536维向量，使"机器学习"与"深度学习"的向量余弦相似度达0.92跨模态嵌入：支持图像与文本的联合向量空间映射，如CLIP模型实现文图互搜1.2向量模型（VectorModel）作为嵌入技术的下游应用体系，主要包含两大方向
Python实现神经网络算法指南代码编织匠人 python 神经网络算法
Python实现神经网络算法指南神经网络是一种模拟人脑神经元结构进行信息处理的机器学习算法。在深度学习领域中，神经网络是最为强大的算法之一。Python作为一门简单易学的编程语言，也成为了许多人选择实现神经网络算法的首选语言。在本篇文章中，我们将通过Python代码来实现神经网络算法。导入必要的库为了实现神经网络算法，我们需要导入一些必要的Python库，包括numpy和matplotlib。其中
用Python实现神经网络(四)
使用多层神经网络我们展示如何用TensorFlow构建多层神经网络###低出生率数据LowBirthratedata:#Columns Variable Abbreviation#---------------------------------------------------------------------#Lo
基于DTLC-AEC与DTLN的轻量级实时语音增强系统设计与实现神经网络15044 仿真模型神经网络机器学习图像处理 cnn 人工智能机器人
基于DTLC-AEC与DTLN的轻量级实时语音增强系统设计与实现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。1.引言在当今的互联网通信时代，实时语音通信已成为人们日常生活中不可或缺的一部分。然而，语音通信质量常常受到回声、背景噪声等因素的严重影响。为了解决这些问题，我们需要高效的语音增强技术。本文将详细介绍如何将DTLC-AEC（深度学习回声消
目标检测-YOLOv5 wydxry 深度学习目标检测 YOLO 人工智能深度学习
YOLOv5介绍YOLOv5是YOLO系列的第五个版本，由Ultralytics团队发布。虽然YOLOv5并非JosephRedmon原团队发布，但它在YOLOv4的基础上进行了重要的优化和改进，成为了深度学习目标检测领域中的热门模型之一。YOLOv5的优势不仅体现在其性能上，还包括其简洁易用、部署便捷的特点。相较于YOLOv4，YOLOv5对于代码框架的重构、推理速度的提升，以及模型的轻量化等方
端到端神经网络视频编解码器介绍码流怪侠音视频基础深度学习-PyTorch 神经网络视频编解码人工智能 github DCVC 端到端神经网路音视频
一、技术演进：从模块优化到全局智能的范式跃迁传统编解码器的效率天花板（1990-2017）架构局限：H.264/HEVC依赖手工设计的运动估计、DCT变换、熵编码模块，各模块独立优化导致全局效率损失。高分辨率瓶颈：4K/8K视频普及后，码率与画质矛盾激化，HEVC在VR场景下码率仍需>20Mbps才能保持无伪影画质。端到端神经编解码的爆发期（2017-2024）2017奠基年：Ballé团队提出超
【DW11月-深度学习】Task03前馈神经网络沫2021
参考链接：https://datawhalechina.github.io/unusual-deep-learning/#/4.%E5%89%8D%E9%A6%88%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C一、神经元模型2.1神经元1943年，美国神经生理学家沃伦·麦卡洛克(WarrenMcCulloch)和数学家沃尔特·皮茨(WalterPitts)对生物神经元进行
ONNX模型使用指南：从零开始掌握跨领域模型部署
ONNX模型使用指南：从零开始掌握跨领域模型部署ONNX模型作为一种开放式的神经网络交换格式，已成为AI模型部署的行业标准。当您获得一个没有使用说明的ONNX模型时，可以通过系统化的分析和部署流程，使其在不同领域发挥作用。本文将详细阐述如何分析模型结构、配置运行环境、准备特定领域输入数据、执行推理并处理结果，同时提供图像分类、自然语言处理、医疗影像分析、金融风控和自动驾驶等领域的具体应用示例，帮助
Android 异构计算与 OpenCL/CUDA/OpenVX 的协同方式实战解析观熵国产 NPU ×Android 推理优化 android 人工智能
Android异构计算与OpenCL/CUDA/OpenVX的协同方式实战解析关键词Android异构计算、OpenCL、CUDA、OpenVX、GPU加速、NPU调度、HSA架构、神经网络推理、计算图编排、SoC协同处理、AI芯片编程摘要随着国产SoC平台持续迭代，Android系统中异构计算模式已从传统CPU+GPU并行计算，扩展到集成NPU、DSP、ISP等多核单元的复杂协同体系。在AI推理
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号