zyw2002

深度学习中的卷积操作

本文从信号处理中的互相关运算引入深度学习中的卷积。
然后介绍了不同的卷积类型，以及如何在pytorch中使用这些卷积层。

（在看pytorch文档中的Conv1D/2D/3D的时候感到比较困惑，又很好奇深度学习中各种各样的卷积操作。于是结合整理几乎包含深度学习中所有的卷积操作，主要参考的有《Dive into Deep learning》, cs231, pytorch的官网文档，stackoverflow以及csdn和知乎上的介绍…简单记录一下）

文章目录

- 本文从信号处理中的`互相关运算`引入`深度学习中的卷积`。然后介绍了`不同的卷积类型`，以及如何在`pytorch`中使用这些卷积层。
一、前言
- 1.1 数学中的卷积操作
- 1.2 信号处理中的互相关运算
二、深度学习中的卷积
- 2.1 卷积操作
- 2.2. 填充和步幅
- - Padding
  - Stride
- 2.3 多输入通道和多输出通道
- - 多输入通道
  - 多输出通道
三、卷积类型
- 3.1 1D/2D/3D 卷积
- - 1D 卷积
  - 2D卷积
  - 3D卷积
- 3.2 1x1卷积
- 3.3 转置卷积（反卷积）
- - 1D反卷积
  - 2D反卷积
  - 3D反卷积
- 3.4 扩张卷积（空洞卷积）
- 3.5 可分离卷积
- - 空间可分离卷积
  - 深度可分离卷积
- 3.6 扁平卷积
- 3.7 分组卷积
参考

一、前言

1.1 数学中的卷积操作

图像中的卷积操作由数学中卷积的演化而来，所以我们先了解下数学中的卷积操作

直观理解：
在信号/图像处理中，卷积定义为
两个函数在反转和移位后的乘积的积分，以下可视化展示了这一过程：

数值理解：

连续函数的卷积
在数学中, 两个函数（比如 $f, g$ : $\mathbb{R}^d \rightarrow \mathbb{R}$ ）之间的 “卷积”被定义为
$g)(\mathbf{x})=\int f(\mathbf{z}) g(\mathbf{x}-\mathbf{z}) d \mathbf{z} .$
也就是说, 卷积是当把函数g “翻转” 并移位 $\mathbf{x}$ 时, 测量 $f$ 和 $g$ 之间的乘积。
离散函数的卷积
当为离散对象时, 积分就变成求和。例如：对于由索引为 $\mathbb{Z}$ 的、平方可和的、无限维向量集合中抽取的向量，我们得到以下定义：

$g)(i)=\sum_a f(a) g(i-a) .$

二维函数的卷积
对于二维张量, 则为 $f$ 的索引 $(a, b)$ 和 $g$ 的索引 $(i - a, j - b)$ 上的对应加和:
$j)=\sum_a \sum_b f(a, b) g(i-a, j-b) .$

1.2 信号处理中的互相关运算

严格来说，卷积层是个错误的叫法，因为它所表达的运算其实是互相关运算（cross-correlation），⽽不是卷积运算。在卷积层中，输⼊张量和核张量通过互相关运算产⽣输出张量。

直观理解：
互相关被称为滑动点积或两个函数的滑动内积。互相关的filters不需要反转，它直接在函数f中滑动。f和g之间的交叉区域是互相关，下图显示了相关性和互相关之间的差异：

数值理解:
在深度学习中，卷积中的filters是不需要反转的。严格来说，它们是互相关的，本质上是执行逐元素的乘法和加法，在深度学习中我们称之为卷积。

二、深度学习中的卷积

2.1 卷积操作

我们先以最简单的单通道的卷积为例，来讲解深度学习中的卷积操作~

单通道的卷积操作：
首先，我们使用3x3滤波器进行二维卷积运算：
左边是卷积层的输入，例如输入图像。右边是卷积滤波器(Filter)，也叫核(Kernel)。由于滤波器的形状是3x3，这被称为3x3卷积。

我们通过在输入上滑动这个滤波器来执行卷积运算。在每个位置，我们都进行逐元素矩阵乘法并对结果求和。这个总和进入特征图（feature map）。卷积运算发生的绿色区域被称为感受野(receptive field)。由于滤波器的大小，感受野也是3x3。

这里的卷积核在左上角，卷积运算“4”的输出显示在结果的特征图中。
然后我们将滤波器向右滑动并执行相同的操作，将结果也添加到特征映射中。

我们继续这样做，并在特征图中聚合卷积结果。下面的动画展示了整个卷积运算。

2.2. 填充和步幅

Padding

在应用多层卷积时，我们常常丢失边缘像素。由于我们通常使用小卷积核，因此对于任何单个卷积，我们可能只会丢失几个像素。但随着我们应用许多连续卷积层，累积丢失的像素数就多了。解决这个问题的简单方法即为填充（padding）

在输入图像的边界填充元素（通常填充元素是0）的方法叫做填充。

先看个动画直观感受下~ 灰色的区域是填充的地方

再来看看带填充的二维互相关运算~

通常, 如果我们添加 $p_h$ 行填充 (大约一半在顶部, 一半在底部）和 $p_w$ 列填充（左侧大约一半, 右侧一半）, 则输出形状将为

$\left(n_h-k_h+p_h+1\right) \times\left(n_w-k_w+p_w+1\right) 。$
这意味着输出的高度和宽度将分别增加 $p_h$ 和 $p_{w}$ 在许多情况下, 我们需要设置 $p_h=k_h-1$ 和 $p_w=k_w-1$ , 使输入和输出具有相同的高度和宽度。这样可以在构建网络时更容易地预测每个图层的输出形状。假设 $k_h$ 是奇数, 我们将在高度的两侧填充 $p_h / 2$ 行。如果 $k_h$ 是偶数, 则一种可能性是在输入顶部填充 $\left\lceil p_h / 2\right\rceil$ 行, 在底部填充 $\left\lfloor p_h / 2\right\rfloor$ 行。同理, 我们填充宽度的两侧。

卷积神经网络中卷积核的高度和宽度通常为奇数，例如1、3、5或7。选择奇数的好处是，保持空间维度的同时，我们可以在顶部和底部填充相同数量的行，在左侧和右侧填充相同数量的列。

此外，对于任何二维张量X，当满足： 1. 卷积核的大小是奇数； 2. 所有边的填充行数和列数相同； 3. 输出与输入具有相同高度和宽度则可以得出：输出Y[i, j]是通过以输X[i, j]为中心，与卷积核进行互相关计算得到的。

Stride

在计算互相关时，卷积窗口从输入张量的左上角开始，向下、向右滑动。在前面的例子中，我们默认每次滑动一个元素。但是，有时候为了高效计算或是缩减采样次数，卷积窗口可以跳过中间位置，每次滑动多个元素。

我们将每次滑动元素的数量称为步幅（stride）。

先看个动画直观感受下~ 注意观察stride变大时，输出的特征图变小

stride =1
stride=2

再来看看不同步幅的二维互相关运算~
下图是垂直步幅为3，水平步幅为2的二维互相关运算。
着色部分是输出元素以及用于输出计算的输入和内核张量元素：0×0+0×1+1×2+2×3=8、0×0+6×1+0×2+0×3=6。

可以看到，为了计算输出中第一列的第二个元素和第一行的第二个元素，卷积窗口分别向下滑动三行和向右滑动两列。但是，当卷积窗口继续向右滑动两列时，没有输出，因为输入元素无法填充窗口（除非我们添加另一列填充）
通常, 当垂直步幅为 $s_h$ 、水平步幅为 $s_w$ 时, 输出形状为

$\left\lfloor\left(n_h-k_h+p_h+s_h\right) / s_h\right\rfloor \times\left\lfloor\left(n_w-k_w+p_w+s_w\right) / s_w\right\rfloor .$

如果我们设置了 $p_h=k_h-1$ 和 $p_w=k_w-1$ , 则输出形状将简化为
$\left\lfloor\left(n_h+s_h-1\right) / s_h\right\rfloor \times\left\lfloor\left(n_w+s_w-1\right) / s_w\right\rfloor$ 。更进一步, 如果输入的高度和宽度可以被垂直和水平步幅整除, 则输出形状将为 $\left(n_h / s_h\right) \times\left(n_w / s_w\right)$ 。

不同Padding和Stride 的卷积效果：


No padding, no strides	Arbitrary padding, no strides	Half padding, no strides	Full padding, no strides

No padding, strides	Padding, strides	Padding, strides (odd)

2.3 多输入通道和多输出通道

多输入通道

在许多应用程序中，我们处理的是具有多个通道的图像。

Eg1: RGB图像
图像被表示为具有高度、宽度和深度的3D矩阵，其中深度对应于颜色通道(RGB)。
Eg2：卷积神经网络的图层
卷积网络层通常包含多个通道（通常为数百个通道），每个通道描述了上一层中不同的特征。

术语解释：

在上文中, 我们简单的把filter 和kernel等同。但是本质上有所区别。在介绍多通道之前，我们有必要分清这些术语的差别。

“kernels”指的是2D-权重矩阵。
“filters”用于堆叠在一起的多个kernels的3D-结构。

对于2D-filters，filters与kernels相同。但是对于3D-filters和深度学习中的大多数卷积而言，filters是kernels的集合。每个kernels都是独一无二的，强调了输入通道的不同特征。

多输入通道卷积过程如下：

将每个kernels应用到前一层的每个输入通道上，以生成一个输出通道。
我们为所有kernels重复这样的过程以生成多个输出通道。
然后将输出通道中的加在一起以形成单个输出通道。

计算多输入通道的互相关运算：

输入包含多个通道时，需要构造一个与输入数据具有相同输入通道数的卷积核，以便与输入数据进行互相关运算。
假设输入的通道数为 $c_i$ ，那么卷积核的输入通道数也需要为 $c_i$ 。如果卷积核的窗口形状是 $k_h×k_w$ ，那么当 $c_i=1$ 时，我们可以把卷积核看作形状为 $k_h×k_w$ 的二维张量。
然而，当 $c_i>1$ 时，我们卷积核的每个输入通道将包含形状为 $k_h×k_w$ 的张量。将这些张量 $c_i$ 连结在一起可以得到形状为 $c_i×k_h×k_w$ 的卷积核。
由于输入和卷积核都有 $c_i$ 个通道，我们可以对每个通道输入的二维张量和卷积核的二维张量进行互相关运算，再对通道求和（将ci的结果相加）得到二维张量。这是多通道输入和多输入通道卷积核之间进行二维互相关运算的结果。

再来看个动画直观感受下趴~

假设我们有一个32x32x3的图像，我们使用一个大小为5x5x3的滤波器(注意卷积滤波器的深度与图像的深度相匹配，都是3)。当滤波器位于特定位置时，它覆盖了输入的一小部分，然后我们执行上面描述的卷积操作。唯一不同的是，这次我们在3D而不是2D中做矩阵相乘的和，但结果仍然是一个标量。我们像上面那样在输入上滑动过滤器，并在每个位置执行卷积，将结果聚合在特征图中。该特征映射的大小为32x32x1，如图所示 :

多输出通道

如果我们使用10个不同的滤波器，我们将得到10个大小为32x32x1的特征映射，并将它们沿着深度维度堆叠，将得到卷积层的最终输出:大小为32x32x10的体积，如右边的大蓝框所示。
下面我们可以看到两个特征映射是如何沿着深度维度堆叠的。每个滤波器的卷积操作是独立执行的，得到的特征映射是不相交的。

让我们再来看看多输出通道的互相关运算~
如下图，我们采用具有3个输入通道和2个输出通道的1x1卷积核。 (输出通道数和核函数的组数相同，如浅蓝色和深蓝色两组，每一组核函数对应一个输出的2维特征图)

用 $c_i$ 和 $c_o$ 分别表示输入和输出通道的数目，并让 $k_h$ 和 $k_w$ 为卷积核的高度和宽度。为了获得多个通道的输出，我们可以为每个输出通道创建一个形状为 $c_i×k_h×k_w$ 的卷积核张量，这样卷积核的形状是 $c_o×c_i×k_h×k_w$ 。在互相关运算中，每个输出通道先获取所有输入通道，再以对应该输出通道的卷积核计算出结果。

三、卷积类型

3.1 1D/2D/3D 卷积

1D卷积：主要用于输入是连续的，如文本或音频。
2D卷积：主要用于输入图像的地方。
3D卷积-主要用于三维医学成像或检测视频中的事件。

卷积的维度是怎么定义的呢？这里卷积的维度可不是输入或者卷积核的维度哦~ 而是由卷积核的移动的维度来定的！
如下图所示：当卷积核只能沿着x轴移动时，就是1D卷积；当沿着x,y两个轴移动时就是2D卷积…以此类推


1D卷积	2D卷积	3D卷积

卷积核只能沿着x轴移动	卷积核可以沿着x轴，y轴移动	卷积核可以沿着x轴，y轴，z轴移动

为了说明卷积的维度和输入、卷积核、输出的维度无关，只和卷积核的移动维度有关，我们来看看几个例子：

1D卷积-1D输入

输入：一维
卷积核：一维
输出：一维
卷积核向右移动

1D卷积-2D输入

输入是二维的： input =[W,L]
卷积核是二维的，卷积核的高度(L)和输入的高度(L)相同：filter = [k,L]
输出时1维的：output = [W]
如果有N个卷积核，则输出的大小是二维的（1DxN）但此时依然是1D卷积（因为卷积核的移动方向只有1个维度）

2D卷积-3D输入 （LeNet,VGG都会用到这种卷积）

输入是3D张量：input = [W,H,L]
卷积核也是3D的，且卷积核的深度(L)和输入的通道数(L)相同： filter = [k,k,L]
输出是一个二维张量： output = [W,H]
此时卷积核只朝着x,y轴两个方向移动，因此是2D卷积。
如果此时有N个卷积核，那么输出是3D张量（2DxN）。

假如有2个卷积核，则输出的大小是2Dx2。如下图所示：

1D 卷积

直观理解：

在PyTorch中，分别在torch.nn和torch.nn.functional两个模块都有conv1d，conv2d和conv3d；从计算过程来说，两者本身没有太大区别；但是torch.nn下的都是卷积层，conv的参数都是经过训练得到；torch.nn.functional下的都是函数，其参数可以人为设置。本文中，我们以torch.nn为例

torch.nn.Conv1d

# Class
torch.nn.Conv1d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros', device=None, dtype=None)

功能: 对由多个输入平面组成的输入信号应用1D卷积。

输入大小 $\left(N, C_{\mathrm{in}}, L\right)$ 输出大小 $\left(N, C_{\text {out }}, L_{\text {out }}\right)$ 计算过程如下：

$\operatorname{out}\left(N_i, C_{\text {out }j}\right)=\operatorname{bias}\left(C_{\text {out }j}\right)+\sum_{k=0}^{C_{i n}-1} \text { weight }\left(C_{\text {out }_j}, k\right) \star \operatorname{input}\left(N_i, k\right)$

其中 $\star$ 是互相关（cross-correlation）运算符, $N$ 是批大小（batch size）, $C$ 表示通道数, $L$ 是信号序列的长度。

参数
- in_channels (int) – 输入图像中的通道数
- out_channels (int) – 由卷积产生的通道数
- kernel_size (int or tuple) – 卷积核的大小
- stride (int or tuple, optional) – 卷积的步幅。默认值:1
- padding (int, tuple or str, optional) – 在输入的两边添加填充。默认值:0
- padding_mode (str*, optional*) – 'zeros', 'reflect', 'replicate' 或者 'circular'. 默认：'zeros'
- dilation (int *or tuple, optional*) – 核元素之间的间距。默认值:1 （具体理解见后文的【空洞卷积】）
- groups (int*, optional*) – 从输入通道到输出通道的阻塞连接数。默认值:1
- bias (bool*, optional*) – 如果为True，则向输出添加一个可学习偏差。默认值:True

上述的参数中，比较特殊的参数是：group

当group=1时，每一层输出由所有输入分别与卷积核卷积的累加得到

当groups=2时，该操作等价于有两个并行的conv层，每个层看到一半的输入通道并产生一半的输出通道，然后两者都连接起来。

当group=In_channel时，每个输入通道都与它自己的一组滤波器( $out_channels in_channels size=\frac{\text { out\_channels }}{\text { in\_channels }}$ )进行卷积


group=1	group=3

形状
- 输入： $\left(N, C_{i n}, L_{i n}\right)$ 或者 $\left(C_{i n}, L_{i n}\right)$
- 输出： $\left(N, C_{\text {out }}, L_{\text {out }}\right)$ 或者 $\left(C_{\text {out }}, L_{\text {out }}\right)$ , 其中

$kernel_size − 1 ) − 1 stride + 1 ⌋ L_{\text {out }}=\left\lfloor\frac{L_{i n}+2 \times \text { padding }-\text { dilation } \times(\text { kernel\_size }-1)-1}{\text { stride }}+1\right\rfloor$

变量
- weight (Tensor) - 模型的可学习权重，大小为 $in_channels groups , k e r n e l _ s i z e ) (out\_channels, \frac{\text { in\_channels }}{\text { groups }}, kernel\_size)$ . 这些权重是从 $\mathcal{U}(-\sqrt{k}, \sqrt{k})$ 中采样得到的。其中 $kernel_size k=\frac{\text { groups }}{C_{\text {in }} * \text { kernel\_size }}$
- bias (Tensor) - 模型的可学习偏置，大小为 $out\_channels)$ . 如果bias 是 True, 那么这个值是从 $\mathcal{U}(-\sqrt{k}, \sqrt{k})$ 中采样得到，其中 $kernel_size k=\frac{\text { groups }}{C_{\text {in }} * \text { kernel\_size }}$
例子

m = nn.Conv1d(16, 33, 3, stride=2)
input = torch.randn(20, 16, 50)
output = m(input)

2D卷积

直观理解：

单Filter
如下图所示，可以将这个过程视作将一个3D-filters矩阵滑动通过输入层。注意，这个输入层和filters的深度都是相同的（即通道数=卷积核数）。
这个 3D-filters仅沿着 2 个方向（图像的高和宽）移动（这也是为什么 3D-filters即使通常用于处理3D-体积数据，但这样的操作还是被称为 2D-卷积）。

多Filters
多Filters可实现在不同深度的层之间实现过渡
假设输入层有 Din 个通道，而想让输出层的通道数量变成 Dout，我们需要做的仅仅是将 Dout个filters应用到输入层中。每一个filters都有Din个卷积核，都提供一个输出通道。在应用Dout个filters后，Dout个通道可以共同组成一个输出层。标准 2D-卷积，通过使用 Dout 个filters，将深度为 Din 的层映射为另一个深度为 Dout 的层。

数值理解：

torch.nn.Conv2d

CLASS
torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros', device=None, dtype=None)

功能: 对由多个输入平面组成的输入信号应用2D卷积。

输入大小 $\left(N, C_{\mathrm{in}}, H，W\right)$ 输出大小 $\left(N, C_{\text {out }}, H_{\text {out }},W_{out}\right)$ 计算过程如下：

其中 $\star$ 是2D互相关（cross-correlation）运算符, $N$ 是批大小（batch size）, $C$ 表示通道数, $L$ 为输入平面的高度(像素)， $W$ 为宽度(像素)。

参数
- in_channels (int) – 输入图像中的通道数
- out_channels (int) – 由卷积产生的通道数
- **kernel_size (int or tuple) –** 卷积核的大小
- stride (int or tuple, optional) – 卷积的步幅。默认值:1
- padding (int, tuple or str, optional) – 在输入的两边添加填充。默认值:0
- padding_mode (str*, optional*) – 'zeros', 'reflect', 'replicate' 或者 'circular'. 默认：'zeros'
- dilation (int *or tuple, optional*) – 核元素之间的间距。默认值:1
- groups (int*, optional*) – 从输入通道到输出通道的阻塞连接数。默认值:1
- bias (bool*, optional*) – 如果为True，则向输出添加一个可学习偏差。默认值:True
形状
- 输入： $\left(N, C_{i n}, H_{in},W_{in}\right)$ 或者 $\left(C_{i n}, H_{i n},W_{in}\right)$
- 输出： $\left(N, C_{\text {out }}, H_{\text {out }},W_{out}\right)$ 或者 $\left(C_{\text {out }}, H_{\text {out }},W_{out}\right)$ , 其中

$kernel_size [ 0 ] − 1 ) − 1 stride [ 0 ] + 1 ⌋ W out = ⌊ W in + 2 × padding [ 1 ] − dilation [ 1 ] × ( kernel_size [ 1 ] − 1 ) − 1 stride [ 1 ] + 1 ∣ \begin{aligned}& H_{\text {out }}=\left\lfloor\frac{H_{\text {in }}+2 \times \text { padding }[0]-\text { dilation }[0] \times(\text { kernel\_size }[0]-1)-1}{\text { stride }[0]}+1\right\rfloor \\& W_{\text {out }}=\left\lfloor\frac{W_{\text {in }}+2 \times \text { padding }[1]-\text { dilation }[1] \times(\text { kernel\_size }[1]-1)-1}{\text { stride }[1]}+1 \mid\right.\end{aligned}$

变量
- weight (Tensor) - 模型的可学习权重，大小为 $in_channels groups , k e r n e l _ s i z e [ 0 ] , k e r n e l _ s i z e [ 1 ] ) (out\_channels, \frac{\text { in\_channels }}{\text { groups }},kernel\_size[0], kernel\_size[1])$ . 这些权重是从 $\mathcal{U}(-\sqrt{k}, \sqrt{k})$ 中采样得到的。其中 $kernel_size k=\frac{\text { groups }}{C_{\text {in }} * \text { kernel\_size }}$
- bias (Tensor) - 模型的可学习偏置，大小为 $out\_channels)$ . 如果bias 是 True, 那么这个值是从 $\mathcal{U}(-\sqrt{k}, \sqrt{k})$ 中采样得到，其中 $kernel_size [ i ] \frac{\text { groups }}{C_{\mathrm{in}} * \prod_{i=0}^1 \text { kernel\_size }[i]}$
例子

>>> # With square kernels and equal stride
>>> m = nn.Conv2d(16, 33, 3, stride=2)
>>> # non-square kernels and unequal stride and with padding
>>> m = nn.Conv2d(16, 33, (3, 5), stride=(2, 1), padding=(4, 2))
>>> # non-square kernels and unequal stride and with padding and dilation
>>> m = nn.Conv2d(16, 33, (3, 5), stride=(2, 1), padding=(4, 2), dilation=(3, 1))
>>> input = torch.randn(20, 16, 50, 100)
>>> output = m(input)

3D卷积

通过将2D-卷积的推广，在3D-卷积定义为filters的深度小于输入层的深度（即卷积核的个数小于输入层通道数），故3D-filters需要在三个维度上滑动（输入层的长、宽、高）。
在filters上滑动的每个位置执行一次卷积操作，得到一个数值。当filters滑过整个3D空间，输出的结构也是3D的。

3D卷积在执行时不仅在各自的通道中共享卷积核，而且在各帧（连续k帧）之间也共享卷积核；

2D convolution: 使用场景一般是单通道的数据（例如MNIST），输出也是单通道，对整个通道同时执行卷积操作；

2D convolution on multiple frames: 使用场景一般是多通道的数据（例如cifar-10），输出也是单通道，对整个通道同时执行卷积操作；2D卷积在执行时是在各自的通道中共享卷积核；

3D convolution: 使用场景一般是多帧（单/多通道）的frame-like数据（视频帧），且输出也是多帧，依次对连续k帧的整个通道同时执行卷积操作；

视觉角度: 先看个动画直观感受下~
如下图，一共有4个卷积核，其中frame1和frame2共享一个卷积核，frame2和frame3共享一个卷积核… 每个卷积核对应一个输出通道。

计算角度：
假设现在有一个3帧的画面，且每一帧有2个通道，在时间维度的跨度为2帧，卷积核的宽度为3。

由于在时间维度的跨度为2帧，且每帧有2个通道，所以从“矩阵”个数来看的话，我们的卷积核应该有4矩阵。

torch.nn.Conv3d

CLASS
torch.nn.Conv3d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros', device=None, dtype=None)

功能: 对由多个输入平面组成的输入信号应用3D卷积。

输入大小 $\left(N, C_{\mathrm{in}},D， H，W\right)$ 输出大小 $\left(N, C_{\text {out }},D_{out}, H_{\text {out }},W_{out}\right)$ 计算过程如下：

其中 $\star$ 是3D互相关（cross-correlation）运算符, $N$ 是批大小（batch size）, $C$ 表示通道数, $L$ 为输入平面的高度(像素)， $W$ 为宽度(像素)。

参数
- in_channels (int) – 输入图像中的通道数
- out_channels (int) – 由卷积产生的通道数
- kernel_size (int or tuple) – 卷积核的大小
- stride (int or tuple, optional) – 卷积的步幅。默认值:1
- padding (int, tuple or str, optional) – 在输入的两边添加填充。默认值:0
- padding_mode (str*, optional*) – 'zeros', 'reflect', 'replicate' 或者 'circular'. 默认：'zeros'
- dilation (int *or tuple, optional*) – 核元素之间的间距。默认值:1
- groups (int*, optional*) – 从输入通道到输出通道的阻塞连接数。默认值:1
- bias (bool*, optional*) – 如果为True，则向输出添加一个可学习偏差。默认值:True
形状
- 输入： $\left(N, C_{i n}, D_{in},H_{in},W_{in}\right)$ 或者 $\left(C_{i n}, D_{in},H_{i n},W_{in}\right)$
- 输出： $\left(N, C_{\text {out }},D_{out}, H_{\text {out }},W_{out}\right)$ 或者 $\left(C_{\text {out }}, D_{out},H_{\text {out }},W_{out}\right)$ , 其中

$kernel_size [ 0 ] − 1 ) − 1 stride [ 0 ] + 1 ⌋ H out = ⌊ H in + 2 × padding [ 1 ] − dilation ⁡ [ 1 ] × ( kernel_size [ 1 ] − 1 ) − 1 stride [ 1 ] + 1 ⌋ W out = ⌊ W in + 2 × padding [ 2 ] − dilation ⁡ [ 2 ] × ( kernel_size [ 2 ] − 1 ) − 1 stride [ 2 ] + 1 ⌋ \begin{aligned}& D_{\text {out }}=\left\lfloor\frac{D_{\text {in }}+2 \times \text { padding }[0]-\text { dilation }[0] \times(\text { kernel\_size }[0]-1)-1}{\text { stride }[0]}+1\right\rfloor \\& H_{\text {out }}=\left\lfloor\frac{H_{\text {in }}+2 \times \text { padding }[1]-\operatorname{dilation}[1] \times(\text { kernel\_size }[1]-1)-1}{\text { stride }[1]}+1\right\rfloor \\& W_{\text {out }}=\left\lfloor\frac{W_{\text {in }}+2 \times \text { padding }[2]-\operatorname{dilation}[2] \times(\text { kernel\_size }[2]-1)-1}{\text { stride }[2]}+1\right\rfloor\end{aligned}$

变量
- weight (Tensor) - 模型的可学习权重，大小为 $in_channels groups , k e r n e l _ s i z e [ 0 ] , k e r n e l _ s i z e [ 1 ] ) (out\_channels, \frac{\text { in\_channels }}{\text { groups }},kernel\_size[0], kernel\_size[1])$ . 这些权重是从 $\mathcal{U}(-\sqrt{k}, \sqrt{k})$ 中采样得到的。其中 $kernel_size [ i ] k=\frac{\text { groups }}{C_{\mathrm{in}} * \prod_{i=0}^2 \text { kernel\_size }[i]}$
- bias (Tensor) - 模型的可学习偏置，大小为 $out\_channels)$ . 如果bias 是 True, 那么这个值是从 $\mathcal{U}(-\sqrt{k}, \sqrt{k})$ 中采样得到，其中 $kernel_size [ i ] \frac{\text { groups }}{C_{\mathrm{in}} * \prod_{i=0}^2 \text { kernel\_size }[i]}$
例子

>>> # With square kernels and equal stride
>>> m = nn.Conv3d(16, 33, 3, stride=2)
>>> # non-square kernels and unequal stride and with padding
>>> m = nn.Conv3d(16, 33, (3, 5, 2), stride=(2, 1, 1), padding=(4, 2, 0))
>>> input = torch.randn(20, 16, 10, 50, 100)
>>> output = m(input)

3.2 1x1卷积

在这篇论文中《Network In Network》首次提出的了1x1的卷积

1×1卷积，即 $k_h=k_w=1$ ，看起来似乎没有多大意义。毕竟，卷积的本质是有效提取相邻像素间的相关特征，而1×1卷积显然没有此作用。尽管如此，1×1仍然十分流行，经常包含在复杂深层网络的设计中。
因为使用了最小窗口，1×1卷积失去了卷积层的特有能力——在高度和宽度维度上，识别相邻元素间相互作用的能力。其实1×1卷积的唯一计算发生在通道上。

直观理解：
下图中描述了：在一个维度为 H x W x D的输入层上的操作方式。经过大小为 1 x 1 x D 的filters的 1 x 1 卷积，输出通道的维度为 H x W x 1。如果我们执行 N 次这样的 1 x 1 卷积，然后将这些结果结合起来，我们能得到一个维度为 H x W x N 的输出层。

1x1 卷积的优点：

从上图来看，1x1的卷积表面上好像只是feature maps中的每个值乘了一个数，但实际上不仅仅如此，首先由于会经过激活层，所以实际上是进行了非线性映射，其次就是可以改变feature maps的channel数目。
在执行计算昂贵的 3 x 3 卷积和 5 x 5 卷积前，往往会使用 1 x 1 卷积来减少计算量。此外，它们也可以利用调整后的非线性激活函数来实现双重用途。

1 x 1卷积的一些优点是：

降维以实现高效计算 (经过1 x 1卷积后，我们在深度方向上减小了尺度即减少通道数)
高效的低维嵌入或特征池(假设原始输入有200个通道，则1 x 1卷积会将这些通道嵌入到单个通道中。)。
卷积后再次应用非线性(在1 x 1卷积之后，可以添加非线性激活函数，例如ReLU，非线性允许网络学习更复杂的功能)。

3.3 转置卷积（反卷积）

反卷积可以应用在生成对抗网络(GAN)，的生成器上，大家可以参考DCGAN进行理解。

反卷积（deconvolution）也可以称为卷积转置或转置卷积（transposed convolution），但其并非卷积操作的反向操作。由上边的介绍可以看出，卷积操作会将输入映射到一个更小的特征图中，那么反卷积则可以将这个小的特征图映射为一个大的特征图。我们可以将其理解为上采样。

卷积矩阵
先理解一个概念，卷积矩阵：把卷积操作写成一个矩阵的形式，通过一次矩阵乘法就可以完成整个卷积操作。
卷积矩阵的构造是通过对卷积核的重排列构造的。

例如，对于一个3x3的卷积核
$\left[\begin{array}{lll} 1 & 4 & 1 \\ 1 & 4 & 3 \\ 3 & 3 & 1 \end{array}\right]$
可以重排得到卷积矩阵：
$\left[\begin{array}{llllllllllllllll} 1 & 4 & 1 & 0 & 1 & 4 & 3 & 0 & 3 & 3 & 1 & 0 & 0 & 0 & 0 & 0 \\ 0 & 1 & 4 & 1 & 0 & 1 & 4 & 3 & 0 & 3 & 3 & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 & 4 & 1 & 0 & 1 & 4 & 3 & 0 & 3 & 3 & 1 & 0 \\ 0 & 0 & 0 & 0 & 0 & 1 & 4 & 1 & 0 & 1 & 4 & 3 & 0 & 3 & 3 & 1 \end{array}\right]$
假设输入矩阵是：
$\left[\begin{array}{llll} 4 & 5 & 8 & 7 \\ 1 & 8 & 8 & 8 \\ 3 & 6 & 6 & 4 \\ 6 & 5 & 7 & 8 \end{array}\right]$

将输入矩阵转换为一个1x16的列向量
$\left[\begin{array}{llllllllllllllll} 4 & 5 & 8 & 7 & 1 & 8 & 8 & 8 & 3 & 6 & 6 & 4 & 6 & 5 & 7 & 8 \end{array}\right]$
与卷积矩阵相乘后得:
$\left[\begin{array}{llll} 122 & 148 & 126 & 134 \end{array}\right]$
再reshape成：
$\left[\begin{array}{ll} 122 & 148 \\ 126 & 134 \end{array}\right]$

对比原始的卷积操作，以1为步长没有填充，那么卷积结果也为：
$\left[\begin{array}{ll} 122 & 148 \\ 126 & 134 \end{array}\right]$

反卷积的操作：

由此，我们可以得出：
当我们将反卷积矩阵进行转置，那么就可以得到一个16x4的转置卷积矩阵，对于输出的2x2的feature map，reshape为4x1，再将二者相乘即可得到一个16x1的转置卷积的结果
$\left[\begin{array}{llll} 1 & 0 & 0 & 0 \\ 4 & 1 & 0 & 0 \\ 1 & 4 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 1 & 0 & 1 & 0 \\ 4 & 1 & 4 & 1 \\ 3 & 4 & 1 & 4 \\ 0 & 3 & 0 & 1 \\ 3 & 0 & 1 & 0 \\ 3 & 3 & 4 & 1 \\ 1 & 3 & 3 & 4 \\ 0 & 1 & 0 & 3 \\ 0 & 0 & 3 & 0 \\ 0 & 0 & 3 & 3 \\ 0 & 0 & 1 & 3 \\ 0 & 0 & 0 & 1 \end{array}\right] \times\left[\begin{array}{c} 122 \\ 148 \\ 126 \\ 134 \end{array}\right]=\left[\begin{array}{c} 2 \\ 9 \\ 6 \\ 1 \\ 6 \\ 29 \\ 30 \\ 7 \\ 10 \\ 29 \\ 33 \\ 13 \\ 12 \\ 24 \\ 16 \\ 4 \end{array}\right] \text {, }$

此时再reshape即可得到一个4x4的输出。
$\left[\begin{array}{cccc} 2 & 9 & 6 & 1 \\ 6 & 29 & 30 & 7 \\ 10 & 29 & 33 & 13 \\ 12 & 24 & 16 & 4 \end{array}\right]$
这样就通过转置卷积将2x2的矩阵反卷为一个4x4的矩阵，但是从结果也可以看出反卷积的结果与原始输入信号不同。只是保留了位置信息，以及得到了想要的形状。

不同Padding和Stride 的反卷积效果：


No padding, no strides, transposed	Arbitrary padding, no strides, transposed	Half padding, no strides, transposed	Full padding, no strides, transposed

No padding, strides, transposed	Padding, strides, transposed	Padding, strides, transposed (odd)

1D反卷积

torch.nn.ConvTranspose1d

CLASS
torch.nn.ConvTranspose1d(in_channels, out_channels, kernel_size, stride=1, padding=0, output_padding=0, groups=1, bias=True, dilation=1, padding_mode='zeros', device=None, dtype=None)

功能: 对由多个输入平面组成的输入信号应用1D反卷积。
参数
- in_channels (int) – 输入图像中的通道数
- out_channels (int) – 由卷积产生的通道数
- **kernel_size (int or tuple) –** 卷积核的大小
- stride (int or tuple, optional) – 卷积的步幅。默认值:1
- padding (int, tuple or str, optional) – 在输入的两边添加填充。默认值:0
- padding_mode (str*, optional*) – 'zeros', 'reflect', 'replicate' 或者 'circular'. 默认：'zeros'
- dilation (int *or tuple, optional*) – 核元素之间的间距。默认值:1
- groups (int*, optional*) – 从输入通道到输出通道的阻塞连接数。默认值:1
- bias (bool*, optional*) – 如果为True，则向输出添加一个可学习偏差。默认值:True
形状
- 输入： $\left(N, C_{i n}, L_{i n}\right)$ 或者 $\left(C_{i n}, L_{i n}\right)$
- 输出： $\left(N, C_{\text {out }}, L_{\text {out }}\right)$ 或者 $\left(C_{\text {out }}, L_{\text {out }}\right)$ , 其中

$L_{out}=(L_{in}−1)×stride−2×padding+dilation×(kernel\_size−1)+output\_padding+1$

变量
- weight (Tensor) - 模型的可学习权重，大小为 $out_channels groups , k e r n e l _ s i z e ) (in\_channels, \frac{\text { out\_channels }}{\text { groups }}, kernel\_size)$ . 这些权重是从 $\mathcal{U}(-\sqrt{k}, \sqrt{k})$ 中采样得到的。其中 $kernel_size k=\frac{\text { groups }}{C_{\text {out }} * \text { kernel\_size }}$
- bias (Tensor) - 模型的可学习偏置，大小为 $out\_channels)$ . 如果bias 是 True, 那么这个值是从 $\mathcal{U}(-\sqrt{k}, \sqrt{k})$ 中采样得到，其中 $kernel_size k=\frac{\text { groups }}{C_{\text {out }} * \text { kernel\_size }}$

2D反卷积

torch.nn.ConvTranspose2d ：

CLASS
torch.nn.ConvTranspose2d(in_channels, out_channels, kernel_size, stride=1, padding=0, output_padding=0, groups=1, bias=True, dilation=1, padding_mode='zeros', device=None, dtype=None)

功能: 对由多个输入平面组成的输入信号应用2D反卷积。
参数
- in_channels (int) – 输入图像中的通道数
- out_channels (int) – 由卷积产生的通道数
- **kernel_size (int or tuple) –** 卷积核的大小
- stride (int or tuple, optional) – 卷积的步幅。默认值:1
- padding (int, tuple or str, optional) – 在输入的两边添加填充。默认值:0
- padding_mode (str*, optional*) – 'zeros', 'reflect', 'replicate' 或者 'circular'. 默认：'zeros'
- dilation (int *or tuple, optional*) – 核元素之间的间距。默认值:1
- groups (int*, optional*) – 从输入通道到输出通道的阻塞连接数。默认值:1
- bias (bool*, optional*) – 如果为True，则向输出添加一个可学习偏差。默认值:True
形状
- 输入： $\left(N, C_{i n}, H_{in},W_{in}\right)$ 或者 $\left(C_{i n}, H_{i n},W_{in}\right)$
- 输出： $\left(N, C_{\text {out }}, H_{\text {out }},W_{out}\right)$ 或者 $\left(C_{\text {out }}, H_{\text {out }},W_{out}\right)$ , 其中

$H_{out}=(H_{in}−1)×stride[0]−2×padding[0]+dilation[0]×(kernel\_size[0]−1)+output\_padding[0]+1$

$W_{out}=(W_{in}−1)×stride[1]−2×padding[1]+dilation[1]×(kernel\_size[1]−1)+output\_padding[1]+1$

变量
- weight (Tensor) - 模型的可学习权重，大小为 $out_channels groups , k e r n e l _ s i z e [ 0 ] , k e r n e l _ s i z e [ 1 ] ) (in\_channels, \frac{\text { out\_channels }}{\text { groups }},kernel\_size[0], kernel\_size[1])$ . 这些权重是从 $\mathcal{U}(-\sqrt{k}, \sqrt{k})$ 中采样得到的。其中 $kernel_size k=\frac{\text { groups }}{C_{\text {out }} * \text { kernel\_size }}$
- bias (Tensor) - 模型的可学习偏置，大小为 $out\_channels)$ . 如果bias 是 True, 那么这个值是从 $\mathcal{U}(-\sqrt{k}, \sqrt{k})$ 中采样得到，其中 $kernel_size [ i ] \frac{\text { groups }}{C_{\mathrm{out}} * \prod_{i=0}^1 \text { kernel\_size }[i]}$
例子

>>> # With square kernels and equal stride
>>> m = nn.ConvTranspose2d(16, 33, 3, stride=2)
>>> # non-square kernels and unequal stride and with padding
>>> m = nn.ConvTranspose2d(16, 33, (3, 5), stride=(2, 1), padding=(4, 2))
>>> input = torch.randn(20, 16, 50, 100)
>>> output = m(input)
>>> # exact output size can be also specified as an argument
>>> input = torch.randn(1, 16, 12, 12)
>>> downsample = nn.Conv2d(16, 16, 3, stride=2, padding=1)
>>> upsample = nn.ConvTranspose2d(16, 16, 3, stride=2, padding=1)
>>> h = downsample(input)
>>> h.size()
torch.Size([1, 16, 6, 6])
>>> output = upsample(h, output_size=input.size())
>>> output.size()
torch.Size([1, 16, 12, 12])

3D反卷积

torch.nn.ConvTranspose2d ：

CLASS
torch.nn.ConvTranspose3d(in_channels, out_channels, kernel_size, stride=1, padding=0, output_padding=0, groups=1, bias=True, dilation=1, padding_mode='zeros', device=None, dtype=None)

功能: 对由多个输入平面组成的输入信号应用3D反卷积。
参数
- in_channels (int) – 输入图像中的通道数
- out_channels (int) – 由卷积产生的通道数
- **kernel_size (int or tuple) –** 卷积核的大小
- stride (int or tuple, optional) – 卷积的步幅。默认值:1
- padding (int, tuple or str, optional) – 在输入的两边添加填充。默认值:0
- padding_mode (str*, optional*) – 'zeros', 'reflect', 'replicate' 或者 'circular'. 默认：'zeros'
- dilation (int *or tuple, optional*) – 核元素之间的间距。默认值:1
- groups (int*, optional*) – 从输入通道到输出通道的阻塞连接数。默认值:1
- bias (bool*, optional*) – 如果为True，则向输出添加一个可学习偏差。默认值:True
形状
- 输入： $\left(N, C_{i n}, D_{in},H_{in},W_{in}\right)$ 或者 $\left(C_{i n}, D_{in},H_{i n},W_{in}\right)$
- 输出： $\left(N, C_{\text {out }},D_{out}, H_{\text {out }},W_{out}\right)$ 或者 $\left(C_{\text {out }}, D_{out},H_{\text {out }},W_{out}\right)$ , 其中

$D_{out}=(D_{in}−1)×stride[0]−2×padding[0]+dilation[0]×(kernel\_size[0]−1)+output\_padding[0]+1\\H_{out}=(H_{in}−1)×stride[1]−2×padding[1]+dilation[1]×(kernel\_size[1]−1)+output\_padding[1]+1\\W_{out}=(W_{in}−1)×stride[2]−2×padding[2]+dilation[2]×(kernel\_size[2]−1)+output\_padding[2]+1$

变量
- weight (Tensor) - 模型的可学习权重，大小为 $out_channels groups , k e r n e l _ s i z e [ 0 ] , k e r n e l _ s i z e [ 1 ] ) (out\_channels, \frac{\text { out\_channels }}{\text { groups }},kernel\_size[0], kernel\_size[1])$ . 这些权重是从 $\mathcal{U}(-\sqrt{k}, \sqrt{k})$ 中采样得到的。其中 $kernel_size [ i ] k=\frac{\text { groups }}{C_{\mathrm{out}} * \prod_{i=0}^2 \text { kernel\_size }[i]}$
- bias (Tensor) - 模型的可学习偏置，大小为 $out\_channels)$ . 如果bias 是 True, 那么这个值是从 $\mathcal{U}(-\sqrt{k}, \sqrt{k})$ 中采样得到，其中 $kernel_size [ i ] \frac{\text { groups }}{C_{\mathrm{out}} * \prod_{i=0}^2 \text { kernel\_size }[i]}$
例子

>>> # With square kernels and equal stride
>>> m = nn.ConvTranspose3d(16, 33, 3, stride=2)
>>> # non-square kernels and unequal stride and with padding
>>> m = nn.ConvTranspose3d(16, 33, (3, 5, 2), stride=(2, 1, 1), padding=(0, 4, 2))
>>> input = torch.randn(20, 16, 10, 50, 100)
>>> output = m(input)

3.4 扩张卷积（空洞卷积）

系统能以相同的计算成本，提供更大的感受野，扩张卷积在实时分割领域特别受欢迎。在需要更大的观察范围，且无法承受多个卷积或更大的kennels，可以用它。

这篇论文中介绍了扩张卷积：《Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs》

直观理解：
直观上，空洞卷积通过在卷积核部分之间插入空间让卷积核膨胀。这个增加的参数 l （空洞率）表明了我们想要将卷积核放宽到多大。下图显示了当 l=1,2,4 时的卷积核大小（当 l=1 时，空洞卷积就变成了一个标准的卷积）。

(a) 图对应3x3的1-dilated conv，和普通的卷积操作一样；
(b)图对应3x3的2-dilated conv，实际的卷积 kernel size 还是 3x3，但是空洞为1，也就是对于一个7x7的图像patch，只有9个红色的点和3x3的kernel发生卷积操作，其余的点略过。也可以理解为kernel的size为7x7，但是只有图中的9个点的权重不为0，其余都为0。可以看到虽然kernel size只有3x3，但是这个卷积的感受野已经增大到了7x7（如果考虑到这个2-dilated conv的前一层是一个1-dilated conv的话，那么每个红点就是1-dilated的卷积输出，所以感受野为3x3，所以1-dilated和2-dilated合起来就能达到7x7的conv）；
(c )图对应3x3的4-dilated conv操作，能达到15x15的感受野。对比传统的conv操作，3层3x3的卷积加起来，stride为1的话，只能达到(kernel-1)*layer+1=7的感受野，也就是和层数layer成线性关系，而dilated conv的感受野是指数级的增长。

由此，我们可以得出：
l=1时，感受野为 3 x 3； l=2 时，感受野是 7 x 7； l=3时，感受野增至 15x15。有趣的是，这些操作的参数数量本质上是相同的，不需要增加参数运算成本就能观察大的感受野。正因为此，空洞卷积常被用以低成本地增加输出单元上的感受野，同时还不需要增加卷积核大小，当多个空洞卷积一个接一个堆叠在一起时，这种方式是非常有效的。

3.5 可分离卷积

可分离卷积用于某些神经网络体系结构中，例如MobileNet。可以在空间上（空间可分离卷积）或在深度上（深度可分离卷积）进行可分离卷积。

空间可分离卷积

直观理解:
空间可分离卷积在图像的2D-空间维度（即高度和宽度）上运行。从概念上讲，空间可分离卷积将卷积分解为两个单独的运算。


单通道标准卷积	单通道可分离卷积

如上图所示 : 空间可分离卷积先用hx1的filter在高度上进行卷积，得到中间输出，然后再在该输出上使用1xw 的filter进行卷积。
空间可分离卷积就是2D卷积kernels的分解（在WH上的分解）。

数值理解：
对于下面显示的示例，将Sobel的kennel（3x3的kennel）分为3x1和1x3的kennel。
$\left[\begin{array}{lll} -1 & 0 & 1 \\ -2 & 0 & 2 \\ -1 & 0 & 1 \end{array}\right]=\left[\begin{array}{l} 1 \\ 2 \\ 1 \end{array}\right] \times\left[\begin{array}{lll} -1 & 0 & 1 \end{array}\right]$
在原始卷积中，3x3的kennel直接与图像卷积。在空间可分离卷积中，3x1的kennel首先与图像进行卷积，然后应用1x3的kennel。在执行相同操作时，空间可分离卷积只需要6个参数而不是9个参数。

原始卷积：用3 x 3的kennel（步长= 1，填充= 0）在5 x 5图像上进行卷积，需要在水平3个位置（垂直3个位置）上扫描的kennel，总共9个位置（在下图中以点表示）。在每个位置上，将应用9个按元素的乘法，总体来说，这是9 x 9 = 81个乘法运算。
空间可分离卷积：我们首先在5 x 5图像上应用3 x 1的filter。我们在水平5个位置和垂直3个位置扫描这样的kennel，总的位置是5×3 = 15（表示为下面的图像上的点）。在每个位置，应用3个逐元素的乘法，那就是15 x 3 = 45个乘法运算。现在，我们获得了一个3 x 5的矩阵，此矩阵与1 x 3的kennel卷积，该kennel在水平3个位置和垂直3个位置扫描矩阵，总共9个位置。对于这9个位置中的每一个，将应用3个按元素的乘法，此步骤需要9 x 3 = 27个乘法运算。
空间可分离卷积可以节省参数和运算成本

尽管空间可分离卷积节省了成本，但很少在深度学习中使用它。主要原因之一是并非所有kennels都可以分为两个较小的kennels。如果用空间可分离卷积代替所有传统的卷积，在训练过程中，我们将限制卷积核的类型，训练结果可能不是最佳的。

深度可分离卷积

直观理解：


标准的2D卷积	深度可分离卷积
使用128个3x3x3的filters	先分别使用3 个3x3x1卷积核, 然后再使用128个1

深度可分离卷积就是3D卷积kernels的分解（在深度channel上的分解）

深度可分离卷积具体步骤：

第一步：在输入层上应用深度卷积。
我们在2D-卷积中分别使用 3 个卷积核（每个filter的大小为 3×3×1），而不使用大小为 3×3×3 的单个filter。每个卷积核仅对输入层的 1 个通道做卷积，这样的卷积每次都得出大小为 5×5×1的映射，之后再将这些映射堆叠在一起创建一个 5×5×3的特征图，最终得出一个大小为 5×5×3 的输出图像。这样的话，图像的深度保持与原来的一样。
第二步是扩大深度
我们用大小为 1×1×3卷积核做 1x1 卷积。每个 1×1×3卷积核对 5×5×3输入图像做卷积后都得出一个大小为 5×5×1的特征图。

这样的话，做 128 次1x1 卷积后，就可以得出一个大小为 5×5×128 的层

3.6 扁平卷积

论文《Flattened Convolutional Neural Networks for Feedforward Acceleration》介绍了扁平卷积（Flattened Convolution）。该论文认为通过使用由3D空间中所有方向上的1D-filters的连续序列组成的扁平化网络进行训练，可以提供与标准卷积网络相当的性能，并且由于学习参数的显着减少，计算成本要低得多。

直观理解：


标准的3D卷积	深度可分离卷积
应用一个标准filter将输入层映射到输出层	将标准filter分为3个1D-filters

扁平卷积与上述空间可分离卷积中的想法相似，其中空间filters是由两个rank-1 filters近似得到的。

3.7 分组卷积

分组卷积（Grouped convolution ），最早在AlexNet中出现，由于当时的硬件资源有限，训练AlexNet时卷积操作不能全部放在同一个GPU处理，因此作者把feature maps分给多个GPU分别进行处理，最后把多个GPU的结果进行融合。

直观理解：
在分组卷积中，filters被拆分为不同的组，每一个组都负责具有一定深度的传统 2D 卷积的工作。下图的例子表示得更清晰一些：


标准的2D卷积	具有两个filters的分组卷积

上图表示的是被拆分为 2 个filters组的分组卷积。在每个filters组中，其深度仅为传统2D-卷积的一半 $\left(D_{i n} / 2\right)$ ，而每个filters组都包含 $D_{\text {out }} / 2$ 个filters。第一个filters组 (红色) 对输入层的前半部分做卷积 ( $\left.\left[:,:, 0: D_{i n} / 2\right]\right)$ ，第二个filters组 (蓝色) 对输入层的后半部分做卷积（ $\left.\left[:,:, D_{\text {in }} / 2: D_{\text {in }}\right]\right)$ 。最终，每个filters组都输出了 $D_{\text {out }} / 2$ 个通道。整体上，两个组输出的通道数为 $\times D_{\text {out }} / 2=D_{\text {out }}$ 。之后，我们再将这些通道堆叠到输出层中，输出层就有了 $D_{\text {out }}$ 个通道。

分组卷积的优点：

第一个优点是有效的训练。由于卷积被划分为多个路径，因此每个路径可以由不同的GPU分别处理，此过程允许以并行方式在多个GPU上进行模型训练。与使用一个GPU进行所有训练相比，通过多GPU进行的模型并行化，可以将更多图像传到网络中。模型并行化被认为比数据并行化更好的方式，最终将数据集分成多个批次，然后我们对每个批次进行训练。但是，当批次大小变得太小时，与batch梯度下降相比，我们实际上是随机的，这将导致收敛变慢，有时甚至变差。
第二个优点是模型更有效，即模型参数随着filters组数的增加而减小。
第三个优点分组卷积可以提供比标准2D卷积更好的模型

参考

在整理的过程中，感谢如下文章对我的帮助和启发~

https://cs231n.github.io/convolutional-networks/
https://towardsdatascience.com/pytorch-basics-how-to-train-your-neural-net-intro-to-cnn-26a14c2ea29
https://arxiv.org/pdf/1603.07285.pdf
https://github.com/vdumoulin/conv_arithmetic
https://stackoverflow.com/questions/42883547/intuitive-understanding-of-1d-2d-and-3d-convolutions-in-convolutional-neural-n
https://www.zhihu.com/question/54149221
https://pytorch.org/docs/stable/nn.html#convolution-layers
https://zh.d2l.ai/chapter_convolutional-neural-networks/channels.html
https://blog.csdn.net/u012348774/article/details/104695411

你可能感兴趣的:(#,深度学习框架,深度学习基础,计算机视觉基础,深度学习,神经网络,卷积,pytorch,Conv1D)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
大伟说成语之唉声叹气求索大伟
＊大伟说成语＊【唉声叹气】叹气：因心里不痛快或不如意而吐出长气，发出声音。因为痛苦、憋闷或感伤而发出叹息的声音。【大伟说】情绪外露，非人类所特有，动物亦有情绪，悲哀和欢乐所表示的情绪亦是不一样的，会嗷嗷大叫也会低吟痛哭。不同的是，人类的情绪更复杂，更多样，更丰富。唉声叹气，可以说是最基础的情绪，因为无奈而举足无措，不知该如何如何化解，只有独自一人慢慢承受，长吁短叹不知如何是好，其实是无能无力的表现
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ExpRe[25] bash外的其它shell：zsh和fish tritone ExpRe bash linux ubuntu shell
文章目录zsh基础配置实用特性插件`autojump`语法高亮自动补全fish优点缺点时效性本篇撰写时间为2021.12.15，由于计算机技术日新月异，博客中所有内容都有时效和版本限制，具体做法不一定总行得通，链接可能改动失效，各种软件的用法可能有修改。但是其中透露的思想往往是值得学习的。本篇前置：ExpRe[10]Ubuntu[2]准备神秘软件、备份恢复软件https://www.cnblogs
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
2021-01-24 9ce517ee104c
【打卡素材】《香帅金融学讲义》【标题】公司治理：怎样同床异梦地过下去【日期】2021.1.24【字数】公司本质上是一连串的合约关系。降低合同执行中的各种摩擦是公司正常有效运行的基础。协同各方的利益、制衡各方的权力是关键。为解决利益冲突问题、协同各方利益，进行权力制衡的机制设计就是公司治理机制。001什么是公司治理治理是管理的基础，治理机制越好，权、责、利就越清晰，管理的目标也就会更容易实现。002
如何在心上用功？余超林AIA财富管家
思考：如何在心上用功？学习心得：心-道-德-事的理解心-道-德-事这四部曲，本质上就是一个人的思维智慧的四个层面：事是最底层，这是所有人在这个社会谋求生存的基础，一个人能够把事情彻底做好，保质保量的完成，才会有真正的结果，但是这个层面要获得真正成功很困难，因为会做事的人很多，最终会出现恶性竞争；德是第三层，如果说整个社会做事的竞争激烈程度为100%，那么上升到德上的竞争激烈程度降低为80%，德是一
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
第二十 python基础--语句九樱MOL
目录具体内容1：if语句的使用格式判断语句2：if-else的使用格式3：if-elif-else的使用格式4：if嵌套1：while循环的格式循环语句2：while循环嵌套3：for循环的格式一、判断语句在程序中如果某些条件满足，才能做某件事情，而不满足时不允许做，这就是所谓的判断1.1if语句的使用格式if要判断的条件:条件成立时，要做的事情案例:判断年纪，如果age大于18，输入成年age=
(179)时序收敛---＞(29)时序收敛二九 FPGA系统设计指南针 FPGA系统设计(内训)fpga开发时序收敛
1目录（a）FPGA简介（b）Verilog简介（c）时钟简介（d）时序收敛二九（e）结束1FPGA简介（a）FPGA（FieldProgrammableGateArray）是在PAL（可编程阵列逻辑）、GAL（通用阵列逻辑）等可编程器件的基础上进一步发展的产物。它是作为专用集成电路（ASIC）领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。（b）
(180)时序收敛---＞(30)时序收敛三十 FPGA系统设计指南针 FPGA系统设计(内训)fpga开发时序收敛
1目录（a）FPGA简介（b）Verilog简介（c）时钟简介（d）时序收敛三十（e）结束1FPGA简介（a）FPGA（FieldProgrammableGateArray）是在PAL（可编程阵列逻辑）、GAL（通用阵列逻辑）等可编程器件的基础上进一步发展的产物。它是作为专用集成电路（ASIC）领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。（b）
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

深度学习中的卷积操作

本文从信号处理中的互相关运算引入深度学习中的卷积。 然后介绍了不同的卷积类型，以及如何在pytorch中使用这些卷积层。

文章目录

一、前言

1.1 数学中的卷积操作

1.2 信号处理中的互相关运算

二、深度学习中的卷积

2.1 卷积操作

2.2. 填充和步幅

Padding

Stride

2.3 多输入通道和多输出通道

多输入通道

多输出通道

三、卷积类型

3.1 1D/2D/3D 卷积

1D 卷积

2D卷积

3D卷积

3.2 1x1卷积

3.3 转置卷积 （反卷积）

1D反卷积

2D反卷积

3D反卷积

3.4 扩张卷积（空洞卷积）

3.5 可分离卷积

空间可分离卷积

深度可分离卷积

3.6 扁平卷积

3.7 分组卷积

参考

你可能感兴趣的:(#,深度学习框架,深度学习基础,计算机视觉基础,深度学习,神经网络,卷积,pytorch,Conv1D)

本文从信号处理中的`互相关运算`引入`深度学习中的卷积`。
然后介绍了`不同的卷积类型`，以及如何在`pytorch`中使用这些卷积层。

3.3 转置卷积（反卷积）