【PyTorch】nn.Conv2d函数详解

nn.Conv2d 是 PyTorch 中的一个卷积层,用于实现二维卷积操作

torch.nn.Conv2d(
	in_channels, 
	out_channels, 
	kernel_size, 
	stride=1, 
	padding=0, 
	dilation=1, 
	groups=1, 
	bias=True, 
	padding_mode='zeros', 
	device=None, 
	dtype=None
)

参数解释

in_channels:输入的通道数,RGB 图像的输入通道数为 3
out_channels:输出的通道数
kernel_size:卷积核的大小,一般我们会使用 5x5、3x3 这种左右两个数相同的卷积核,因此这种情况只需要写 kernel_size = 5这样的就行了。如果左右两个数不同,比如3x5的卷积核,那么写作kernel_size = (3, 5),注意需要写一个 tuple,而不能写一个 list。
stride = 1:卷积核在图像窗口上每次平移的间隔,即所谓的步长。
padding:指图像填充,后面的int型常数代表填充的多少(行数、列数),默认为0。需要注意的是这里的填充包括图像的上下左右,以padding=1为例,若原始图像大小为[32, 32],那么padding后的图像大小就变成了[34, 34]
dilation:是否采用空洞卷积,默认为1(不采用)。从中文上来讲,这个参数的意义从卷积核上的一个参数到另一个参数需要走过的距离,那当然默认是1了,毕竟不可能两个不同的参数占同一个地方吧(为0)。更形象和直观的图示可以观察Github上的Dilated convolution animations,展示了dilation=2的情况。
groups:决定了是否采用分组卷积,groups参数可以参考groups参数详解
bias:即是否要添加偏置参数作为可学习参数的一个,默认为True。
padding_mode:即padding的模式,默认采用零填充。

nn.Conv2d 的使用方法一般如下:

import torch.nn as nn

# 定义卷积层
conv = nn.Conv2d(in_channels=3, out_channels=32, kernel_size=3, stride=1, padding=1)
 
# 输入数据
x = torch.randn(1, 3, 224, 224)
 
# 前向计算
out = conv(x)

这里我们定义了一个输入通道数为 3,输出通道数为 32,卷积核大小为 3x3,步长为 1,边界填充数为 1 的卷积层。然后,我们定义了一个大小为 (1, 3, 224, 224) 的输入数据 x,执行前向计算得到输出 out。

注意,对于卷积操作,输入数据一般为四维张量,需要按照 batchsize × 通道数 × 高度 × 宽度的维度排列,这里 x 的大小为 (1, 3, 224, 224) 表示 batchsize 为 1,通道数为 3,输入图像的尺寸为 224x224。

参考:https://blog.csdn.net/weixin_40895135/article/details/130034019
https://blog.csdn.net/See_Star/article/details/127560160

你可能感兴趣的:(pytorch,人工智能,python)