王小小小草

Pytorch第六课：package-torch.nn详解（2）之网络结构组建

本节要点：

1 卷积层
2 池化层
3 非线性激活层
4 正则层
5 循环层
6 线性层
7 Dropout层
8 Sparse层
9 Veision层
10 Multi-GPU层

1 卷积层

1.1 一维卷积层

类名：

class torch.nn.Conv1d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True)

Parameters：

in_channels(int) – 输入信号的通道
out_channels(int) – 卷积产生的通道
kerner_size(int or tuple) - 卷积核的尺寸
stride(int or tuple, optional) - 卷积步长
padding (int or tuple, optional)- 输入的每一条边补充0的层数
dilation(int or tuple, optional) – 卷积核元素之间的间距
groups(int, optional) – 从输入通道到输出通道的阻塞连接数。制输入和输出之间的连接， group=1，输出是所有的输入的卷积；group=2，此时相当于有并排的两个卷积层，每个卷积层计算输入通道的一半，并且产生的输出是输出通道的一半，随后将这两个输出连接起来。
bias(bool, optional) - 如果bias=True，添加偏置

shape:

输入: (N,C_in,L_in)
输出: (N,C_out,L_out)

输入输出的计算方式：
$L_{out}=floor((L_{in}+2padding-dilation(kernerl_size-1)-1)/stride+1)$

变量:

变量是模型训练过程中要学习的对象，在卷积层中涉及两类：

weight(tensor) - 卷积的权重，大小是(out_channels, in_channels, kernel_size)
bias(tensor) - 卷积的偏置系数，大小是（out_channel）

例子：

下面给出一个构建一维卷积层的例子，并且感受一下输入输出的维度变化。

import torch
import torch.nn as nn
import torch.autograd as autograd

# 构建一个卷积层，inchannel是16需要与输入数据的channel一致
conv = nn.Conv1d(16, 33, 3, stride=2)

# 构建一个输如数据(比如20个样本，每个样本是16个channel, 每个channel是长度为50的一维向量)
input = autograd.Variable(torch.randn(20, 16, 50))

# 将数据输入卷积层进行前向计算（输出任然是20个样本，channel变成了33， 因为stride=2,因此每个channel中是一个长度24的一维向量）
output = conv(input)
print(output.size())

torch.Size([20, 33, 24])

1.2 二维卷积层

类名：

class torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True)

二维和一维卷积的区别在于输入数据每个channel中是二维的还是一维的。一般我们输入的图像数据都是hight*width的二维图像。

Parameters：

in_channels(int) – 输入信号的通道
out_channels(int) – 卷积产生的通道
kerner_size(int or tuple) - 卷积核的尺寸
stride(int or tuple, optional) - 卷积步长
padding(int or tuple, optional) - 输入的每一条边补充0的层数
dilation(int or tuple, optional) – 卷积核元素之间的间距
groups(int, optional) – 从输入通道到输出通道的阻塞连接数
bias(bool, optional) - 如果bias=True，添加偏置

二维中，参数kernel_size，stride,padding，dilation可以是一个int的数据，也可以是一个二元的tuple类型，里面分别是hight和width对应的数值。

shape:

input: (N,C_in,H_in,W_in)
output: (N,C_out,H_out,W_out)

$H_{out}=floor((H_{in}+2padding[0]-dilation[0](kernerl_size[0]-1)-1)/stride[0]+1)$

$W_{out}=floor((W_{in}+2padding[1]-dilation[1](kernerl_size[1]-1)-1)/stride[1]+1)$

变量:

weight(tensor) - 卷积的权重，大小是(out_channels, in_channels,kernel_size)
bias(tensor) - 卷积的偏置系数，大小是（out_channel）

例子：

# 构建一个二维卷积层, strie可以是Int值，表示height,width都对应1
conv = nn.Conv2d(16, 33, 3, stride=2)

# 也可以是tuple
conv = nn.Conv2d(16, 33, (3,5), stride=(2,1), padding=(4, 2), dilation=(3, 1))

# 构建输入数据，16个channel， 每个channel中是50*100的二维矩阵
input = autograd.Variable(torch.randn(20, 16, 50, 100))

# 前向计算,注意输出维度的变化
output = conv(input)
print(output.size())

torch.Size([20, 33, 26, 100])

1.3 三维卷积层

类名：

class torch.nn.Conv3d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True)

shape:

input: (N,C_in,D_in,H_in,W_in)
output: (N,C_out,D_out,H_out,W_out)

$D_{out}=floor((D_{in}+2padding[0]-dilation[0](kernerl_size[0]-1)-1)/stride[0]+1)$

$H_{out}=floor((H_{in}+2padding[1]-dilation[2](kernerl_size[1]-1)-1)/stride[1]+1)$

$W_{out}=floor((W_{in}+2padding[2]-dilation[2](kernerl_size[2]-1)-1)/stride[2]+1)$

例子：

参数个变量与一维和二维都是一样的。

因为是三维的，参数kernel_size，stride,padding，dilation可以是一个int的数据，也可以是一个三元的tuple类型。

下面给出一个例子：

# With square kernels and equal stride
m = nn.Conv3d(16, 33, 3, stride=2)

# non-square kernels and unequal stride and with padding
m = nn.Conv3d(16, 33, (3, 5, 2), stride=(2, 1, 1), padding=(4, 2, 0))

input = autograd.Variable(torch.randn(20, 16, 10, 50, 100))

output = m(input)

print(output.size())

torch.Size([20, 33, 8, 50, 99])

1.4 解卷积层

类名：

与一维，二维，三维卷积层对应，解卷积也有一维，二维，三维，参数都是一样的，就是名字略有不同，分别是：

class torch.nn.ConvTranspose1d(in_channels, out_channels, kernel_size, stride=1, padding=0, output_padding=0, groups=1, bias=True)
class torch.nn.ConvTranspose2d(in_channels, out_channels, kernel_size, stride=1, padding=0, output_padding=0, groups=1, bias=True)
class torch.nn.ConvTranspose3d(in_channels, out_channels, kernel_size, stride=1, padding=0, output_padding=0, groups=1, bias=True)

参数：

参数都是一样的，要注意的是：由于内核的大小，输入的最后的一些列的数据可能会丢失。因为输入和输出是不是完全的互相关。因此，用户可以进行适当的填充（padding操作）。

in_channels(int) – 输入信号的通道数
out_channels(int) – 卷积产生的通道
kernel_size(int or tuple) - 卷积核的大小
stride(int or tuple, optional) - 卷积步长
padding(int or tuple, optional) - 输入的每一条边补充0的层数
output_padding(int or tuple, optional) - 输出的每一条边补充0的层数
dilation(int or tuple, optional) – 卷积核元素之间的间距
groups(int, optional) – 从输入通道到输出通道的阻塞连接数
bias(bool, optional) - 如果bias=True，添加偏置

参数kernel_size，stride, padding，dilation数据类型：一个int类型的数据，此时卷积height和width值相同; 也可以是一个tuple数组（包含来两个/三个int类型的数据），第一个int数据表示height的数值，tuple的第二个int类型的数据表示width的数值

变量:

变量也是一样的。

weight(tensor) - 卷积的权重，大小是(in_channels, in_channels,kernel_size)
bias(tensor) - 卷积的偏置系数，大小是(out_channel)

shape:

一维：

输入: (N,C_in,L_in)
输出: (N,C_out,L_out)
$L_{out}=(L_{in}-1)stride-2padding+kernel_size+output_padding$

二维：

输入: (N,C_in,H_in，W_in)
输出: (N,C_out,H_out,W_out)
$H_{out}=(H_{in}-1)stride[0]-2padding[0]+kernel_size[0]+output_padding[0]$

$W_{out}=(W_{in}-1)stride[1]-2padding[1]+kernel_size[1]+output_padding[1]$

三维：

输入: (N,C_in,H_in，W_in)
输出: (N,C_out,H_out,W_out)
$D_{out}=(D_{in}-1)stride[0]-2padding[0]+kernel_size[0]+output_padding[0]$

$H_{out}=(H_{in}-1)stride[1]-2padding[1]+kernel_size[1]+output_padding[0]$

$W_{out}=(W_{in}-1)stride[2]-2padding[2]+kernel_size[2]+output_padding[2]$

例子：

给出三维的例子：

# With square kernels and equal stride
m = nn.ConvTranspose3d(16, 33, 3, stride=2)

# non-square kernels and unequal stride and with padding
m = nn.Conv3d(16, 33, (3, 5, 2), stride=(2, 1, 1), padding=(0, 4, 2))

input = autograd.Variable(torch.randn(20, 16, 10, 50, 100))

output = m(input)
print(output.size())

torch.Size([20, 33, 4, 54, 103])

2 池化层

池化层根据计算方式不同可以分为：最大池化，平均池化。

根据操作方式不同可以分为：普通池化、分数池化、幂池化、自适应池化。

根据维度不同可分为：一维、二维、三维。

2.1 最大池化

和卷积层一样，普通的最大池化中也是分为一维，二维，三维的。除了名字不一样，参数是一样的。

类名：

class torch.nn.MaxPool1d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)
class torch.nn.MaxPool2d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)
class torch.nn.MaxPool3d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)

参数：

kernel_size(int or tuple) - max pooling的窗口大小
stride(int or tuple, optional) - max pooling的窗口移动的步长。默认值是kernel_size
padding(int or tuple, optional) - 输入的每一条边补充0的层数
dilation(int or tuple, optional) – 一个控制窗口中元素步幅的参数
return_indices - 如果等于True，会返回输出最大值的序号，对于上采样操作会有帮助
ceil_mode - 如果等于True，计算输出信号大小的时候，会使用向上取整，代替默认的向下取整的操作

在二维和三维中，参数kernel_size，stride, padding，dilation数据类型：可以是一个int类型的数据，此时卷积height和width值相同; 也可以是一个tuple数组（包含来两个int类型的数据），第一个int数据表示height的数值，tuple的第二个int类型的数据表示width的数值

shape:

一维：

输入: (N,C_in,L_in)
输出: (N,C_out,L_out)
$L_{out}=floor((L_{in} + 2padding - dilation(kernel_size - 1) - 1)/stride + 1$

二维：

输入: (N,C,H_{in},W_in)
输出: (N,C,H_out,W_out)
$H_{out}=floor((H_{in} + 2padding[0] - dilation[0](kernel_size[0] - 1) - 1)/stride[0] + 1$

$W_{out}=floor((W_{in} + 2padding[1] - dilation[1](kernel_size[1] - 1) - 1)/stride[1] + 1$

三维：

输入: (N,C,H_in,W_in)
输出: (N,C,H_out,W_out)
$D_{out}=floor((D_{in} + 2padding[0] - dilation[0](kernel_size[0] - 1) - 1)/stride[0] + 1)$

$H_{out}=floor((H_{in} + 2padding[1] - dilation[1](kernel_size[0] - 1) - 1)/stride[1] + 1)$

$W_{out}=floor((W_{in} + 2padding[2] - dilation[2](kernel_size[2] - 1) - 1)/stride[2] + 1)$

例子：

import torch
import torch.nn as nn
import torch.autograd as autograd

# 1. 创建一个一维最大池化层
p1 = nn.MaxPool1d(3, stride=2)

# 创建一个输入变量
input = autograd.Variable(torch.randn(20, 16, 50))

# 前向计算
output = p1(input)
print(output.size())


# 2. 创建一个二维最大池化层
p2 = nn.MaxPool2d((3,2), stride=(2,1))
                  
# 创建一个输入变量
input = autograd.Variable(torch.randn(20, 16, 50, 32))

# 前向计算
output = p2(input)
print(output.size())

# 2. 创建一个三维最大池化层
p3 = nn.MaxPool3d((3,2, 1), stride=(2,1, 1))
                  
# 创建一个输入变量
input = autograd.Variable(torch.randn(20, 16, 50, 32, 20))

# 前向计算
output = p3(input)
print(output.size())

torch.Size([20, 16, 24])
torch.Size([20, 16, 24, 31])
torch.Size([20, 16, 24, 31, 20])

与最大池化相对应的有最大逆池化。

MaxUnpool是Maxpool的逆过程，不过并不是完全的逆过程，因为在maxpool1d的过程中，一些最大值的已经丢失。 MaxUnpool1d输入MaxPool1d的输出，包括最大值的索引，并计算所有maxpool1d过程中非最大值被设置为零的部分的反向。

MaxPool1d可以将多个输入大小映射到相同的输出大小。因此，反演过程可能会变得模棱两可。为了适应这一点，可以在调用中将输出大小（output_size）作为额外的参数传入。具体用法，请参阅下面的输入和示例

同样也有三个维度：

类名：

class torch.nn.MaxUnpool1d(kernel_size, stride=None, padding=0)
class torch.nn.MaxUnpool2d(kernel_size, stride=None, padding=0)
class torch.nn.MaxUnpool3d(kernel_size, stride=None, padding=0)

参数：

kernel_size(int or tuple) - max pooling的窗口大小
stride(int or tuple, optional) - max pooling的窗口移动的步长。默认值是kernel_size
padding(int or tuple, optional) - 输入的每一条边补充0的层数

输入：

input:需要转换的tensor
indices：Maxpool1d的索引号
output_size:一个指定输出大小的torch.Size

shape:

一维：

input: (N,C,H_in)
output:(N,C,H_out)
$H_{out}=(H_{in}-1)stride[0]-2padding[0]+kernel_size[0]$
也可以使用output_size指定输出的大小

二维：

input: (N,C,H_in,W_in)
output:(N,C,H_out,W_out)

$H_{out}=(H_{in}-1)stride[0]-2padding[0]+kernel_size[0]$

$W_{out}=(W_{in}-1)stride[1]-2padding[1]+kernel_size[1]$

也可以使用output_size指定输出的大小

三维：

input: (N,C,D_in,H_in,W_in)
output:(N,C,D_out,H_out,W_out)
$KaTeX parse error: Expected & or \\ or \cr or \end at position 72: …+kernel_size[0]\̲ ̲H_{out}=(H_{in}…$

例子：

以一维池化举例：

# 创建一个池化层
p = nn.MaxPool1d(2, stride=2, return_indices=True)

# 创建一个逆池化层
up = nn.MaxUnpool1d(2, stride=2)

# 创建输入变量1*1*8
input = autograd.Variable(torch.Tensor([[[1, 2, 3, 4, 5, 6, 7, 8]]]))

# 池化层计算
output, indices = p(input)

# 逆池化
up_output = up(output, indices)
print(up_output)

tensor([[[ 0.,  2.,  0.,  4.,  0.,  6.,  0.,  8.]]])

# 可以用output_size来指定输出的大小
# 逆池化
up_output = up(output, indices,output_size=input.size())
print(up_output)

tensor([[[ 0.,  2.,  0.,  4.,  0.,  6.,  0.,  8.]]])

2.2 平均池化

类名：

class torch.nn.AvgPool1d(kernel_size, stride=None, padding=0, ceil_mode=False, count_include_pad=True)
class torch.nn.AvgPool2d(kernel_size, stride=None, padding=0, ceil_mode=False, count_include_pad=True)
class torch.nn.AvgPool3d(kernel_size, stride=None)

参数：

kernel_size(int or tuple) - 池化窗口大小
stride(int or tuple, optional) - max pooling的窗口移动的步长。默认值是kernel_size
padding(int or tuple, optional) - 输入的每一条边补充0的层数
dilation(int or tuple, optional) – 一个控制窗口中元素步幅的参数
ceil_mode - 如果等于True，计算输出信号大小的时候，会使用向上取整，代替默认的向下取整的操作
count_include_pad - 如果等于True，计算平均池化时，将包括padding填充的0

大小：

参考最大池化层

例子：

以一维为例，其他可参考最大池化层

import torch
import torch.nn as nn
import torch.autograd as autograd

# 1. 创建一个一维最大池化层
p1 = nn.AvgPool1d(3, stride=2)

# 创建一个输入变量
input = autograd.Variable(torch.randn(20, 16, 50))

# 前向计算
output = p1(input)
print(output.size())

torch.Size([20, 16, 24])

2.3 分数最大池化

对输入的信号，提供2维的分数最大化池化操作分数最大化池化的细节请阅读论文:https://arxiv.org/abs/1412.6071

由目标输出大小确定的随机步长,在 $k H * k W$ 区域进行最大池化操作。输出特征和输入特征的数量相同。

类名：

class torch.nn.FractionalMaxPool2d(kernel_size, output_size=None, output_ratio=None, return_indices=False, _random_samples=None)

参数：

kernel_size(int or tuple) - 最大池化操作时的窗口大小。可以是一个数字（表示KK的窗口），也可以是一个元组（khkw）
output_size - 输出图像的尺寸。可以使用一个tuple指定(oH,oW)，也可以使用一个数字oH指定一个oH*oH的输出。
output_ratio – 将输入图像的大小的百分比指定为输出图片的大小，使用一个范围在(0,1)之间的数字指定
return_indices - 默认值False，如果设置为True，会返回输出的索引，索引对 nn.MaxUnpool2d有用。

例子：

# 可以用确定的值来设定输出的大小
m = nn.FractionalMaxPool2d(3, output_size=(13, 12))

# 可以用分数比例来设定输出的大小
m = nn.FractionalMaxPool2d(3, output_ratio=(0.5, 0.5))

input = autograd.Variable(torch.randn(20, 16, 50, 32))
output = m(input)

print(output.size())

torch.Size([20, 16, 25, 16])

2.4 幂平均池化

对输入信号提供2维的幂平均池化操作。输出的计算方式： f(x)=pow(sum(X,p),1/p)

当p为无穷大的时候时，等价于最大池化操作

当p=1时，等价于平均池化操作

类名：

class torch.nn.LPPool2d(norm_type, kernel_size, stride=None, ceil_mode=False)

参数kernel_size, stride的数据类型：

int，池化窗口的宽和高相等
tuple数组（两个数字的），一个元素是池化窗口的高，另一个是宽

参数

kernel_size: 池化窗口的大小
stride：池化窗口移动的步长。kernel_size是默认值
ceil_mode: ceil_mode=True时，将使用向下取整代替向上取整

shape

输入：(N,C,H_in,W_in)
输出：(N,C,H_out,W_out)
$\begin{aligned} H_{out} = floor((H_{in}+2padding[0]-dilation[0](kernel_size[0]-1)-1)/stride[0]+1)\ W_{out} = floor((W_{in}+2padding[1]-dilation[1](kernel_size[1]-1)-1)/stride[1]+1) \end{aligned}$

例子：

# power-2 pool of square window of size=3, stride=2
m = nn.LPPool2d(2, 3, stride=2)

# pool of non-square window of power 1.2
m = nn.LPPool2d(1.2, (3, 2), stride=(2, 1))

input = autograd.Variable(torch.randn(20, 16, 50, 32))
output = m(input)

print(output.size())

torch.Size([20, 16, 24, 31])

2.5 自适应池化

2.5.1 自适应最大池化

对输入信号，提供1维或2维的自适应最大池化操作对于任何输入大小的输入，可以将输出尺寸指定为H，但是输入和输出特征的数目不会变化。

类名：

class torch.nn.AdaptiveMaxPool1d(output_size, return_indices=False)
class torch.nn.AdaptiveMaxPool2d(output_size, return_indices=False)

参数：

output_size: 输出信号的尺寸
return_indices: 如果设置为True，会返回输出的索引。对 nn.MaxUnpool1d有用，默认值是False

例子：

# 一维，指定大小为5
m = nn.AdaptiveMaxPool1d(5)
input = autograd.Variable(torch.randn(1, 64, 8))
output = m(input)

print(output.size())

torch.Size([1, 64, 5])

# 二维，指定大小为（5，7）
m = nn.AdaptiveMaxPool2d((5,7))
input = autograd.Variable(torch.randn(1, 64, 8, 9))

# 二维，指定大小为（7，7）
m = nn.AdaptiveMaxPool2d(7)
input = autograd.Variable(torch.randn(1, 64, 10, 9))

output = m(input)

print(output.size())

torch.Size([1, 64, 7, 7])

2.5.2 自适应平均池化

自适应平均池化与自适应最大池化类似，但参数只有：

output_size: 输出信号的尺寸

例子：

# target output size of 5x7
m = nn.AdaptiveAvgPool2d((5,7))
input = autograd.Variable(torch.randn(1, 64, 8, 9))

# target output size of 7x7 (square)
m = nn.AdaptiveAvgPool2d(7)
input = autograd.Variable(torch.randn(1, 64, 10, 9))

output = m(input)

print(output.size())

torch.Size([1, 64, 7, 7])

3 非线性激活层

类名	参数	公式
class torch.nn.ReLU(inplace=False)	inplace-选择是否进行覆盖运算	${ReLU}(x)= max(0, x)$
class torch.nn.ReLU6(inplace=False)	inplace-选择是否进行覆盖运算	${ReLU6}(x) = min(max(0,x), 6)$
class torch.nn.ELU(alpha=1.0, inplace=False)		$f(x) = max(0,x) + min(0, alpha * (e^x - 1))$
class torch.nn.PReLU(num_parameters=1, init=0.25)	num_parameters：需要学习的a的个数，默认等于1； init：a的初始值，默认等于0.25	$P R e L U (x) = m a x (0, x) + a * m i n (0, x)$
class torch.nn.Threshold(threshold, value, inplace=False)	threshold：阈值 value：输入值小于阈值则会被value代替 inplace：选择是否进行覆盖运算	$y = x, i f x > = t h r e s h o l d y = v a l u e, i f x < t h r e s h o l d$
class torch.nn.Sigmoid	无	$f (x) = 1 / (1 + e - x)$
class torch.nn.Tanh	无	$f (x) = e x - e - x e x + e x$
class torch.nn.LogSigmoid	无	$LogSigmoid(x) = log( 1 / ( 1 + e^{-x}))$
class torch.nn.Softplus(beta=1, threshold=20)	beta：Softplus函数的beta值 threshold：阈值	$f (x) = 1 b e t a * l o g (1 + e (b e t a * x i))$
class torch.nn.Softshrink(lambd=0.5)	lambd：Softshrink函数的lambda值，默认为0.5	$f (x) = x - l a m b d a, i f x > l a m b d a f (x) = x + l a m b d a, i f x < - l a m b d a f (x) = 0, o t h e r w i s e$
class torch.nn.Softsign	无	$f(x) = x / (1 +
class torch.nn.Tanhshrink	无	$T a n h s h r i n k (x) = x - T a n h (x)$
class torch.nn.Softmin	无	$f i (x) = e (- x i - s h i f t) / \sum j e (- x j - s h i f t), s h i f t = m a x (x i)$
class torch.nn.Softmax	无	$f i (x) = e (x i - s h i f t) / \sum j e (x j - s h i f t), s h i f t = m a x (x i)$
class torch.nn.LogSoftmax	无	$f i (x) = l o g e (x i) / a, a = \sum j e (x j)$

下面举一个例子，其他以此类推。

# 创建一个激活函数Module
m = nn.Softmax()

# 创建输入变量
input = autograd.Variable(torch.randn(2, 3))

print(input)
print(m(input))

tensor([[ 1.7255, -0.2483, -0.4758],
        [ 0.2217,  1.4740, -1.6893]])
tensor([[ 0.8003,  0.1112,  0.0886],
        [ 0.2152,  0.7529,  0.0318]])


/Users/wangxiaocao/miniconda3/lib/python3.6/site-packages/ipykernel_launcher.py:8: UserWarning: Implicit dimension choice for softmax has been deprecated. Change the call to include dim=X as an argument.

4 线性层

类名：

class torch.nn.Linear(in_features, out_features, bias=True)

功能：

对输入数据做线性变换：y=Ax+b

参数：

in_features - 每个输入样本的大小
out_features - 每个输出样本的大小
bias - 若设置为False，这层不会学习偏置。默认值：True

形状：

输入: (N,in_features)
输出： (N,out_features)

变量：

weight -形状为(out_features x in_features)的模块中可学习的权值
bias -形状为(out_features)的模块中可学习的偏置

# 创建一个线性激活层module
m = nn.Linear(20, 30)

# 创建输入变量
input = autograd.Variable(torch.randn(128, 20))

# 线性计算
output = m(input)

print(output.size())

torch.Size([128, 30])

5 归一化层

类名：

class torch.nn.BatchNorm1d(num_features, eps=1e-05, momentum=0.1, affine=True)
class torch.nn.BatchNorm2d(num_features, eps=1e-05, momentum=0.1, affine=True)
class torch.nn.BatchNorm3d(num_features, eps=1e-05, momentum=0.1, affine=True)

功能：

对小批量(mini-batch)输入进行批标准化(Batch Normalization)操作

在每一个小批量（mini-batch）数据中，计算输入各个维度的均值和标准差。gamma与beta是可学习的大小为C的参数向量（C为输入大小）

在训练时，该层计算每次输入的均值与方差，并进行移动平均。移动平均默认的动量值为0.1。

在验证时，训练求得的均值/方差将用于标准化验证数据。

参数：

num_features：来自期望输入的特征数，

一维：该期望输入的大小为’batch_size x num_features [x width]’

二维：该期望输入的大小为’batch_size x num_features x height x width’

三维：该期望输入的大小为’batch_size x num_features depth x height x width’

eps：为保证数值稳定性（分母不能趋近或取0）,给分母加上的值。默认为1e-5。
momentum：动态均值和动态方差所使用的动量。默认为0.1。
affine：一个布尔值，当设为true，给该层添加可学习的仿射变换参数。

大小：

输入与输出相同。

例子:

# With Learnable Parameters
m = nn.BatchNorm3d(100)

# Without Learnable Parameters
m = nn.BatchNorm3d(100, affine=False)

input = autograd.Variable(torch.randn(20, 100, 35, 45, 10))
output = m(input)
print(output.size())

torch.Size([20, 100, 35, 45, 10])

6 循环层

6.1 循环网络

目前提供三类最常用的循环网络:普通的RNN，LSTM，GRU。

类名：

class torch.nn.RNN( args, * kwargs)
class torch.nn.LSTM( args, * kwargs)
class torch.nn.GRU( args, * kwargs)

参数说明:

RNN:

input_size – 输入x的特征数量。
hidden_size – 隐层的特征数量。
num_layers – RNN的层数。
nonlinearity – 指定非线性函数使用tanh还是relu。默认是tanh。
bias – 如果是False，那么RNN层就不会使用偏置权重 $b_ih$ 和 $b_hh$ ,默认是True
batch_first – 如果True的话，那么输入Tensor的shape应该是[batch_size, time_step, feature],输出也是这样。
dropout – 如果值非零，那么除了最后一层外，其它层的输出都会套上一个dropout层。
bidirectional – 如果True，将会变成一个双向RNN，默认为False。

LSTM:

RNN参数中去掉nonlinearity

GRU：

与LSTM同

输入：(input, h_0)

input (seq_len, batch, input_size): 保存输入序列特征的tensor。input可以是被填充的变长的序列。细节请看torch.nn.utils.rnn.pack_padded_sequence()
h_0 (num_layers * num_directions, batch, hidden_size): 保存着初始隐状态的tensor

输出： (output, h_n)

output (seq_len, batch, hidden_size * num_directions): 保存着RNN最后一层的输出特征。如果输入是被填充过的序列，那么输出也是被填充的序列。
h_n (num_layers * num_directions, batch, hidden_size): 保存着最后一个时刻隐状态。

RNN模型参数:

weight_ih_l[k] – 第k层的 input-hidden 权重，可学习，形状是(input_size x hidden_size)。
weight_hh_l[k] – 第k层的 hidden-hidden 权重，可学习，形状是(hidden_size x hidden_size)
bias_ih_l[k] – 第k层的 input-hidden 偏置，可学习，形状是(hidden_size)
bias_hh_l[k] – 第k层的 hidden-hidden 偏置，可学习，形状是(hidden_size)

例子：

以GRU为例，其他二者可参考：

# 创建一个GRU循环神经网络,输入维度=10，hiden_size=20,hiden_layer=2
rnn = nn.GRU(10, 20, 2)

# 构建2个输入数据
# 3个样本，每个样本的序列长度是5，序列中每个元素的特征长度是10
input = autograd.Variable(torch.randn(5, 3, 10))
# GRU层数2，3个样本，隐层的输出维度是20
h0 = autograd.Variable(torch.randn(2, 3, 20))

# 计算，有2个输出
output, hn = rnn(input, h0)
print(output.size())
print(hn.size())

torch.Size([5, 3, 20])
torch.Size([2, 3, 20])

6.2 循环单元

注意，6.1可以一次性构建多层的整个循环神经网络，这一节讲的是构建一个循环单元，可以通过for循环将多个单元组合起来。也就是说多个时间维度上的cell组合起来才是完整的循环网络。

类名：

class torch.nn.RNNCell(input_size, hidden_size, bias=True, nonlinearity=‘tanh’)
class torch.nn.LSTMCell(input_size, hidden_size, bias=True)
class torch.nn.GRUCell(input_size, hidden_size, bias=True)

参数：

input_size – 输入 $x$ ，特征的维度。
hidden_size – 隐状态特征的维度。
bias – 如果为False，RNN cell中将不会加入bias，默认为True。
nonlinearity – 用于选择非线性激活函数 [tanh|relu]. 默认值为： tanh。在LSTM和GRU中没有该参数。

输入： input, hidden

RNN:

input (batch, input_size): 包含输入特征的tensor。
hidden (batch, hidden_size): 保存着初始隐状态值的tensor。

LSTM和GRU:将hidden换成一下两个输入：

h_0 ( batch, hidden_size):保存着batch中每个元素的初始化隐状态的Tensor
c_0 (batch, hidden_size): 保存着batch中每个元素的初始化细胞状态的Tensor

输出： h’

RNN，GRU：

h’ (batch, hidden_size):下一个时刻的隐状态。

LSTM:

h_1 (batch, hidden_size): 下一个时刻的隐状态。
c_1 (batch, hidden_size): 下一个时刻的细胞状态。

变量：

weight_ih – input-hidden 权重，可学习，形状是(input_size x hidden_size)。
weight_hh – hidden-hidden 权重，可学习，形状是(hidden_size x hidden_size)
bias_ih – input-hidden 偏置，可学习，形状是(hidden_size)
bias_hh – hidden-hidden 偏置，可学习，形状是(hidden_size)

例子：

以GRU为例，其他二者可参考：

# 构建GRUcell,input_feature_size = 10, hidden_size=20
rnn = nn.GRUCell(10, 20)

# 构造输入变量， 
# 序列长度=6，batch_size=3, input_size=10
input = autograd.Variable(torch.randn(6, 3, 10))
# batch_size=3, hidden_size=20
hx = autograd.Variable(torch.randn(3, 20))

output = []
for i in range(6):
    # 输出隐层
   hx = rnn(input[i], hx)
   output.append(hx)
    
print(len(output))

7.dropout层

类名：

class torch.nn.Dropout(p=0.5, inplace=False) 针对一维数据
class torch.nn.Dropout3d(p=0.5, inplace=False) 针对二维数据
class torch.nn.Dropout2d(p=0.5, inplace=False) 针对三维数据

参数：

p - 将元素置0的概率。默认值：0.5
in-place - 若设置为True，会在原地执行操作。默认值：False

形状：

1d:

输入：任意。输入可以为任意形状。
输出：相同。输出和输入形状相同。

2d:

输入： (N,C,H,W)
输出： (N,C,H,W)（与输入形状相同）

3d:

输入： N,C,D,H,W)
输出： (N,C,D,H,W)（与输入形状相同）

# 创建一个dropout层module
m = nn.Dropout(p=0.2)

input = autograd.Variable(torch.randn(20, 16))
output = m(input)
print(output.size())

torch.Size([20, 16])

# 创建一个dropout2d层module
m = nn.Dropout(p=0.2)

input = autograd.Variable(torch.randn(20, 16, 32,32))
output = m(input)
print(output.size())

torch.Size([20, 16, 32, 32])

# 创建一个dropout3d层module
m = nn.Dropout(p=0.2)

input = autograd.Variable(torch.randn(20, 16, 4,32,32))
output = m(input)
print(output.size())

torch.Size([20, 16, 4, 32, 32])

8 Sparse层

类名：

class torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2, scale_grad_by_freq=False, sparse=False)

功能：

一个保存了固定字典和大小的简单查找表。

这个模块常用来保存词嵌入和用下标检索它们。模块的输入是一个下标的列表，输出是对应的词嵌入。

参数：

num_embeddings (int) - 嵌入字典的大小
embedding_dim (int) - 每个嵌入向量的大小
padding_idx (int, optional) - 如果提供的话，输出遇到此下标时用零填充
max_norm (float, optional) - 如果提供的话，会重新归一化词嵌入，使它们的范数小于提供的值
norm_type (float, optional) - 对于max_norm选项计算p范数时的p
scale_grad_by_freq (boolean, optional) - 如果提供的话，会根据字典中单词频率缩放梯度

变量：

weight (Tensor) -形状为(num_embeddings, embedding_dim)的模块中可学习的权值

形状：

输入： LongTensor (N, W), N = mini-batch, W = 每个mini-batch中提取的下标数
输出： (N, W, embedding_dim)

# 创建一个Sparse层module,10个词，每个词向量长度为3
embedding = nn.Embedding(10, 3)

# 创建一批数据，包含两个样本，每个样本的fetaure长度为4
input = autograd.Variable(torch.LongTensor([[1,2,3,4],[5,6,7,8]]))

input_emb = embedding(input)
print(input_emb)

tensor([[[ 0.1388,  1.0344,  0.4986],
         [ 1.2887, -0.2868,  1.8511],
         [-0.2473,  0.3659, -2.0664],
         [ 0.4521, -0.3340,  1.0321]],

        [[ 1.0713,  0.8976, -0.1969],
         [-0.4481, -0.7756,  0.5349],
         [ 2.1492,  1.2860,  1.2949],
         [ 1.1719, -1.3687, -1.8749]]])

# example with padding_idx
embedding = nn.Embedding(10, 3, padding_idx=0)

input = autograd.Variable(torch.LongTensor([[0,2,0,5]]))

print(embedding(input))

tensor([[[ 0.0000,  0.0000,  0.0000],
         [ 1.0288,  1.4577, -0.4938],
         [ 0.0000,  0.0000,  0.0000],
         [ 1.5563, -1.6282, -0.2595]]])

你可能感兴趣的:(Pytorch)

ReBEL模型的本地部署与运行，用于三元组抽取任务（事件抽取、知识抽取）
1.服务器CUDA11.72.依赖condacreate-nrebel_envpython=3.10-ycondaactivaterebel_env#安装PyTorch（建议与CUDA11.7配合）pipinstalltorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl/cu117#安装Transformers和
pytorch官方文档60分钟入门笔记 xiaodidadada 机器学习
文章目录1.张量（Tensors）定义张量张量操作2.自动求导（autograd）变量Variable3.神经网络4.训练一个分类器载入数据5.数据并行day63参考：官方文档https://blog.csdn.net/u014630987/article/details/786690511.张量（Tensors）tensors和numpy的ndarray类似,但是tensors可以使用GPU加快
基于改进扩散模型与注意力机制的影像到转基因数据预测系统
基于改进扩散模型与注意力机制的影像到转基因数据预测系统1.项目概述本系统利用改进的扩散模型结合注意力机制，从医学影像中预测转基因数据。系统采用PyTorch框架实现，包含数据预处理、模型架构、训练流程和评估指标等完整模块。importtorchimporttorch.nnasnnimporttorch.nn.functionalasFimporttorch.optimasoptimfromtorc
大模型-FlashAttention 算法分析清风lsq 大模型推理算法算法大模型推理 LLM flashattention
一、FlashAttention的概述FlashAttention是一种IO感知精确注意力算法。通过感知显存读取/写入，FlashAttention的运行速度比PyTorch标准Attention快了2-4倍，所需内存也仅是其5%-20%。随着Transformer变得越来越大、越来越深，但它在长序列上仍然处理的很慢、且耗费内存。（自注意力时间和显存复杂度与序列长度成二次方），现有近似注意力方法，
如何用Python实现基础的文生视频AI模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南 python 音视频人工智能 ai
如何用Python实现基础的文生视频AI模型关键词：文生视频、AI生成、扩散模型、多模态对齐、视频生成算法、Python实现、时间一致性摘要：本文系统讲解基于扩散模型的文生视频（Text-to-Video,T2V）AI模型的核心原理与Python实现方法。从技术背景到数学模型，从算法设计到项目实战，逐步拆解文本-视频跨模态对齐、时间序列建模、扩散生成等关键技术。通过PyTorch实现一个基础版文生
入门pytorch-联邦学习四代机您发多少 pytorch 人工智能 python
本文联邦学习的代码引用于https://github.com/shaoxiongji/federated-learning本篇文章相当于带大家读一遍联邦学习的代码，同时加深了大家对联邦学习和Pytorch框架的理解。这里想简单介绍一下联邦学习。联邦学习说白了，就是假如有NNN个数据拥有者F1,...,FN{F_1,...,F_N}F1,...,FN，他们希望使用这些数据来训练机器学习模型，但是又各
pytorch底层原理学习--PyTorch 架构梳理 xinxiangwangzhi_ 深度学习 pytorch 架构人工智能
文章目录PyTorch完整架构流程图关键组件详解完整执行流程示例PyTorch架构梳理PyTorch完整架构流程图硬件层后端层C++部署层核心引擎(libtorchC++)绑定层Python层加载调用训练模式编译模式推理模式生成CPUGPUCPUKernelsCUDAKernelsC++代码torch::jit::load('model.pt')module.forward(inputs)libt
pytorch底层原理学习--Libtorch
libtorchlibtorch是PyTorch的C++实现版本，可以认为所有的pytorch底层都是由c++实现，而pytorch的所有C++实现就叫libtorch，也就是我们在pytorch官网getstart页面下载的c++pytorch版本。我们用python写的pytorch神经网络代码都会通过pybind11将python转换为libtorch的C++代码。[官方文档](PyTorc
如何在pytorch中使用tqdm：优雅实现训练进度监控 Ven% 简单入门pytorch pytorch 人工智能 python
文章目录为什么需要进度条？tqdm简介基础用法示例深度学习中的实战应用1.数据加载进度监控2.训练循环增强版3.验证阶段集成高级技巧与最佳实践1.自定义进度条样式2.嵌套进度条（多任务）3.分布式训练支持4.与日志系统集成性能优化建议完整训练流程示例常见问题解决方案总结掌握训练进度监控是深度学习工程师的基本功。本文将带你从零开始，深入探索如何用tqdm为深度学习训练添加专业级进度条。为什么需要进度
linux深度学习问题汇总不想改代码备忘录 linux python 深度学习 pytorch 人工智能 1024程序员节
目录一、异常问题1.segementationfault(coredump)2.Illegalinstruction(coredumped)3.死锁4.掉卡二、通用方法1.查看重启记录2.系统性能监控3.后台执行命令4.异常日志三、深度学习技术1.普通网络改DDP训练，单机多卡，pytorch四、专业内容方法1.微调diffusion类模型本文记录一些在使用linux服务器进行深度学习时遇到的问题
AI编程实战：Cursor黑科技全解析 ithadoop python 开发语言
Cursor黑科技：AI编程实战核心技术解析2025年智能编程工具效能革命白皮书一、核心功能架构语义驱动开发基于CodeGraph技术构建跨文件语义图谱，实现类/函数级上下文感知实时生成UML时序图辅助架构设计（快捷键Ctrl+Alt+U）多模态编程#输入："PyTorch实现ResNet50猫狗分类，带数据增强"@AI生成代码transform=transforms.Compose([trans
从零开始大模型开发与微调：PyTorch中的卷积函数实现详解 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyTorch中的卷积函数实现详解1.背景介绍1.1大模型开发的意义1.2卷积神经网络在大模型中的应用1.3PyTorch框架简介2.核心概念与联系2.1卷积的数学定义2.2卷积神经网络的组成2.2.1卷积层2.2.2池化层2.2.3全连接层2.3卷积与大模型的关系3.核心算法原理具体操作步骤3.1卷积的前向传播3.2卷积的反向传播3.3卷积的优化策略3.3.1卷积核大小
PyTorch里.pt和.pth的区别 sky丶Mamba AI pytorch 人工智能 python
在PyTorch中，.pt和.pth文件均用于保存模型，但两者在设计初衷、存储内容和使用场景上存在差异。以下是详细对比：1.核心区别特性.pt文件.pth文件存储内容完整模型（结构+参数+优化器状态等）仅模型参数（state_dict）文件大小较大（包含额外元数据）较小（仅参数）加载方式直接加载，无需定义模型结构需先实例化模型，再加载参数适用场景部署、跨环境迁移训练中断恢复、参数共享2.技术细节.
深入理解 PyTorch 中的自动微分机制与 `.detach()` 用法全解析 Accelemate pytorch 人工智能 python 深度学习 gan torch
作者：Accelemate发布时间：2025年6月26日本文摘要：本文将从零开始，系统性地讲解PyTorch中的计算图、反向传播、withtorch.no_grad()、.detach()等核心机制，结合实践场景如可视化中间层特征图、GAN模型中对生成器的冻结操作等内容，帮助你在实际开发中灵活、正确地使用自动微分特性。一、自动微分基础概念1.1什么是自动微分（Autograd）？PyTorch的自
PyTorch 中 nn.Linear() 参数详解与实战解析（gpt）草莓奶忻深度学习 pytorch gpt 人工智能
PyTorch中nn.Linear()参数详解与实战解析在使用PyTorch构建神经网络时，nn.Linear()是最常用也最基础的模块之一。它用于实现一个全连接层（FullyConnectedLayer），本质上就是对输入进行一次线性变换：y=xAT+by=xA^T+by=xAT+b本文将详细介绍nn.Linear()的参数含义、属性说明、初始化机制，并结合实际代码案例帮助你真正理解它的工作原理
YOLOv12_ultralytics-8.3.145部分代码阅读笔记-utils.py 红色的山茶花 YOLO 笔记深度学习
utils.pyultralytics\nn\modules\utils.py目录utils.py1.所需的库和模块2.def_get_clones(module,n):3.definverse_sigmoid(x,eps=1e-5):4.defmulti_scale_deformable_attn_pytorch(value:torch.Tensor,value_spatial_shapes:t
深度学习之基于Pytorch卷积神经网络人民币面值识别 Q1744828575 python pytorch plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景在日常生活和商业活动中，人民币面值识别技术具有重要的应用价值。传统的面值识别方法，如基于模板匹配或特征工程的方法，在面对复杂多变的图像环境时，往往难以达到理想的识别效果。随着深度学习技术的兴起，特别是卷积神经网络（ConvolutionalNeuralNetwo
用Pytorch训练手写签名模型并进行签名识别 TBM矩阵 #AI体系学习 pytorch 人工智能 python
整体思路收集至少两个人的手写签名图片，每个人至少20张使用Pytorch进行模型训练使用Flask搭建Web服务使用Html/JavaScript实现前端调用进行签名识别项目结构signature-systemdatatrainuser001001.png...user002001.png...templatesindex.htmlapp.pymodel.pytrain.py建模：model.py
[pytorch] pytorch_model.bin 和 training_args.bin 的区别心心喵 pytorch 深度学习 pytorch 神经网络
pytorch_model.bin和training_args.bin是与PyTorch框架和训练过程相关的两个文件。pytorch_model.bin:这是保存了PyTorch模型的二进制文件。在使用PyTorch进行深度学习训练时，经过训练的模型会被保存为这个文件，其中包含了模型的权重参数。这个文件可以被加载到PyTorch中，以便进行推理、评估或继续训练。training_args.bin:
深入理解AI技术与实践：如何贡献代码 Wurenyu957 人工智能
在现代AI技术的开发过程中，贡献代码是推动项目发展、提升技术能力的重要方式。在这篇文章中，我们将结合AI技术实践，深入探讨如何有效地为开源项目贡献代码，尤其是那些使用AI模型的项目。技术背景介绍AI技术的迅猛发展得益于开源社区的共享和协作。诸如TensorFlow、PyTorch等开源框架，极大地降低了AI模型开发的门槛。与此同时，越来越多的项目通过GitHub等平台开放源码，接受来自全球开发者的
NeRF-Pytorch：NeRF神经辐射场复现——Pytorch版全流程分析与测试【Ubuntu20.04】【2025最新版！！！】那就举个栗子！三维重建计算机视觉人工智能
一、引言在计算机视觉和计算机图形学的交叉领域中，视图合成（ViewSynthesis）一直是一个充满挑战的研究方向。传统的三维重建方法往往需要复杂的几何建模和纹理映射过程，而且在处理复杂光照和材质时效果有限。2020年，来自UCBerkeley的研究团队提出了NeuralRadianceFields（NeRF），这一革命性的方法彻底改变了我们对三维场景表示和渲染的理解。NeRF的核心思想是将三维场
【Python】科研代码学习：十三 Accelerate 溢流眼泪【科研代码】python 学习开发语言
【Python】科研代码学习：十三AccelerateAccelerate统一的加速接口修改训练代码(torch.nn)更简单的使用Accelerate【HF官网-Doc-Accelerate：API】HFAccelerate是一个库，能够让PyTorch代码添加几行代码之后，就能在分布式配置中运行（比如多Gpus卡）前言：建议Python3.8+pipinstallaccelerate统一的加速
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
【PyTorch】2024保姆级安装教程-Python-（CPU+GPU详细完整版）金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 python pytorch 人工智能
【PyTorch】2024保姆级安装教程（CPU+GPU详细完整版）PyTorch是当前最受欢迎的深度学习框架之一。本文将详细讲解在Python环境中安装PyTorch，包括CPU和GPU版本的全方位指南。一、前置环境首先确保已安装Python环境，推荐使用Python3.8或以上版本。验证Python安装：python--versionpip--version推荐使用虚拟环境（如conda或ve
基于OpenCV图像分割与PyTorch的增强图像分类方案从零开始学习人工智能 opencv pytorch 分类
在图像分类任务中，背景噪声和复杂场景常常会对分类准确率产生负面影响。为了应对这一挑战，本文介绍了一种结合OpenCV图像分割与PyTorch深度学习框架的增强图像分类方案。通过先对图像进行分割提取感兴趣区域（RegionofInterest，ROI），再进行分类，可以有效减少背景干扰，突出关键特征，从而提高分类准确率。该方案在多种复杂场景下表现出色，尤其适用于图像背景复杂或包含多个对象的情况。一、
Windows系统部署YOLOv5 v6.1版本的训练与推理环境保姆级教程 lujx_1024 windows YOLO
文章目录一·概述二·依赖环境(`prerequisites`)2.1硬件环境2.2软件环境三·环境安装3.1创建并激活虚拟环境3.2安装`Pytorch`与`torchvision`3.3校验`Pytorch`安装3.4下载`YOLOv5``v6.1`源码3.5安装`YOLOv5`依赖3.6下载预训练模型3.7安装其他依赖3.8测试环境安装3.9测试训练流程四·参考链接一·概述本文档主要记录使用工
Python pdfminer.six库【PDF解析库】全面使用指南老胖闲聊 Python库大全 python pdf 开发语言
想全面了解DeepSeek的看过来【包邮】DeepSeek全攻略人人需要的AI通识课零基础掌握DeepSeek的实用操作手册指南【限量作者亲笔签名版售完即止】玩转DeepSeek这本就够了【自营包邮】DeepSeek实战指南deepseek从入门到精通实用操作指南现代科技科普读物AI普及知识读物人工智能使用教程中小学读物京东超级618Python初学者的入门教程动手学深度学习PyTorch版李沐和
Day33打卡 @浙大疏锦行 ayuan0119 python打卡shu python
知识点回顾：PyTorch和cuda的安装查看显卡信息的命令行命令（cmd中使用）cuda的检查简单神经网络的流程数据预处理（归一化、转换成张量）#仍然用4特征，3分类的鸢尾花数据集作为我们今天的数据集fromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitimportnumpyasnp
DAY 43 复习日 yizhimie37 python训练营打卡笔记深度学习
@浙大疏锦行https://blog.csdn.net/weixin_45655710第一步：寻找并准备图像数据集在Kaggle等平台上，你可以找到大量用于图像分类任务的数据集，例如英特尔图像分类数据集(IntelImageClassification)或手写数字识别数据集(DigitRecognizer)。对于初学者，一个更便捷的选择是使用像TensorFlow或PyTorch这样深度学习框架内
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

Pytorch第六课：package-torch.nn详解（2）之 网络结构组建

1 卷积层

1.1 一维卷积层

类名：

Parameters：

shape:

变量:

例子：

1.2 二维卷积层

类名：

Parameters：

shape:

变量:

例子：

1.3 三维卷积层

类名：

shape:

例子：

1.4 解卷积层

类名：

参数：

变量:

shape:

例子：

2 池化层

2.1 最大池化

类名：

参数：

shape:

例子：

类名：

参数：

输入：

shape:

例子：

2.2 平均池化

类名：

参数：

大小：

例子：

2.3 分数最大池化

类名：

参数：

例子：

2.4 幂平均池化

类名：

参数

shape

例子：

2.5 自适应池化

2.5.1 自适应最大池化

类名：

参数：

例子：

2.5.2 自适应平均池化

例子：

3 非线性激活层

4 线性层

类名：

功能：

参数：

形状：

变量：

5 归一化层

类名：

功能：

参数：

大小：

例子:

6 循环层

6.1 循环网络

类名：

参数说明:

输入：(input, h_0)

输出： (output, h_n)

RNN模型参数:

例子：

6.2 循环单元

类名：

参数：

Pytorch第六课：package-torch.nn详解（2）之网络结构组建