longrootchen

PyTorch学习笔记（三）参数初始化与各种Norm层

Environment

OS: macOS Mojave
Python version: 3.7
PyTorch version: 1.4.0
IDE: PyCharm

文章目录

0. 写在前面
1. 初始化

1.1 Xavier 初始化

1.1.1 Xavier 均匀分布
1.1.2 Xavier 正态分布
1.1.3 计算增益值 gain

1.2 kaiming 初始化

1.2.1 kaiming 正态分布
1.2.2 kaiming 均匀分布

1.3 均匀分布初始化
1.4 正态分布初始化
1.5 常数初始化
1.6 正交初始化
1.7 单位矩阵初始化
1.8 稀疏矩阵初始化

2. Norm 层

2.1 Batch Normalization

2.1.1 running_mean 和 running_var 属性
2.1.2 weight 和 bias 属性
手动计算

2.2 Layer Normalization

2.2.1 weight 和 bias 属性
手动计算

2.3 Instance Normalization

2.3.1 running_mean 和 running_var 属性
手动计算

2.4 Group Normalization

2.4.1 weight 和 bias 属性
手动计算

0. 写在前面

数据在神经网络模型的层与层之间传播，数据过大或或小都会使训练遇上麻烦。合理的参数初始化和 Normalization 能够使模型中数据分布合理，让训练能够顺利地进行。

1. 初始化

PyTorch 中的 torch.nn.init 模块提供了十种初始化的方式，这里简单记录一下。

为改善梯度消失和爆炸的问题，需要保证神经网络中数据分布在合适的范围，这就是方差一致性。经典的 Xavier 和 kaiming 初始化都是从这个原则得来。

对于两个独立随机变量，它们乘积的方差为

$\overset{方差的定义}= E[(XY - E(XY))^2] \\ \ \\ = E[X^2 Y^2 - 2XY E(XY) + E^2(XY)] \\ \ \\ \overset{期望的线性性质}= E(X^2 Y^2) - 2E^2(XY) + E^2(XY) = E(X^2 Y^2) - E^2(XY)$
因为，当 X, Y 相互独立时
$E(XY) = E(X) E(Y), E(X^2 Y^2) = E(X^2) E(Y^2)$
所以，
$D(XY) = E(X^2) E(Y^2) - [E(X)E(Y)]^2$
又因
$E(X^2) = D(X) + E^2(X), E(Y^2) = D(Y) + E^2(Y)$
进一步转化
$D(XY) = [D(X) + E^2(X)][D(Y) + E^2(Y)] - [E(X)E(Y)]^2 \\ \ \\ = D(X)D(Y) + D(X)E^2(Y) + D(Y)E^2(X)$

当 $E (X) = E (Y) = 0$ 时，
$D (X Y) = D (X) D (Y)$

由此可知，当神经网络第 $l - 1$ 层中的数据方差为 $Var^{[l-1]}$ ，那么在含有 $n$ 个神经元的第 $l$ 层，且权重的方差为 $1$ 时，该层数据的方差理论上将是
$Var^{[l]} = Var^{[i-1]} \times n \times 1 = n Var^{[l-1]}$

1.1 Xavier 初始化

Xavier 初始化主要针对饱和激活函数，如 Sigmoid、Tanh。具体理论参考文献 Understanding the difficulty of training deep feedforward neural networks

1.1.1 Xavier 均匀分布

为了保证每一层中数据的方差为 $1$ ，即 $n^{[l-1]} \times D(W^{[l]}) = n^{[l]} \times D(W^{[l]}) = 1$ ，

折衷地，有 $D(W^{[l]}) = \frac{2}{n^{[l-1]} + n^{[l]}}$ ，

对于均匀分布的 $W$ ， $\sim U[-a, a]$ ，方差 $\frac{(2a)^2}{12} = \frac{a^2}{3}$ ，

根据上面两式，设置均匀分布中的参数 $\sqrt{\frac{6}{n^{[l-1]} + n^l}}$

另外，考虑到激活函数的存在，设置增益 gain，得 $\text{gain} \sqrt{\frac{6}{n^{[l-1]} + n^l}}$

torch.nn.init.xavier_uniform_ 实现 Xavier 均匀分布初始化

import torch
from torch.nn import Module, Conv2d, Linear


class Net(Module):
    def __init__(self):
        super(Net, self).__init__()
        pass  # 定义网络层

        self._init_params()  # 执行初始化

    def forward(self, x):
        pass  # 定义前向传播

    def _init_params(self):
        for m in self.modules():
            if isinstance(m, (Conv2d, Linear)):  # 对卷积层和线性层的权重执行 Xavier 均匀分布初始化
                torch.nn.init.xavier_uniform_(
                    tensor=m.weight.data,  # 传入需要初始化的对象
                    gain=torch.nn.init.calculate_gain('tanh')  # 增益，因激活函数而异的一个缩放因子
                )
                """
                # 手动设定 Xavier 均匀分布初始化
                a = np.sqrt(6 / (m.in_features + m.out_features))
                gain = torch.nn.init.calculate_gain('tanh')
                a *= gain
                torch.nn.init.uniform_(m.weight.data, -a, a)
                """
                torch.nn.init.constant_(m.bias.data, 0)


if __name__ == '__main__':
    net = Net()

1.1.2 Xavier 正态分布

均值为零，标准差为 $\text{gain} * \sqrt{\frac{2}{n^{[l-1]} + n^l}}$

torch.nn.init.xavier.normal 实现 Xavier 正态分布初始化，使用同 Xavier 均匀分布函数。

1.1.3 计算增益值 gain

计算数据的方差在神经网络层间关系时，未考虑到激活函数的存在，因为激活函数会造成数据分布的改变，因此在初始化参数时，需要计算增益值 gain

torch.nn.init.calculate_gain(nonlinearity, param=None)

nonlinearity	gain
Linear / Identity	$1$
Conv{1,2,3}d	$1$
Sigmoid	$1$
Tanh	$\frac{5}{3}$
ReLU	$\sqrt{2}$
Leaky Relu	$negative_slope 2 \sqrt{\frac{2}{1 + \text{negative\_slope}^2}}$

1.2 kaiming 初始化

当 Xavier 初始化遇到非饱和激活函数（如 ReLu、LeakyReLU 等）时，效果并不太好。因此主要针对非饱和激活函数的 kaiming 初始化被提出。具体理论参考文献 Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification

1.2.1 kaiming 正态分布

均值为零，标准差为 $\sqrt{\frac{2}{(1 + a^2) \times n^{[l]}}}$ ，其中 $a$ 为激活函数负半轴的斜率。

torch.nn.init.xavier_normal_ 实现 kaiming 正态分布初始化

import torch
from torch.nn import Module, Conv2d, Linear


class Net(Module):
    def __init__(self):
        super(Net, self).__init__()
        pass  # 定义网络层

        self._init_params()  # 执行初始化

    def forward(self, x):
        pass  # 定义前向传播

    def _init_params(self):
        for m in self.modules():
            if isinstance(m, (Conv2d, Linear)):  # 对卷积层和线性层的权重执行 Xavier 均匀分布初始化
                torch.nn.init.kaiming_normal_(
                    tensor=m.weight.data,  # 需要初始化的对象
                    a=0,  # LeakyReLU 负半轴斜率，默认为 0，即 ReLU
                    mode='fan_out',  # 可传入 'fan_in' 或 'fan_out'两种值，默认为 'fan_in'
                                     # 'fan_in' 表示设置标准差时，分母为输入层的神经元个数，正向传播时方差一致
                                     # 'fan_out' 表示设置标准差时，分母为该层神经元个数，反向传播时方差一致
                    nonlinearity='leaky_relu'  # 网络中使用的激活函数，默认为 'leaky_relu'
                )
                """
                # 手动设定 kaiming 正态分布初始化
                a = 0
                torch.nn.init.normal_(m.weight.data, std=np.sqrt(2 / (1 + a**2) * m.out_features))
                """
                torch.nn.init.constant_(m.bias.data, 0)


if __name__ == '__main__':
    net = Net()

1.2.2 kaiming 均匀分布

均匀分布的上下限为 $\sqrt{\frac{6}{(1+a^2) \times n^{[l]}}}$

torch.nn.init.xavier_uniform_ 实现 kaiming 均匀分布初始化，使用方式同 kaiming 正态分布。

1.3 均匀分布初始化

torch.nn.init.uniform_

import torch
from torch.nn import Conv2d
import matplotlib.pyplot as plt
import seaborn as sns

conv = Conv2d(in_channels=64, out_channels=256, kernel_size=3)
torch.nn.init.uniform_(conv.weight.data, a=0.0, b=1.0)  # a, b 为均匀分布的上下限

sns.set_style('whitegrid')
plt.hist(conv.weight.data.detach().numpy().ravel())
plt.show()

1.4 正态分布初始化

torch.nn.init.normal_

import torch
from torch.nn import Conv2d
import matplotlib.pyplot as plt
import seaborn as sns

conv = Conv2d(in_channels=64, out_channels=256, kernel_size=3)
torch.nn.init.normal_(conv.weight.data, mean=0.0, std=1.0)

sns.set_style('whitegrid')
plt.hist(conv.weight.data.detach().numpy().ravel(), bins=20)
plt.show()

1.5 常数初始化

torch.nn.init.constant_ 实现常数初始化

import torch

w = torch.empty(8, 2)
torch.nn.init.constant_(w, val=0)

1.6 正交初始化

torch.nn.init.orthogonal_ 使得 tensor 正交

import torch
from torch.nn import Conv2d

torch.manual_seed(0)

conv = Conv2d(in_channels=3, out_channels=64, kernel_size=7)

torch.nn.init.orthogonal_(conv.weight.data, gain=1.0)
w = conv.weight.data[0, 0]

# 7 x 7 并不太多，所以乘积并不为零
print(w[:, 0] @ w[:, 1])  # tensor(0.0596)
print(w[:, 0] @ w[:, 2])  # tensor(0.0124)
print(w[:, 1] @ w[:, 2])  # tensor(0.0103)

1.7 单位矩阵初始化

torch.nn.init.eye_ 实现单位矩阵初始化，仅支持传入二维或三维张量，如全连接层的权重

import torch
from torch.nn import Linear

linear = Linear(in_features=2048, out_features=1000)
torch.nn.init.eye_(linear.weight.data)

print(linear.weight.data)
# tensor([[1., 0., 0.,  ..., 0., 0., 0.],
#         [0., 1., 0.,  ..., 0., 0., 0.],
#         [0., 0., 1.,  ..., 0., 0., 0.],
#         ...,
#         [0., 0., 0.,  ..., 0., 0., 0.],
#         [0., 0., 0.,  ..., 0., 0., 0.],
#         [0., 0., 0.,  ..., 0., 0., 0.]])

1.8 稀疏矩阵初始化

torch.nn.init.orthogonal_ 使得矩阵每一列有一部分为零，其余非零元素服从以零为期望的正态分布。仅支持传入二维或三维张量，如全连接层的权重。参考文献 Deep learning via Hessian-free optimization。

import torch
from torch.nn import Linear
import matplotlib.pyplot as plt
import seaborn as sns

torch.manual_seed(0)

linear = Linear(in_features=64, out_features=256)

# sparsity 传入每一列零元素的比例，std 传入非零元素正态分布的标准差
torch.nn.init.sparse_(linear.weight.data, sparsity=0.1, std=0.01)
sns.set_style('whitegrid')
plt.hist(linear.weight.data.detach().numpy().ravel(), bins=20)
plt.show()

2. Norm 层

PyTorch 提供了四种常用的 Norm 层，包括 BatchNorm、LayerNorm、InstanceNorm 和 GroupNorm。BatchNorm 和 InstanceNorm 的基类为 torch.nn._NormBase，该类继承于 torch.nn.Module；LayerNorm 和 GroupNorm 直接继承于 torch.nn.Module。

创建一个小数据集为例，观察对于 2d 的 Norm 层的效果

import torch

feature_maps_1 = torch.tensor([
    [
        [0., 2],
        [4, 6]
    ],
    [
        [2, 4],
        [6, 8],
    ],
    [
        [4, 6],
        [8, 10]
    ],
    [
        [6, 8],
        [10, 12]
    ]
])
feature_maps_2 = torch.tensor([
    [
        [1., 3],
        [5, 7]
    ],
    [
        [3, 5],
        [7, 9],
    ],
    [
        [5, 7],
        [9, 11]
    ],
    [
        [7, 9],
        [11, 13]
    ]
])

feature_maps_batch = torch.stack((feature_maps_1, feature_maps_2), dim=0)
print('input data shape:', feature_maps_batch.size())
# input data shape: torch.Size([2, 4, 2, 2])

2.1 Batch Normalization

对隐藏层的 Normalization 操作使得参数初始化变得不用那么讲究，训练更稳定。

torch.nn.BatchNorm2d 的计算示意图

from torch.nn import BatchNorm2d

bn = BatchNorm2d(
    num_features=feature_maps_batch.size(1),  # 样本的特征数
    eps=1e-5,  # 分母修正项
    momentum=MOMENTUM,  # 指数加权平均估计当前 mean/var
    affine=True,  # 是否需要 affine transform
    track_running_stats=True  # 追踪模型是 train 状态还是 eval 状态
)

# 打印初始的 running_mean 和 running_var
print(bn.running_mean, bn.running_var)
# tensor([0., 0., 0., 0.]) tensor([1., 1., 1., 1.])

# prop forward
output = bn(feature_maps_batch)

理解track_running_stats 参数，参考知乎 BatchNorm2d增加的参数track_running_stats如何理解？

2.1.1 running_mean 和 running_var 属性

加权均值，计算公式为
$running_mean = ( 1 − momentum ) × pre_running_mean + momentum × mean_t \text{running\_mean} = (1 - \text{momentum}) \times \text{pre\_running\_mean} + \text{momentum} \times \text{mean\_t}$

加权方差，计算公式为
$running_var = ( 1 − momentum ) × pre_running_var + momentum × var_t \text{running\_var} = (1 - \text{momentum}) \times \text{pre\_running\_var} + \text{momentum} \times \text{var\_t}$

经过一波前向之后，

# 对于 BatchNorm2d 而言， 
# running_mean 和 running_var 是一维的，长度与 num_features 相同
print(bn.running_mean.size())  # torch.Size([4])
print(bn.running_var.size())  # torch.Size([4])
print('running mean:', bn.running_mean)
# tensor([1.0500, 1.6500, 2.2500, 2.8500])
print('running var:', bn.running_var)
# tensor([2.5000, 2.5000, 2.5000, 2.5000])

2.1.2 weight 和 bias 属性

weight 为 affine transform 中的 gamma，bias 为 beta。

print(bn.weight.size())  # torch.Size([4])
print(bn.bias.size())  # torch.Size([4])
print(bn.weight)
# tensor([1., 1., 1., 1.], requires_grad=True)
print(bn.bias)
# tensor([0., 0., 0., 0.], requires_grad=True)

手动计算

对于 batch 中第一个 feature_map，手动实现 BatchNorm2d。需要注意，torch.var(unbiased=True) 中默认使用了方差的 Bessel’s correction，即计算样本方差而不是总体方差

first_map_in_batch = feature_maps_batch[:, 0, :, :]

# 在训练相中，进行 Normalization 时，使用的标准差为总体标准差，未经 Bessel's correction
out = (first_map_in_batch-first_map_in_batch.mean()) / first_map_in_batch.std(unbiased=False)
print('Output:\n', out)
# Output:
# tensor([[[-1.5275, -0.6547],
#          [ 0.2182,  1.0911]],
#         [[-1.0911, -0.2182],
#          [ 0.6547,  1.5275]]])

# 计算 running_mean 和 running_var
running_mean, running_var = 0., 1.
print('running mean:', 
      (1 - MOMENTUM) * running_mean + MOMENTUM * first_map_in_batch.mean())
# running mean: tensor(1.0500)
print('running var:', 
      (1 - MOMENTUM) * running_var + MOMENTUM * first_map_in_batch.var())
# running var: tensor(2.5000)

2.2 Layer Normalization

Batch Normalization 不适用于变长的网络，如 RNN。对于这种网络，需要逐层计算均值和方差，进行 Normalization。

Layer Normalization 没有 running_mean 和 running_var，每一个元素有一个 weight 和 bias。

torch.nn.LayerNorm2d 的计算示意图

ln = LayerNorm(
    normalized_shape=feature_maps_batch.size()[1:], # 该层特征形状
    eps=1e-05,
    elementwise_affine=True # 是否需要 affine transform
)

output = ln(feature_maps_batch)

2.2.1 weight 和 bias 属性

print(ln.weight.size())  # torch.Size([4, 2, 2])
print(=ln.bias.size())  # torch.Size([4, 2, 2])

手动计算

feature_map_layer_1 = feature_maps_batch[0]
out = (feature_map_layer_1 - feature_map_layer_1.mean()) / feature_map_layer_1.std(unbiased=False)
print(out)
# tensor([[[-1.8974, -1.2649],
#          [-0.6325,  0.0000]],
# 
#         [[-1.2649, -0.6325],
#          [ 0.0000,  0.6325]],
# 
#         [[-0.6325,  0.0000],
#          [ 0.6325,  1.2649]],
# 
#         [[ 0.0000,  0.6325],
#          [ 1.2649,  1.8974]]])

2.3 Instance Normalization

Batch Normalization 不适用于图像生成的任务（如GAN、Nueral Style Transfer），因此提出了 Instance Normalization，对逐个样本实例的逐个特征图计算均值和方差，进行 normalization。

torch.nn.InstanceNorm2d 的计算示意图

from torch.nn import InstanceNorm2d

instance_norm = InstanceNorm2d(
    num_features=feature_maps_batch.size(1), # 一个样本的特征数，也就是卷积层的 out_channels
    eps=1e-5, # 分母修正项
    momentum=MOMENTUM, # 指数加权平均估计当前 mean / var
    affine=True, # 是否需要 affine transform
    track_running_stats=True # 追踪模型是 train 状态还是 eval 状态
)

# 打印初始的 running_mean 和 running_var
print(instance_norm.running_mean, instance_norm.running_var)
tensor([0., 0., 0., 0.]) tensor([1., 1., 1., 1.])

# forward
output = instance_norm(feature_maps_batch)

2.3.1 running_mean 和 running_var 属性

print('running mean shape:', instance_norm.running_mean.size())
# running mean shape: torch.Size([4])
print('running mean:', instance_norm.running_mean)
# running mean: tensor([1.7850, 2.8050, 3.8250, 4.8450])

print('running var shape:', instance_norm.running_var.size())
# running var shape: torch.Size([4])
print('running var:', instance_norm.running_var)
# running var: tensor([3.8900, 3.8900, 3.8900, 3.8900])

手动计算

对于 batch 中第一个样本的第一个 feature_map

instance = feature_maps_batch[0, 0, :, :]
out = (instance - instance.mean()) / instance.std(unbiased=False)
print(out)
# tensor([[-1.3416, -0.4472],
#         [ 0.4472,  1.3416]])

2.4 Group Normalization

一般 batch size 为 64、128 或 256。当模型较大，而设置相对小的 batch size时，Batch Normalization 估计的均值和方差可能不准。Group Normalization 采用通道数来补偿较小的 batch，得到更好的均值和方差。

事实上，

LayerNorm 就是 num_groups=1 时的 GroupNorm
InstanceNorm 就是 num_groups=num_features 时的 GroupNorm

num_groups=2 时， torch.nn.GroupNorm 的计算示意图

num_groups = 2 # 要求 num_features 能被 num_groups 整除。1、2 或 4

gn = GroupNorm(
    num_groups=num_groups, # 分组数
    num_channels=feature_maps_batch.size(1), # 通道数（特征数）
    eps=1e-05, # 分母修正项
    affine=True # 是否需要 affine transform
)

output = gn(feature_maps_batch)

2.4.1 weight 和 bias 属性

print('GN weight shape: {}, GN bias shape: {}'.format(
    gn.weight.size(), gn.bias.size()
))
# GN weight shape: torch.Size([4]), GN bias shape: torch.Size([4])

print(gn.weight)
# Parameter containing:
# tensor([1., 1., 1., 1.], requires_grad=True)

print(gn.bias)
# Parameter containing:
# tensor([0., 0., 0., 0.], requires_grad=True)

在 GN 中，weight 和 bias 为逐通道的，无 running_mean 和 running_var。

手动计算

对于 num_groups=2 时 batch 中的第一个 group

num_features_in_group = int(feature_maps_batch.size(1)/num_groups)
first_group = feature_maps_batch[:, :num_features_in_group, :, :]
out = (first_group - first_group.mean()) / (first_group.std(unbiased=False) + 1e-5)
print(out)
# tensor([[[[-1.8000, -1.0000],
#           [-0.2000,  0.6000]],
# 
#          [[-1.0000, -0.2000],
#           [ 0.6000,  1.4000]]],
# 
# 
#         [[[-1.4000, -0.6000],
#           [ 0.2000,  1.0000]],
# 
#          [[-0.6000,  0.2000],
#           [ 1.0000,  1.8000]]]])

你可能感兴趣的:(PyTorch学习笔记)

PyTorch学习笔记之基础函数篇（四）熊猫Devin 深度学习之PyTorch pytorch 学习笔记
文章目录2.8torch.logspace函数讲解2.9torch.ones函数2.10torch.rand函数2.11torch.randn函数2.12torch.zeros函数2.8torch.logspace函数讲解torch.logspace函数在PyTorch中用于生成一个在对数尺度上均匀分布的张量（tensor）。这意味着张量中的元素是按照对数间隔排列的，而不是线性间隔。这对于创建在数
pytorch学习笔记（2）--Tensor ToToBe pytorch 笔记 1024程序员节
系列文章pytorch学习笔记（1）–QUICKSTARTpytorch学习笔记（2）–Tensorpytorch学习笔记（3）–数据集与数据导入pytorch学习笔记（4）–创建模型(BuildModel)pytorch学习笔记（5）–Autograd文章目录系列文章Tensor（张量）1.初始化张量2.张量的属性3.张量的操作1.类似numpy的索引和切片2.拼接3.算数操作4.单元素张量5.
PyTorch学习笔记（三）：softmax回归 FriendshipT PyTorch学习笔记 pytorch 回归深度学习 softmax
PyTorch学习笔记（三）：softmax回归softmax回归分类问题softmax回归模型单样本分类的矢量计算表达式小批量样本分类的矢量计算表达式交叉熵损失函数模型预测及评价小结Torchvision获取数据集读取小批量PyTorch从零开始实现softmax获取和读取数据初始化模型参数实现softmax运算定义模型定义损失函数定义优化算法计算分类准确率训练模型预测小结PyTorch模块实现
PyTorch学习笔记1 zt_d918
训练过程importtorch#batch_size,input_dimension,hidden_dimension,output_dimensionN,D_in,H,D_out=64,1000,100,10#模拟一个训练集x=torch.randn(N,D_in)y=torch.randn(N,D_out)#模型定义有多种方式，这里不提model#loss函数定义loss_fn=torch.n
小土堆pytorch学习笔记004 柠檬不萌只是酸i 深度学习 pytorch 学习笔记机器学习深度学习
目录1、神经网络的基本骨架-nn.Module的使用2、卷积操作实例3、神经网络-卷积层4、神经网络-最大池化的使用（1）最大池化画图理解：（2）代码实现：5、神经网络-非线性激活（1）代码实现（调用sigmoid函数）6、神经网络-线性层（1）代码7、网络搭建-小实战（1）完整代码1、神经网络的基本骨架-nn.Module的使用官网地址：pytorch里的nnimporttorchfromtor
小土堆pytorch学习笔记003 | 下载数据集dataset 及报错处理柠檬不萌只是酸i 深度学习人工智能深度学习机器学习 pytorch python
目录1、下载数据集2、展示数据集里面的内容3、DataLoader的使用例子：结果展示：1、下载数据集#数据集importtorchvisiontrain_set=torchvision.datasets.CIFAR10(root="./test10_dataset",train=True,download=True)test_set=torchvision.datasets.CIFAR10(ro
小土堆pytorch学习笔记005 | 完结，✿✿ヽ(°▽°)ノ✿ 柠檬不萌只是酸i 深度学习学习笔记 pytorch 机器学习深度学习
目录1、损失函数与反向传播2、如何在搭建的网络中使用损失函数呢？3、优化器4、现有网络模型的使用及修改例子：5、模型训练保存+读取（1）保存（2）读取6、完整的模型训练：（1）代码【model文件】：【主文件】：（2）运行截图：（3）绘图展示：（4）添加训练正确率的完整代码：（5）总结！！！：（6）使用GPU训练7、完整模型验证（1）代码（2）运行结果1、损失函数与反向传播①计算实际输出和目标之间
小土堆pytorch学习笔记002 柠檬不萌只是酸i 深度学习 pytorch 学习笔记
目录1、TensorBoard的使用（1）显示坐标：（2）显示图片：2、Transform的使用3、常见的Transforms（1）#ToTensor()（2）#Normalize()（3）#Resize()（4）#Compose()4、总结：1、TensorBoard的使用（1）显示坐标：fromtorch.utils.tensorboardimportSummaryWriterimportnu
【pytorch】pytorch学习笔记（续2）小白冲鸭 pytorch 学习笔记
p30：1.均方差（MeanSquaredError,MSE）：（1）注意区分MSE和L2范数：L2范数要开根号，而MSE不需要开根号。用torch.norm函数求MSE的时候不要忘记加上pow(2)。求导：pytorch实现自动求导：第一种方法：torch.autograd.grad()设置w需要求导有两种方法：（1）在创建w之后，用来设置w需要求导。（2）在创建w的时候，用w=torch.te
【pytorch】pytorch学习笔记（续1）小白冲鸭 pytorch 学习笔记
p22：1.加减乘除：（1）add(a,b)：等同于a+b。（2）sub(a,b)：等同于a-b。（3）mul(a,b)：等同于a*b。（4）div(a,b)：等同于a/b。a//b表示整除。2.tensor的矩阵式相乘：matmul注意区分：（1）*：表示相同位置的元素相乘；（2）.matmul：表示矩阵相乘。对于（2）矩阵的相乘，有三种方式：(1)torch.mm:只适用于二维的tensor，
【pytorch】pytorch学习笔记小白冲鸭 pytorch 学习笔记
（实践）p5：线性回归问题中损失函数为什么要使用均方误差？均方误差：即误差的平方和的平均数。p8：1.pytorch不是一个完备的语言库，而是一个对于数据的gpu加速库，所以其没有对string的内键支持，即pytorch的基本类型中不包含string。2.pytorch表示string的方法：（1）onehotencoding问题：1）两个单词之间的相关性并没有在onehot编码中得到体现；2）
【pytorch】pytorch学习笔记（续3）小白冲鸭 pytorch 学习笔记
p41：1.LeakReLU,SELU,softplus2.GPU加速：.to方法p42：不太懂p43：1.visdom，tensorbroadXp44：p45：1.如何检测过拟合？在train上表现很好，而在test上表现不好。test的目的（没有valset的时候）：防止过拟合，选取最优参数。相当于是验证集。一般选取testaccuracy最高的那点停止训练，作为最优参数。p46：1.trai
小土堆pytorch学习笔记001 柠檬不萌只是酸i 深度学习 pytorch 学习笔记
1、Pytorch环境的配置与安装。（1）建议安装：Anaconda（2）检查显卡：GPU（3）管理环境（不同版本的pytorch版本不同）：condacreate-npytorchpython=3.6（4）检测自己的电脑是否可以使用：2、pytorch编辑器的选择（1）pycharm（下载社区版）（2）jupyter（可以交互）启动本地的jupyter:3、为什么torch.cuda.is_av
Pytorch学习笔记(2) Autograd(自动求导) —— PyTorch的核心银色尘埃010
本文是Pytorch快速入门第二部分，主要学习记录，主要翻译PytorchAutograd部分教程原文autograd包是PyTorch中神经网络的核心部分。torch.autograd提供了类和函数,用来对任意标量函数进行求导。要想使用自动求导，只需要对已有的代码进行微小的改变。只需要将所有的tensor包含进Variable对象中即可。一、Tensor(张量)torch.Tensor是程序包的
pytorch学习笔记（十）満湫学习笔记
一、损失函数举个例子比如说根据Loss提供的信息知道，解答题太弱了，需要多训练训练这个模块。Loss作用：1.算实际输出和目标之间的差距2.为我们更新输出提供一定的依据（反向传播）看官方文档每个输入输出相减取平均取绝对值再取平均第一个损失函数：L1Loss（差的绝对值取平均）需要注意输入输出N=batch_size你有多少个数据第一个损失函数：MSELoss（平方差误差，平方取平均）稳妥的写法是先
pytorch学习笔记（八）満湫 pytorch 学习笔记
Sequential看看搭建了这个能不能更容易管理，CIFAR-10数据集进行看一下网络模型CIFAR-10模型123456789输入进过一次卷积，然后经过一次最大池化，尺寸变成16*16了，在经过一次卷积尺寸没变，紧接着进过了一次最大池化，变成了8*8，再经过一次卷积通道数改变32→64，再经过一次池化变成4*4，然后展平，最后输出。（1-2）根据图里面看，32×32经过卷积后的尺寸仍然是32×
pytorch学习笔记（十一）満湫 pytorch 学习笔记
优化器学习把搭建好的模型拿来训练，得到最优的参数。importtorch.optimimporttorchvisionfromtorchimportnnfromtorch.nnimportSequential,Conv2d,MaxPool2d,Flatten,Linearfromtorch.utils.dataimportDataLoaderdataset=torchvision.datasets
pytorch学习笔记（五）満湫学习笔记
关注不同的方法输入是什么类型，输出是什么类型。1.Compose主要关注初始化函数从作用内置call的调用方法两种，第一种,直接使用对象，不用使用点，直接调用的是__call__当要调用的时候直接写个Person()按住ctrl+P看看需要填啥参数。2.Totensor的使用输出结果如下3.Normalize归一化输入必须要tensor的均值，标准差，然后看图片的维度计算4.Resize给定的是一
pytorch学习笔记満湫 pytorch 学习人工智能
torchvision处理图像的pytorch官网上看数据集的包，COCO数据集目标检测、语义分割，cifar物体识别预训练好的模型这个模块是图片的处理root-位置，train-创建的true是个训练集，transform前面是输出图片的数据类型，“3”是targetimporttorchvisionfromtorch.utils.tensorboardimportSummaryWriterda
pytorch学习笔记（七）満湫 pytorch 学习笔记
池化类似压缩最大池化-上采样例如给一个3的话就会生成一个3×3的窗口（生成相同的高和宽），给一个tuple就会给出一个相同的池化核。stride默认值就是核的大小dilation在卷积dialation设置之后每一个会和另外的差一个，空洞卷积ceilfloor模式（天花板、地板）floor就是向下取整。按下面的方法走，走的步数默认为核的大小取9个里面的最大值，走到右一图，这种情况只能覆盖6个，其他
pytorch学习笔记（一）乌拉圭没有壳
1、今天在学习60分钟pytorchtutorial中2、zip就是把2个数组糅在一起x=[1,2,3,4,5]y=[6,7,8,9,10]zip(x,y)[(1,6),(2,7),(3,8),(4,9),(5,10)]还可以方便建立字典。x=['bob','tom','kitty']>>>y=[80,90,95]>>>d=dict(zip(x,y))[('bob',80),('tom',90),
Pytorch学习笔记 | GAN生成对抗网络 | 代码 | 生成mnist手写数字图片惊鸿若梦一书生 Python深度学习 pytorch 学习笔记
文章目录GAN网络简介测试判别器和测试生成器测试判别器测试生成器首次生成图片（效果欠佳）生成图片（比较清晰，但还有差距）生成图片（继续优化，输入扩维）生成图片（继续优化，）GAN网络简介生成对抗网络（GAN，GenerativeAdversarialNetworks）是一种深度学习模型，由IanGoodfellow和他的同事在2014年首次提出。GAN是一种非常强大和独特的神经网络架构，用于生成新
『PyTorch学习笔记』分布式深度学习训练中的数据并行(DP/DDP) VS 模型并行 AI新视界 Pytorch学习笔记 pytorch 数据并行模型并行 Data Parallel
分布式深度学习训练中的数据并行(DP/DDP)VS模型并行文章目录一.介绍二.并行数据加载2.1.加载数据步骤2.2.PyTorch1.0中的数据加载器(Dataloader)三.数据并行3.1.DP(DataParallel)的基本原理3.1.1.从流程上理解3.1.2.从模式角度理解3.1.3.从操作系统角度看3.1.4.低效率3.2.DDP(DistributedDataParallel)的
Pytorch学习笔记——autograd 岳野学习笔记 python 机器学习深度学习
一、神经网络神经网络就是一个”万能的模型+误差修正函数“，每次根据训练得到的结果与预想结果进行误差分析，进而修改权值和阈值，一步一步得到能输出和预想结果一致的模型。机器学习可以看做是数理统计的一个应用，在数理统计中一个常见的任务就是拟合，也就是给定一些样本点，用合适的曲线揭示这些样本点随着自变量的变化关系。深度学习同样也是为了这个目的，只不过此时，样本点不再限定为(x,y)点对，而可以是由向量、矩
PyTorch学习笔记欢桑 pytorch 学习深度学习
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录学习目标学习内容：一pytorch深度学习方法二构建一个简单神经网络三深度学习工作流和pytorch生态系统四基于pytorch构建CNN五RNN以及序列数据处理六生成对抗网络七强化学习八将pytorch用用于生产三种不同的方法总结学习目标4月份到来之前学完《PorTorch深度学习实战》学习内容：一pytorch深度学习方法
Pytorch学习笔记（4）—LSTM序列生成模型 llddycidy Pytorch学习笔记 pytorch 学习笔记
文章目录前言主要内容一、序列生成问题解决方法二、RNN的引入三、LongShortTermMemory(LSTM)4、序列生成音乐本文引用：前言掌握使用PyTorch构建LSTM模型的方法掌握使用LSTM生成MIDI音乐的方法主要内容如何用神经网络做序列生成？RNN与LSTM的工作原理RNN是如何记忆Pattern的？MIDI音乐的原理如何用LSTM作曲一、序列生成问题解决方法将生成问题转化成一个
PyTorch学习笔记（二）——TensorBoard routine1o1oo pytorch
1用途1、训练过程中loss是如何变化的，是否正常或是否按预想的变化，选择什么样的模型2、模型在不同阶段的输出2需要导入的类和常用的方法fromtorch.utils.tensorboardimportSummaryWriterwriter.add_image()writer.add_scalar()查看SummaryWriter的官方文档直接向log_dir文件夹写入事件文件，可以被Tensor
【pytorch学习笔记03】pytorch完整模型训练套路 yierrrrr DL学习笔记 pytorch 学习笔记
B站我是土堆视频学习笔记，链接：https://www.bilibili.com/video/BV1hE411t7RN/?spm_id_from=333.999.0.01.准备数据集train_data=torchvision.datasets.CIFAR10(root='./dataset',train=True,transform=torchvision.transforms.ToTensor
PyTorch学习笔记 Junoxiang pytorch 学习笔记
1.item()→number方法:item()返回一个数只能用于只包含一个元素的张量。对于其他的张量，请查看方法tolist().该操作是不可微分的,即不可求导.(译者注:返回的结果是普通Python数据类型,自然不能调用backward()方法来进行梯度的反向传播)Example:例子:>>>x=torch.tensor([1.0])>>>x.item()1.02.Tensor（张量）中包含d
PyTorch学习笔记（4）--神经网络模型的保存和导入别管我啦就是说 Pytorch学习笔记 python pytorch
1.numpy矩阵的保存importnumpyasnpa=np.array(2)np.save("nm.npy",a)a=np.load("nm.npy")2.模型的保存和导入将训练好的模型和参数保存下来，下一次使用的时候直接导入模型和参数，和一个已经训练好的神经网络模型一样保存模型importtorch#保存整个神经网络的结构和模型参数torch.save(mymodel,'mymodel.pk
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它