小杰.

pytorch学习笔记：模型创建及权重初始化

1、模型创建

1.1、构建网络层（子模块）

1.2、拼接网络层（子模块）

1.3、nn.Module

首先进行了8个有序字典的初始化，用来管理各个参数及网络设置

一个module可以包含多个子module

一个module相当于一个运算，必须实现forward（）函数
每个module都有8个字典管理它的数学

1.4模型容器

1.4.1、nn.Sequetial

功能：按顺序组合网络子模块，自带forward（），通过for循环依次执行前向传播运算

# ============================ Sequential
class LeNetSequential(nn.Module):
    def __init__(self, classes):
        super(LeNetSequential, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 6, 5),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
            nn.Conv2d(6, 16, 5),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),)

        self.classifier = nn.Sequential(
            nn.Linear(16*5*5, 120),
            nn.ReLU(),
            nn.Linear(120, 84),
            nn.ReLU(),
            nn.Linear(84, classes),)

    def forward(self, x):
        x = self.features(x)
        x = x.view(x.size()[0], -1)
        x = self.classifier(x)
        return x

创建好的网络结构如下图所示：

调试观察创建过程的步骤：

在网络实例化那行代码step into进入网络定义的类
进入到定义sequential的部分运行到最后一行代码step into 两次（第一次进入的是最后一个子模块网络的建立，第二次进入sequential的创建）可以看到for循环下取出各个子模块并添加到modules

1.4.2、nn.ModuleList

功能：像python的list一样包装多个网络层，以迭代的方式调用网络层

append（）：在modulelist后面添加网络层
extend（）：拼接两个modulelist
insert（）：在modulelist中指定位置插入网络层

# ============================ ModuleList

class ModuleList(nn.Module):
    def __init__(self):
        super(ModuleList, self).__init__()
        self.linears = nn.ModuleList([nn.Linear(10, 10) for i in range(20)])

    def forward(self, x):
        for i, linear in enumerate(self.linears):
            x = linear(x)
        return x


net = ModuleList()

print(net)

fake_data = torch.ones((10, 10))

output = net(fake_data)

print(output)

1.4.3、nn.ModuleDict

功能：像python的dict一样包装多个网络层（每一个给一个key，可通过key索引网络层）

clear（）：清空moduleDict
items（）：返回可迭代的键值对（key-value pairs）
keys（）：返回字典的key
values（）：返回字典的value
pop（）：返回一对键值，并从字典中删除

# ============================ ModuleDict

class ModuleDict(nn.Module):
    def __init__(self):
        super(ModuleDict, self).__init__()
        self.choices = nn.ModuleDict({
            'conv': nn.Conv2d(10, 10, 3),
            'pool': nn.MaxPool2d(3)
        })

        self.activations = nn.ModuleDict({
            'relu': nn.ReLU(),
            'prelu': nn.PReLU()
        })

    def forward(self, x, choice, act):
        x = self.choices[choice](x)
        x = self.activations[act](x)
        return x


net = ModuleDict()

fake_img = torch.randn((4, 10, 32, 32))

output = net(fake_img, 'conv', 'relu')
#prelu输出结果有负值，改为relu后输出没有负数，可以检查是不是按照我们的想法运行的
print(output)

创建的时候dict里面的子模块是全部都要创建的，前向传播的时候根据key做出选择。

模型容器总结

Sequential：顺序性，各网络层之间严格按照顺序执行，常用语block构建
ModuleList：迭代性，常用于大量重复网络构建，通过for循环实现重复构建
ModuleDict：索引性，常用于可选择的网络层

1.5、动手搭建AlexNet

模型特点：

采用Relu激活函数：替换饱和激活函数，减轻梯度消失
采用LRN（局部响应归一化）：对数据归一化，减轻梯度消失
Dropout：提高了全连接层的鲁棒性，增加网络的泛化能力
数据增强：TenCrop，色彩修改

pytorch调用一句代码即可实现：

alexnet = torchvision.models.AlexNet()

self.features = nn.Sequential(
    nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2),
    nn.ReLU(inplace=True),
    nn.MaxPool2d(kernel_size=3, stride=2),
    nn.Conv2d(64, 192, kernel_size=5, padding=2),
    nn.ReLU(inplace=True),
    nn.MaxPool2d(kernel_size=3, stride=2),
    nn.Conv2d(192, 384, kernel_size=3, padding=1),
    nn.ReLU(inplace=True),
    nn.Conv2d(384, 256, kernel_size=3, padding=1),
    nn.ReLU(inplace=True),
    nn.Conv2d(256, 256, kernel_size=3, padding=1),
    nn.ReLU(inplace=True),
    nn.MaxPool2d(kernel_size=3, stride=2),
    )

self.avgpool = nn.AdaptiveAvgPool2d((6, 6))

self.classifier = nn.Sequential(
    nn.Dropout(),
    nn.Linear(256 * 6 * 6, 4096),
    nn.ReLU(inplace=True),
    nn.Dropout(),
    nn.Linear(4096, 4096),
    nn.ReLU(inplace=True),
    nn.Linear(4096, num_classes),
        )

def forward(self, x):
    x = self.features(x)
    x = self.avgpool(x)
    x = torch.flatten(x, 1)
    x = self.classifier(x)
    return x

1.6、卷积层

卷积运算：卷积核在输入图像上滑动，相应位置上进行相加。卷积过程类似于用一个模板去图像上寻找与他相似的区域，与卷积核模式越相似，激活值越高，从而实现特征提取。

卷积核：可以认为是某种模式或某种特征

卷积维度：一般情况下，卷积核在几个维度上滑动就是几维卷积

RGB三通道图像卷积计算方式细节：

卷积尺寸计算方式

nn.Conv2d

import os
import torch.nn as nn
from PIL import Image
from torchvision import transforms
from matplotlib import pyplot as plt
from tools.common_tools import transform_invert, set_seed

set_seed(1)  # 设置随机种子

# ================================= load img ==================================
path_img = os.path.join(os.path.dirname(os.path.abspath(__file__)), "lena.png")
img = Image.open(path_img).convert('RGB')  # 0~255

# convert to tensor
img_transform = transforms.Compose([transforms.ToTensor()])
img_tensor = img_transform(img)
img_tensor.unsqueeze_(dim=0)    # C*H*W to B*C*H*W

# ================================= create convolution layer ==================================

# ================ 2d
# flag = 1
flag = 0
if flag:
    conv_layer = nn.Conv2d(3, 1, 3)   # input:(i, o, size) weights:(o, i , h, w)
    nn.init.xavier_normal_(conv_layer.weight.data)

    # calculation
    img_conv = conv_layer(img_tensor)

# ================================= visualization ==================================
print("卷积前尺寸:{}\n卷积后尺寸:{}".format(img_tensor.shape, img_conv.shape))
img_conv = transform_invert(img_conv[0, 0:1, ...], img_transform)
img_raw = transform_invert(img_tensor.squeeze(), img_transform)
plt.subplot(122).imshow(img_conv, cmap='gray')
plt.subplot(121).imshow(img_raw)
plt.show()

卷积后结果展示

1.7、转置卷积（反卷积）

功能：用于对图像进行上采样，物体检测任务经常用到（不可逆过程，转置卷积得到的图像与原图不相等）

import os
import torch.nn as nn
from PIL import Image
from torchvision import transforms
from matplotlib import pyplot as plt
from tools.common_tools import transform_invert, set_seed

set_seed(1)  # 设置随机种子

# ================================= load img ==================================
path_img = os.path.join(os.path.dirname(os.path.abspath(__file__)), "lena.png")
img = Image.open(path_img).convert('RGB')  # 0~255

# convert to tensor
img_transform = transforms.Compose([transforms.ToTensor()])
img_tensor = img_transform(img)
img_tensor.unsqueeze_(dim=0)    # C*H*W to B*C*H*W

# ================================= create convolution layer ==================================
# ================ transposed
flag = 1
# flag = 0
if flag:
    conv_layer = nn.ConvTranspose2d(3, 1, 3, stride=2)   # input:(i, o, size)
    nn.init.xavier_normal_(conv_layer.weight.data)

    # calculation
    img_conv = conv_layer(img_tensor)

print("卷积前尺寸:{}\n卷积后尺寸:{}".format(img_tensor.shape, img_conv.shape))
img_conv = transform_invert(img_conv[0, 0:1, ...], img_transform)
img_raw = transform_invert(img_tensor.squeeze(), img_transform)
plt.subplot(122).imshow(img_conv, cmap='gray')
plt.subplot(121).imshow(img_raw)
plt.show()

上采样结果展示

步长设置为3产生棋盘效应，由于不均匀重叠导致的。

棋盘效应的解释与解决方法：推荐文章《 Deconvolution and Checkerboard Artifacts》

1.8、池化层

池化运算：对输入信号（图像）进行“收集”（多变少）并“总结”（max，mean），类似水池收集水资源。

divisor_override:正常情况池化区域的像素相加除以像素个数，设置这个参数可以改变除数

1.8、反最大值池化（上采样）

1.9、全连接层

每一个神经元与上一层所有神经元相连，实现对上一层的线性组合。

1.10、激活函数

Sigmoid函数

双曲正切函数

Relu函数（线性修正单元）

为了解决死神经元的问题，提出了三种改进方式

2、权值初始化

适当的权值初始化可以加速模型的训练和模型的收敛，而错误的权值初始化会导致梯度消失/爆炸，从而无法完成网络的训练，因此需要控制网络输出值的尺度范围【】。

2.1梯度消失于梯度爆炸

从公式的角度可以看出，要避免梯度消失或爆炸就要严格控制网络输出层输出值的尺度范围。

对于无激活函数的全连接层，假设权重W与输入X相互独立，且均服从于0均值1标准差的正态分布（期望为0），因此公式可以简化如下

从上图中的公式可以看出，每传播一层，输出值数据的方差就会扩大n 倍，要想控制输出H的尺度范围，只需要控制H的方差为1，则无论经过多少层都可以维持在初始输入X的方差附近，因此权重w需要初始化方差为1/n（n为神经元的个数）

100层的全连接网络，每层256个神经元，权重初始化为0均值1标准差，各层输出的标准差结果如下，从下列的数据也可以看出每经过一层，标准差扩大根号n倍（16）


layer:0, std:15.959932327270508
layer:1, std:256.6237487792969
layer:2, std:4107.24560546875
layer:3, std:65576.8125
layer:4, std:1045011.875
layer:5, std:17110408.0
layer:6, std:275461408.0
layer:7, std:4402537984.0
layer:8, std:71323615232.0
layer:9, std:1148104736768.0
layer:10, std:17911758454784.0
layer:11, std:283574846619648.0
layer:12, std:4480599809064960.0
layer:13, std:7.196814275405414e+16
layer:14, std:1.1507761512626258e+18
layer:15, std:1.853110740188555e+19
layer:16, std:2.9677725826641455e+20
layer:17, std:4.780376223769898e+21
layer:18, std:7.613223480799065e+22
layer:19, std:1.2092652108825478e+24
layer:20, std:1.923257075956356e+25
layer:21, std:3.134467063655912e+26
layer:22, std:5.014437766285408e+27
layer:23, std:8.066615144249704e+28
layer:24, std:1.2392661553516338e+30
layer:25, std:1.9455688099759845e+31
layer:26, std:3.0238180658999113e+32
layer:27, std:4.950357571077011e+33
layer:28, std:8.150925520353362e+34
layer:29, std:1.322983152787379e+36
layer:30, std:2.0786820453988485e+37
layer:31, std:nan
output is nan in 31 layers
tensor([[        inf, -2.6817e+38,         inf,  ...,         inf,
                 inf,         inf],
        [       -inf,        -inf,  1.4387e+38,  ..., -1.3409e+38,
         -1.9659e+38,        -inf],
        [-1.5873e+37,         inf,        -inf,  ...,         inf,
                -inf,  1.1484e+38],
        ...,
        [ 2.7754e+38, -1.6783e+38, -1.5531e+38,  ...,         inf,
         -9.9440e+37, -2.5132e+38],
        [-7.7184e+37,        -inf,         inf,  ..., -2.6505e+38,
                 inf,         inf],
        [        inf,         inf,        -inf,  ...,        -inf,
                 inf,  1.7432e+38]], grad_fn=)

Process finished with exit code 0

100层的全连接网络，每层256个神经元，权重初始化为0均值，标准差为根号（1/n）时，各层输出的标准差结果如下,可以看出每层输出值的标准差都能维持在1附近

layer:0, std:0.9974957704544067
layer:1, std:1.0024365186691284
layer:2, std:1.002745509147644
layer:3, std:1.0006227493286133
layer:4, std:0.9966009855270386
layer:5, std:1.019859790802002
layer:6, std:1.026173710823059
layer:7, std:1.0250457525253296
layer:8, std:1.0378952026367188
layer:9, std:1.0441951751708984
layer:10, std:1.0181655883789062
layer:11, std:1.0074602365493774
layer:12, std:0.9948930144309998
layer:13, std:0.9987586140632629
layer:14, std:0.9981392025947571
layer:15, std:1.0045733451843262
layer:16, std:1.0055204629898071
layer:17, std:1.0122840404510498
layer:18, std:1.0076017379760742
layer:19, std:1.000280737876892
layer:20, std:0.9943006038665771
layer:21, std:1.012800931930542
layer:22, std:1.012657642364502
layer:23, std:1.018149971961975
layer:24, std:0.9776086211204529
layer:25, std:0.9592394828796387
layer:26, std:0.9317858815193176
layer:27, std:0.9534041881561279
layer:28, std:0.9811319708824158
layer:29, std:0.9953019022941589
layer:30, std:0.9773916006088257
layer:31, std:0.9655940532684326
layer:32, std:0.9270440936088562
layer:33, std:0.9329946637153625
layer:34, std:0.9311841726303101
layer:35, std:0.9354336261749268
layer:36, std:0.9492132067680359
layer:37, std:0.9679954648017883
layer:38, std:0.9849981665611267
layer:39, std:0.9982335567474365
layer:40, std:0.9616852402687073
layer:41, std:0.9439758658409119
layer:42, std:0.9631161093711853
layer:43, std:0.958673894405365
layer:44, std:0.9675614237785339
layer:45, std:0.9837557077407837
layer:46, std:0.9867278337478638
layer:47, std:0.9920817017555237
layer:48, std:0.9650403261184692
layer:49, std:0.9991624355316162
layer:50, std:0.9946174025535583
layer:51, std:0.9662044048309326
layer:52, std:0.9827387928962708
layer:53, std:0.9887880086898804
layer:54, std:0.9932605624198914
layer:55, std:1.0237400531768799
layer:56, std:0.9702046513557434
layer:57, std:1.0045380592346191
layer:58, std:0.9943899512290955
layer:59, std:0.9900636076927185
layer:60, std:0.99446702003479
layer:61, std:0.9768352508544922
layer:62, std:0.9797843098640442
layer:63, std:0.9951220750808716
layer:64, std:0.9980446696281433
layer:65, std:1.0086933374404907
layer:66, std:1.0276142358779907
layer:67, std:1.0429234504699707
layer:68, std:1.0197855234146118
layer:69, std:1.0319130420684814
layer:70, std:1.0540012121200562
layer:71, std:1.026781439781189
layer:72, std:1.0331352949142456
layer:73, std:1.0666675567626953
layer:74, std:1.0413838624954224
layer:75, std:1.0733673572540283
layer:76, std:1.0404183864593506
layer:77, std:1.0344083309173584
layer:78, std:1.0022705793380737
layer:79, std:0.99835205078125
layer:80, std:0.9732587337493896
layer:81, std:0.9777462482452393
layer:82, std:0.9753198623657227
layer:83, std:0.9938382506370544
layer:84, std:0.9472599029541016
layer:85, std:0.9511011242866516
layer:86, std:0.9737769961357117
layer:87, std:1.005651831626892
layer:88, std:1.0043526887893677
layer:89, std:0.9889539480209351
layer:90, std:1.0130352973937988
layer:91, std:1.0030947923660278
layer:92, std:0.9993206262588501
layer:93, std:1.0342745780944824
layer:94, std:1.031973123550415
layer:95, std:1.0413124561309814
layer:96, std:1.0817031860351562
layer:97, std:1.128799557685852
layer:98, std:1.1617802381515503
layer:99, std:1.2215303182601929
tensor([[-1.0696, -1.1373,  0.5047,  ..., -0.4766,  1.5904, -0.1076],
        [ 0.4572,  1.6211,  1.9659,  ..., -0.3558, -1.1235,  0.0979],
        [ 0.3908, -0.9998, -0.8680,  ..., -2.4161,  0.5035,  0.2814],
        ...,
        [ 0.1876,  0.7971, -0.5918,  ...,  0.5395, -0.8932,  0.1211],
        [-0.0102, -1.5027, -2.6860,  ...,  0.6954, -0.1858, -0.8027],
        [-0.5871, -1.3739, -2.9027,  ...,  1.6734,  0.5094, -0.9986]],
       grad_fn=)

Process finished with exit code 0

当神经元个数设置为400时，标准差与手动计算结果一致（每经过一层，标准差扩大20倍）

当全连接层采用tanh的激活函数时，标准差越来越小，从而会造成梯度消失

2.2、加入激活函数的权重初始化

Xavier初始化适用于饱和激活函数

n_i为输入层神经元个数，n_i+1为输出层神经元个数，通常Xavier采用均匀分布进行初始化。

import os
import torch
import random
import numpy as np
import torch.nn as nn



def set_seed(seed=1):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)

set_seed(1)  # 设置随机种子


class MLP(nn.Module):
    def __init__(self, neural_num, layers):
        super(MLP, self).__init__()
        self.linears = nn.ModuleList([nn.Linear(neural_num, neural_num, bias=False) for i in range(layers)])
        self.neural_num = neural_num

    def forward(self, x):
        for (i, linear) in enumerate(self.linears):
            x = linear(x)
            x = torch.tanh(x)

            print("layer:{}, std:{}".format(i, x.std()))
            if torch.isnan(x.std()):
                print("output is nan in {} layers".format(i))
                break

        return x

    def initialize(self):
        for m in self.modules():
            if isinstance(m, nn.Linear):
                #xavier手动计算
                a = np.sqrt(6 / (self.neural_num + self.neural_num))
                tanh_gain = nn.init.calculate_gain('tanh')         #计算增益
                a *= tanh_gain
                nn.init.uniform_(m.weight.data, -a, a)

                #调用pytorch实现xavier初始化，适用于饱和激活函数
                # tanh_gain = nn.init.calculate_gain('tanh')
                # nn.init.xavier_uniform_(m.weight.data, gain=tanh_gain)


# flag = 0
flag = 1

if flag:
    layer_nums = 100
    neural_nums = 256
    batch_size = 16

    net = MLP(neural_nums, layer_nums)
    net.initialize()

    inputs = torch.randn((batch_size, neural_nums))  # normal: mean=0, std=1

    output = net(inputs)
    print(output)

可以看到输出数据的标准差能维持在一个范围内

kaiming初始化方法适用于RuLU及其变种的非饱和激活函数

import os
import torch
import random
import numpy as np
import torch.nn as nn



def set_seed(seed=1):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)

set_seed(1)  # 设置随机种子


class MLP(nn.Module):
    def __init__(self, neural_num, layers):
        super(MLP, self).__init__()
        self.linears = nn.ModuleList([nn.Linear(neural_num, neural_num, bias=False) for i in range(layers)])
        self.neural_num = neural_num

    def forward(self, x):
        for (i, linear) in enumerate(self.linears):
            x = linear(x)
            x = torch.relu(x)

            print("layer:{}, std:{}".format(i, x.std()))
            if torch.isnan(x.std()):
                print("output is nan in {} layers".format(i))
                break

        return x

    def initialize(self):
        for m in self.modules():
            if isinstance(m, nn.Linear):
                #kaiming初始化手动
                nn.init.normal_(m.weight.data, std=np.sqrt(2 / self.neural_num))

                #kaiming初始化
                # nn.init.kaiming_normal_(m.weight.data)


# flag = 0
flag = 1

if flag:
    layer_nums = 100
    neural_nums = 256
    batch_size = 16

    net = MLP(neural_nums, layer_nums)
    net.initialize()

    inputs = torch.randn((batch_size, neural_nums))  # normal: mean=0, std=1

    output = net(inputs)
    print(output)

网络输出结果如下图所示，输出数据标准差能维持在一个稳定的范围内，输出值也比较正常

方差变化尺度=输入数据的方差/输出数据的方差

# ==================== calculate gain ==============================

# flag1 = 0
flag1 = 1

if flag1:

    x = torch.randn(10000)
    out = torch.tanh(x)

    gain = x.std() / out.std()
    print('gain:{}'.format(gain))

    tanh_gain = nn.init.calculate_gain('tanh')
    print('tanh_gain in PyTorch:', tanh_gain)

输出结果为

PyTorch学习笔记之基础函数篇（四）熊猫Devin 深度学习之PyTorch pytorch 学习笔记
文章目录2.8torch.logspace函数讲解2.9torch.ones函数2.10torch.rand函数2.11torch.randn函数2.12torch.zeros函数2.8torch.logspace函数讲解torch.logspace函数在PyTorch中用于生成一个在对数尺度上均匀分布的张量（tensor）。这意味着张量中的元素是按照对数间隔排列的，而不是线性间隔。这对于创建在数
pytorch学习笔记（2）--Tensor ToToBe pytorch 笔记 1024程序员节
系列文章pytorch学习笔记（1）–QUICKSTARTpytorch学习笔记（2）–Tensorpytorch学习笔记（3）–数据集与数据导入pytorch学习笔记（4）–创建模型(BuildModel)pytorch学习笔记（5）–Autograd文章目录系列文章Tensor（张量）1.初始化张量2.张量的属性3.张量的操作1.类似numpy的索引和切片2.拼接3.算数操作4.单元素张量5.
PyTorch学习笔记（三）：softmax回归 FriendshipT PyTorch学习笔记 pytorch 回归深度学习 softmax
PyTorch学习笔记（三）：softmax回归softmax回归分类问题softmax回归模型单样本分类的矢量计算表达式小批量样本分类的矢量计算表达式交叉熵损失函数模型预测及评价小结Torchvision获取数据集读取小批量PyTorch从零开始实现softmax获取和读取数据初始化模型参数实现softmax运算定义模型定义损失函数定义优化算法计算分类准确率训练模型预测小结PyTorch模块实现
PyTorch学习笔记1 zt_d918
训练过程importtorch#batch_size,input_dimension,hidden_dimension,output_dimensionN,D_in,H,D_out=64,1000,100,10#模拟一个训练集x=torch.randn(N,D_in)y=torch.randn(N,D_out)#模型定义有多种方式，这里不提model#loss函数定义loss_fn=torch.n
小土堆pytorch学习笔记004 柠檬不萌只是酸i 深度学习 pytorch 学习笔记机器学习深度学习
目录1、神经网络的基本骨架-nn.Module的使用2、卷积操作实例3、神经网络-卷积层4、神经网络-最大池化的使用（1）最大池化画图理解：（2）代码实现：5、神经网络-非线性激活（1）代码实现（调用sigmoid函数）6、神经网络-线性层（1）代码7、网络搭建-小实战（1）完整代码1、神经网络的基本骨架-nn.Module的使用官网地址：pytorch里的nnimporttorchfromtor
小土堆pytorch学习笔记003 | 下载数据集dataset 及报错处理柠檬不萌只是酸i 深度学习人工智能深度学习机器学习 pytorch python
目录1、下载数据集2、展示数据集里面的内容3、DataLoader的使用例子：结果展示：1、下载数据集#数据集importtorchvisiontrain_set=torchvision.datasets.CIFAR10(root="./test10_dataset",train=True,download=True)test_set=torchvision.datasets.CIFAR10(ro
小土堆pytorch学习笔记005 | 完结，✿✿ヽ(°▽°)ノ✿ 柠檬不萌只是酸i 深度学习学习笔记 pytorch 机器学习深度学习
目录1、损失函数与反向传播2、如何在搭建的网络中使用损失函数呢？3、优化器4、现有网络模型的使用及修改例子：5、模型训练保存+读取（1）保存（2）读取6、完整的模型训练：（1）代码【model文件】：【主文件】：（2）运行截图：（3）绘图展示：（4）添加训练正确率的完整代码：（5）总结！！！：（6）使用GPU训练7、完整模型验证（1）代码（2）运行结果1、损失函数与反向传播①计算实际输出和目标之间
小土堆pytorch学习笔记002 柠檬不萌只是酸i 深度学习 pytorch 学习笔记
目录1、TensorBoard的使用（1）显示坐标：（2）显示图片：2、Transform的使用3、常见的Transforms（1）#ToTensor()（2）#Normalize()（3）#Resize()（4）#Compose()4、总结：1、TensorBoard的使用（1）显示坐标：fromtorch.utils.tensorboardimportSummaryWriterimportnu
【pytorch】pytorch学习笔记（续2）小白冲鸭 pytorch 学习笔记
p30：1.均方差（MeanSquaredError,MSE）：（1）注意区分MSE和L2范数：L2范数要开根号，而MSE不需要开根号。用torch.norm函数求MSE的时候不要忘记加上pow(2)。求导：pytorch实现自动求导：第一种方法：torch.autograd.grad()设置w需要求导有两种方法：（1）在创建w之后，用来设置w需要求导。（2）在创建w的时候，用w=torch.te
【pytorch】pytorch学习笔记（续1）小白冲鸭 pytorch 学习笔记
p22：1.加减乘除：（1）add(a,b)：等同于a+b。（2）sub(a,b)：等同于a-b。（3）mul(a,b)：等同于a*b。（4）div(a,b)：等同于a/b。a//b表示整除。2.tensor的矩阵式相乘：matmul注意区分：（1）*：表示相同位置的元素相乘；（2）.matmul：表示矩阵相乘。对于（2）矩阵的相乘，有三种方式：(1)torch.mm:只适用于二维的tensor，
【pytorch】pytorch学习笔记小白冲鸭 pytorch 学习笔记
（实践）p5：线性回归问题中损失函数为什么要使用均方误差？均方误差：即误差的平方和的平均数。p8：1.pytorch不是一个完备的语言库，而是一个对于数据的gpu加速库，所以其没有对string的内键支持，即pytorch的基本类型中不包含string。2.pytorch表示string的方法：（1）onehotencoding问题：1）两个单词之间的相关性并没有在onehot编码中得到体现；2）
【pytorch】pytorch学习笔记（续3）小白冲鸭 pytorch 学习笔记
p41：1.LeakReLU,SELU,softplus2.GPU加速：.to方法p42：不太懂p43：1.visdom，tensorbroadXp44：p45：1.如何检测过拟合？在train上表现很好，而在test上表现不好。test的目的（没有valset的时候）：防止过拟合，选取最优参数。相当于是验证集。一般选取testaccuracy最高的那点停止训练，作为最优参数。p46：1.trai
小土堆pytorch学习笔记001 柠檬不萌只是酸i 深度学习 pytorch 学习笔记
1、Pytorch环境的配置与安装。（1）建议安装：Anaconda（2）检查显卡：GPU（3）管理环境（不同版本的pytorch版本不同）：condacreate-npytorchpython=3.6（4）检测自己的电脑是否可以使用：2、pytorch编辑器的选择（1）pycharm（下载社区版）（2）jupyter（可以交互）启动本地的jupyter:3、为什么torch.cuda.is_av
Pytorch学习笔记(2) Autograd(自动求导) —— PyTorch的核心银色尘埃010
本文是Pytorch快速入门第二部分，主要学习记录，主要翻译PytorchAutograd部分教程原文autograd包是PyTorch中神经网络的核心部分。torch.autograd提供了类和函数,用来对任意标量函数进行求导。要想使用自动求导，只需要对已有的代码进行微小的改变。只需要将所有的tensor包含进Variable对象中即可。一、Tensor(张量)torch.Tensor是程序包的
pytorch学习笔记（十）満湫学习笔记
一、损失函数举个例子比如说根据Loss提供的信息知道，解答题太弱了，需要多训练训练这个模块。Loss作用：1.算实际输出和目标之间的差距2.为我们更新输出提供一定的依据（反向传播）看官方文档每个输入输出相减取平均取绝对值再取平均第一个损失函数：L1Loss（差的绝对值取平均）需要注意输入输出N=batch_size你有多少个数据第一个损失函数：MSELoss（平方差误差，平方取平均）稳妥的写法是先
pytorch学习笔记（八）満湫 pytorch 学习笔记
Sequential看看搭建了这个能不能更容易管理，CIFAR-10数据集进行看一下网络模型CIFAR-10模型123456789输入进过一次卷积，然后经过一次最大池化，尺寸变成16*16了，在经过一次卷积尺寸没变，紧接着进过了一次最大池化，变成了8*8，再经过一次卷积通道数改变32→64，再经过一次池化变成4*4，然后展平，最后输出。（1-2）根据图里面看，32×32经过卷积后的尺寸仍然是32×
pytorch学习笔记（十一）満湫 pytorch 学习笔记
优化器学习把搭建好的模型拿来训练，得到最优的参数。importtorch.optimimporttorchvisionfromtorchimportnnfromtorch.nnimportSequential,Conv2d,MaxPool2d,Flatten,Linearfromtorch.utils.dataimportDataLoaderdataset=torchvision.datasets
pytorch学习笔记（五）満湫学习笔记
关注不同的方法输入是什么类型，输出是什么类型。1.Compose主要关注初始化函数从作用内置call的调用方法两种，第一种,直接使用对象，不用使用点，直接调用的是__call__当要调用的时候直接写个Person()按住ctrl+P看看需要填啥参数。2.Totensor的使用输出结果如下3.Normalize归一化输入必须要tensor的均值，标准差，然后看图片的维度计算4.Resize给定的是一
pytorch学习笔记満湫 pytorch 学习人工智能
torchvision处理图像的pytorch官网上看数据集的包，COCO数据集目标检测、语义分割，cifar物体识别预训练好的模型这个模块是图片的处理root-位置，train-创建的true是个训练集，transform前面是输出图片的数据类型，“3”是targetimporttorchvisionfromtorch.utils.tensorboardimportSummaryWriterda
pytorch学习笔记（七）満湫 pytorch 学习笔记
池化类似压缩最大池化-上采样例如给一个3的话就会生成一个3×3的窗口（生成相同的高和宽），给一个tuple就会给出一个相同的池化核。stride默认值就是核的大小dilation在卷积dialation设置之后每一个会和另外的差一个，空洞卷积ceilfloor模式（天花板、地板）floor就是向下取整。按下面的方法走，走的步数默认为核的大小取9个里面的最大值，走到右一图，这种情况只能覆盖6个，其他
pytorch学习笔记（一）乌拉圭没有壳
1、今天在学习60分钟pytorchtutorial中2、zip就是把2个数组糅在一起x=[1,2,3,4,5]y=[6,7,8,9,10]zip(x,y)[(1,6),(2,7),(3,8),(4,9),(5,10)]还可以方便建立字典。x=['bob','tom','kitty']>>>y=[80,90,95]>>>d=dict(zip(x,y))[('bob',80),('tom',90),
Pytorch学习笔记 | GAN生成对抗网络 | 代码 | 生成mnist手写数字图片惊鸿若梦一书生 Python深度学习 pytorch 学习笔记
文章目录GAN网络简介测试判别器和测试生成器测试判别器测试生成器首次生成图片（效果欠佳）生成图片（比较清晰，但还有差距）生成图片（继续优化，输入扩维）生成图片（继续优化，）GAN网络简介生成对抗网络（GAN，GenerativeAdversarialNetworks）是一种深度学习模型，由IanGoodfellow和他的同事在2014年首次提出。GAN是一种非常强大和独特的神经网络架构，用于生成新
『PyTorch学习笔记』分布式深度学习训练中的数据并行(DP/DDP) VS 模型并行 AI新视界 Pytorch学习笔记 pytorch 数据并行模型并行 Data Parallel
分布式深度学习训练中的数据并行(DP/DDP)VS模型并行文章目录一.介绍二.并行数据加载2.1.加载数据步骤2.2.PyTorch1.0中的数据加载器(Dataloader)三.数据并行3.1.DP(DataParallel)的基本原理3.1.1.从流程上理解3.1.2.从模式角度理解3.1.3.从操作系统角度看3.1.4.低效率3.2.DDP(DistributedDataParallel)的
Pytorch学习笔记——autograd 岳野学习笔记 python 机器学习深度学习
一、神经网络神经网络就是一个”万能的模型+误差修正函数“，每次根据训练得到的结果与预想结果进行误差分析，进而修改权值和阈值，一步一步得到能输出和预想结果一致的模型。机器学习可以看做是数理统计的一个应用，在数理统计中一个常见的任务就是拟合，也就是给定一些样本点，用合适的曲线揭示这些样本点随着自变量的变化关系。深度学习同样也是为了这个目的，只不过此时，样本点不再限定为(x,y)点对，而可以是由向量、矩
PyTorch学习笔记欢桑 pytorch 学习深度学习
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录学习目标学习内容：一pytorch深度学习方法二构建一个简单神经网络三深度学习工作流和pytorch生态系统四基于pytorch构建CNN五RNN以及序列数据处理六生成对抗网络七强化学习八将pytorch用用于生产三种不同的方法总结学习目标4月份到来之前学完《PorTorch深度学习实战》学习内容：一pytorch深度学习方法
Pytorch学习笔记（4）—LSTM序列生成模型 llddycidy Pytorch学习笔记 pytorch 学习笔记
文章目录前言主要内容一、序列生成问题解决方法二、RNN的引入三、LongShortTermMemory(LSTM)4、序列生成音乐本文引用：前言掌握使用PyTorch构建LSTM模型的方法掌握使用LSTM生成MIDI音乐的方法主要内容如何用神经网络做序列生成？RNN与LSTM的工作原理RNN是如何记忆Pattern的？MIDI音乐的原理如何用LSTM作曲一、序列生成问题解决方法将生成问题转化成一个
PyTorch学习笔记（二）——TensorBoard routine1o1oo pytorch
1用途1、训练过程中loss是如何变化的，是否正常或是否按预想的变化，选择什么样的模型2、模型在不同阶段的输出2需要导入的类和常用的方法fromtorch.utils.tensorboardimportSummaryWriterwriter.add_image()writer.add_scalar()查看SummaryWriter的官方文档直接向log_dir文件夹写入事件文件，可以被Tensor
【pytorch学习笔记03】pytorch完整模型训练套路 yierrrrr DL学习笔记 pytorch 学习笔记
B站我是土堆视频学习笔记，链接：https://www.bilibili.com/video/BV1hE411t7RN/?spm_id_from=333.999.0.01.准备数据集train_data=torchvision.datasets.CIFAR10(root='./dataset',train=True,transform=torchvision.transforms.ToTensor
PyTorch学习笔记 Junoxiang pytorch 学习笔记
1.item()→number方法:item()返回一个数只能用于只包含一个元素的张量。对于其他的张量，请查看方法tolist().该操作是不可微分的,即不可求导.(译者注:返回的结果是普通Python数据类型,自然不能调用backward()方法来进行梯度的反向传播)Example:例子:>>>x=torch.tensor([1.0])>>>x.item()1.02.Tensor（张量）中包含d
PyTorch学习笔记（4）--神经网络模型的保存和导入别管我啦就是说 Pytorch学习笔记 python pytorch
1.numpy矩阵的保存importnumpyasnpa=np.array(2)np.save("nm.npy",a)a=np.load("nm.npy")2.模型的保存和导入将训练好的模型和参数保存下来，下一次使用的时候直接导入模型和参数，和一个已经训练好的神经网络模型一样保存模型importtorch#保存整个神经网络的结构和模型参数torch.save(mymodel,'mymodel.pk
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa