紫芝

深度学习入门之PyTorch学习笔记：卷积神经网络

深度学习入门之PyTorch学习笔记

绪论
1 深度学习介绍
2 深度学习框架
3 多层全连接网络
4 卷积神经网络

4.1 主要任务及起源
4.2 卷积神经网络的原理和结构

4.2.1 卷积层

1.概述
2.局部连接
3.空间排列
4.零填充的使用
5.步长限制
6.参数共享
7.总结

4.2.2 池化层
4.2.3 全连接层
4.2.4 卷积神经网络的基本形式

1.小滤波器的有效性
2.网络的尺寸

4.3 PyTorch卷积模块

4.3.1 卷积层
4.3.2 池化层
4.3.3 提取层结构
4.3.4 如何提取参数及自定义初始化

4.4 卷积神经网络案例分析

4.4.1 LeNet
4.4.2 AlexNet
4.4.3 VGGNet
4.4.4 GoogLeNet
4.4.5 ResNet

4.5 实现MNIST手写数字分类
4.6 图像增强的方法
4.7 实现cifar10分类

绪论

深度学习如今已经称为科技领域最炙手可热的技术，帮助你入门深度学习。
本文从机器学习与深度学习的基础理论入手，从零开始学习PyTorch以及如何使用PyTorch搭建模型。
学习机器学习中的线性回归、Logistic回归、深度学习的优化方法、多层全连接神经网络、卷积神经网络、循环神经网络、以及生成对抗网络，最后通过实战了解深度学习前沿的研究成果。
将理论与代码结合，帮助更好的入门机器学习。

1 深度学习介绍

https://hulin.blog.csdn.net/article/details/107733777

2 深度学习框架

https://hulin.blog.csdn.net/article/details/107746239

3 多层全连接网络

https://hulin.blog.csdn.net/article/details/107757088

4 卷积神经网络

图像分类问题是计算机视觉中的一个核心问题，虽然问题描述很简单，却有着很广泛的使用价值，很多独立的计算机视觉任务如目标检测、分割等，都可以简化为图像分类问题。
卷积神经网络于1998年由Yann Lecun提出。2012年，Alex凭借卷积神经网络赢得了ImageNet挑战赛，震惊了世界，如今卷积神经网络已经成为计算机视觉领域最具影响力的一部分。

4.1 主要任务及起源

人类获取外界信息，主要依靠视觉、听觉、触觉、嗅觉、味觉等感觉器官，其中80%的信息来自于视觉，而且视觉获取的信息也是最丰富、最复杂的。人的生理构造决定了能够看清楚并理解身边的场景，而要让计算机看懂这个世界却是一件非常困难的事情，即使在很多人看来，现在的计算机技术已经足够先进了，但是要达到看懂并自主分析各种复杂信息的程度，还有很长的一段路要走，这也是计算机视觉这门学科要解决的事情。
计算机视觉的核心任务之一是图像识别，人类对于图片的识别相当容易，然而机器却面临了很多问题，如视角变换，光照条件，背景干扰，物体变形，正是由于这些问题的干扰，使得计算机在图像识别时候的准确率较低。
如何实现一个算法来分类图片呢？人们不可能制定一个规则决定哪张图片属于哪一类，所以要通过学习算法让机器知道如何分类，这就是机器学习的核心。机器学习算法是依赖于数据集的，所以也称为数据驱动算法。
在卷积神经网络流行起来之前，图像处理使用的都是一些传统的方法，比如提取图像中的边缘、纹理、线条、边界等特征，依据这些特征再进行下一步处理，这样的处理不仅效率特别低，准确率也不高。随着计算机视觉的快速发展，在某些图像集上机器的识别准确率已经超过了人类，这一切都要归公于卷积神经网络。

4.2 卷积神经网络的原理和结构

以下三个观点使得卷积神经网络真正起作用，分别对应着卷积神经网络中的三种思想。
（1）局部性
对于一张图片而言，需要检测图片中的特征来决定图片的类别，通常情况下这些特征都不是由整张图片决定的，而是由一些局部的区域决定的。

（2）相同性
对于不同的图片，如果它们具有相同的特征，这些特征会出现在图片不同的位置，也就是说可以用同样的检测模式去检测不同图片的相同特征，只不过这些特征处于图片中不同的位置，但是特征检测所做的操作几乎一样。两张图片的鸟喙处于不同的位置，但是可以用相同的检测模式去检测。

（3）不变性
对于一张大图片，如果进行下采样，那么图片的性质基本保持不变。
卷积神经网络和全连接神经网络是相似的，也是由一些神经元构成。这些神经元中，有需要学习的参数，通过网络输入最后输出结果，通过损失函数来优化网络中的参数。
卷积神经网络与全连接神经网络的不同之处在于网络的层结构不同。全连接神经网络由一系列隐藏层构成，每个隐藏层由若干个神经元构成，其中每一个神经元都和前一层的所有神经元相连，但是每一层中的神经元是相互独立的。如下图所示。
全连接神经网络在处理图片上存在诸多问题。比如在MNIST数据集上，图片大小是2828，那么第一个隐藏层的单个神经元的权重数目就是2828=784个，这似乎还不是特别大，但这只是一张小图片，且是灰度图。对于一张较大的图片而言，比如2002003，就会导致权重数目是2002003=120000，如果设置几个隐藏层中神经元数目，就会导致参数增加特别快。其实这样的图片在现实中并不算是大图片，所以全连接神经网络对于处理图片并不是一个好的选择。
卷积神经网络的处理过程不同于一般的全连接神经网络，卷积神经网络是一个3D容量的神经元，也就是说神经元是以三个维度来排列的：宽度、高度、深度。比如输入的图片是32323，那么这张图片的宽度就是32，高度也是32，深度是3.
卷积神经网络中的主要层结构有三个：卷积层、池化层和全连接层，通过堆叠这些层结构形成了一个完整的卷积神经网络结构。卷积神经网络将原始图片转化为最后的类别得分，其中一些层包含参数，一些层没有包含参数，比如卷积层和全连接层拥有参数，而激活层和池化层不含有参数，这些参数通过梯度下降法来更新，最后使得模型尽可能正确的识别出图片类别。

4.2.1 卷积层

1.概述

首先介绍卷积神经网络的参数。这些参数是由一些可学习的滤波器集合构成的，每个滤波器在空间上（宽度和高度）都比较小，但是深度和输入数据的深度保持一致。例如，卷积神经网络的第一层卷积一个典型的滤波器的尺寸可以是553（宽和高都是5），或者333，宽度和高度可以任意定义，但深度必须是3，因为深度要和输入一致，而输入的图片是3通道的。在前向传播的时候，让每个滤波器都在输入数据的宽度和高度上滑动（卷积），然后计算整个滤波器和输入数据任意一处的内积。
当滤波器沿着输入数据的宽度和高度滑动时，会生成一个二维的激活图，激活图上的每个空间位置表示了原图片对于该滤波器的反应。直观来看，网络会让滤波器学习到当它看到某些类型的视觉特征的时候就激活，具体的视觉特征可以是边界、颜色、轮廓，甚至可以是网络更高层上的蜂窝状或者车轮状图案。
在每个卷积层上，会有一整个集合的滤波器，比如20个，这样就会形成20张二维的、不同的激活图，将这些激活图在深度方向上层叠起来，就形成了卷积层的输出。
如果用大脑和生物神经元做比喻，那么输出的3D数据中的每个数据都可以看成是神经元的一个输出，而该神经元只是观察输入数据中的一种特征，并且和空间上左右两边的所有神经元共享参数，因为这些输出都是使用同一个滤波器得到的结果。

2.局部连接

在处理图像这样高维度输入的时候，让每个神经元与它那一层中的所有神经元，进行全连接是不现实的。相反，让每个神经元只与输入数据的一个局部区域连接是可行的。这是因为图片特征的局部性，所以只需要通过局部就能提取出相应的特征。
与神经元连接的空间大小叫做神经元的感受野（Receptive Field），它的大小是一个人为设置的超参数，这其实就是滤波器的宽和高。在深度方向上，其大小总是和输入的深度相等。最后对待空间维度（宽和高）和深度维度是不同的，连接在空间上是局部的，但是在深度上总是和输入的数据深度保持一致。
下图展示了感受野在空间和深度上的大小，左边表示输入数据，中间是感受野，右边每个小圆点表示一个神经元。
例如，输入的数据尺寸是32323，如果感受野（滤波器尺寸）是55，卷积层中每个神经元会有输入数据中553区域的权重，一共553=75个权重。感受野的深度大小必须是3，和输入数据保持一致。比如输入数据尺寸是161620，感受野是33，卷积层中每个神经元和输入数据体之间就有3320=180个连接，这里的深度必须是20，和输入数据保持一致。

3.空间排列

前面介绍了每个神经元只需要与输入数据的局部区域相连接，但是没有介绍卷积层中神经元的数量和它们的排列方式、输出深度、滑动步长，以及边界填充控制着卷积层的空间排布。
首先，卷积层的输出深度是一个超参数，它与使用的滤波器数量一致，每种滤波器所做的就是在输入数据中寻找一种特征。比如说，输入一张原始图片，卷积层输出的深度是20，这说明有20个滤波器对数据进行处理，每种滤波器寻找一种特征进行激活。
其次，在滑动滤波器的时候，必须指定步长。比如步长为1，说明滤波器每次移动一个像素点。当步长为2时，滤波器会滑动两个像素点。滑动的操作会使输出的数据在空间上变得更小。
最后是边界填充，可以将输入数据用0在边界进行填充，这里将0填充的尺寸作为一个超参数，由一个好处就是，可以控制输出数据在空间上的尺寸，最常用来保证输入和输出在空间上尺寸一致。

4.零填充的使用

零填充能够保证输入的数据和输出的数据具有相同的空间尺寸。

5.步长限制

在卷积神经网络的结构设计中，需要合理的设置网络的尺寸，使得所有维度都能正常工作。

6.参数共享

在卷积层使用参数共享，可以有效减少参数的个数。因为图像特征具有相同性，说明相同的滤波器能够检测出不同位置的相同特征。比如一个卷积层的输出是202032，那么其中神经元的个数就是202032=12800，如果窗口大小是33，而输入的数据深度是10，那么每个神经元就有3310=900个参数，这样合起来就有12800900=11520000个参数，单单一层卷积就有这么多参数，这样的运算速度显然特别慢。
一个滤波器能检测出一个空间位置（x1，y1）处的特征，那么也能够有效检测出（x2，y2）位置的特征，所以就可以用相同的滤波器来检测相同的特征。基于这个假设，就能够有效减少参数的个数。比如一共有32个滤波器，这使得输出体的厚度是32，每个滤波器的参数为3310=900，总共的参数就有32*900=28800个，极大减少了参数的个数。
由参数共享知道输出体数据在深度切片上所有的权重都使用同一个权重向量，那么卷积层在向前传播的过程中，每个深度切片都可以看成是神经元的权重对输入数据体做卷积，就是把这些3D的权重集合称为滤波器，或者卷积核。
参数共享之所以能够有效，是因为一个特征在不同位置的表现是相同的，比如一个滤波器检测到了水平边界这个特征，那么这个特征具有平移不变性，所以在其他位置也能够检测出来。但是有时候这样的假设是没有意义的，特别是当卷积神经网络的输入图像，呈现的是一些明确的中心结构的时候，希望在图片的不同位置学习到不同的特征。例如，人脸识别中，人脸一般位于图片的中心，希望不同的特征能在不同的位置被学习到，比如眼睛特征或者头发特征，正是这些特征在不同的地方，才能够对人脸进行识别。

7.总结

总结以下卷积层的性质。
（1）输入数据的尺寸是W1H1D1.
（2）4个超参数，滤波器数量K，滤波器空间尺寸F，滑动步长S，零填充的数量P。
（3）输出数据的尺寸为W2H2D2，D2=K。
（4）由于参数共享，每个滤波器包含的权重数目是FFD1，卷积层一共有FFD1K个权重和K个偏置。
（5）在输出体数据中，第d个深度切片（空间尺寸是W2H2），用d个滤波器和输入数据进行有效卷积运算的结果，再加上第d个偏置。
对于卷积神经网络的超参数，常见的设置是F=3，S=1，P=1，同时这些超参数也有一些约定俗称的惯例和经验。

4.2.2 池化层

卷积层是卷积神经网络的核心，通常会在卷积层之间周期性插入一个池化层，其作用是逐渐降低数据体的空间尺寸，这样就能减少网络中的参数数量，减少计算资源耗费，同时也能够有效的控制过拟合。
池化层和卷积层一样也有一个空间窗口，通常采用的是取这些窗口中的最大值作为输出结果，然后不断滑动窗口，对输入数据体每一个深度切片单独处理，减少它的空间尺寸。
池化层之所以有效，是因为之前介绍的图片特征具有不变性，也就是通过下采样不会丢失图片拥有的特征，由于这种特性，可以将图片缩小再进行卷积处理，这样能大大降低卷积运算的时间。
最常用的池化层形式是尺寸为2*2的窗口，滑动步长为2，对图像进行下采样，将其中75%的激活信息都丢掉，选择其中最大的保存下来，这其实是因为希望能够更加激活里面数值大的特征，去除一些噪声信息。
池化层有一些与卷积层类似的性质。
（1）数据输入体的尺寸是W1H1D1.
（2）有两个需要设置的超参数，空间大小F和滑动步长S。
（3）输出体的尺寸是W2H2D2.
（4）对输入进行固定函数的计算，没有参数引入。
（5）池化层中很少引入零填充。
在实际中，有两种方式：一种是F=3，S=2，这种池化有重叠；另外一种更常用的是F=2，S=2.一般来说应该谨慎使用比较大的池化窗口，以免对网络有破坏性。除了最大值池化之外，还有一些其他的池化函数，比如平均池化，或者L2范数池化。在实际中证明，在卷积层之间引入最大池化的效果是最好的，而平均池化一般放在卷积神经网络的最后一层。

4.2.3 全连接层

全连接层和一般的神经网络的结构是一样的，每一个神经元与前一层所有的神经元全部连接，而卷积神经网络只和输入数据中的一个局部区域连接，并且输出的神经元每个深度切片共享参数。
一般经过了一系列的卷积层和池化层之后，提取出图片的特征图，比如说特征图的大小是33512，将特征图中的所有神经元变成全连接层的样子，直观上也就是将一个3D的立方体重新排列，变成一个全连接层，里面有33512=4608个神经元，在经过几个隐藏层，最后输出结果。
在这个过程中，为了防止过拟合会引入Dropout。最近的研究表明，在进入全连接层之前，使用全局平均池化能够有效的降低过拟合。

4.2.4 卷积神经网络的基本形式

卷积神经网络中通常由卷积层、池化层、全连接层这三种层结构所构成，引入激活函数增加模型的非线性，所以卷积神经网络最常见的形式就是将一些卷积层和ReLU层放在一起，有可能在ReLU层前面加上批标准化层，随后是池化层，再不断重复，直到图像在空间上被缩小到一个足够小的尺寸，然后将特征展开，连接几层全连接层，最后输出结果，比如分类评分。
一种卷积神经网络的基本结构。

1.小滤波器的有效性

一般而言，几个小滤波器卷积层的组合比一个大滤波器卷积层要好，比如层层堆叠了3个33的卷积层，中间含有非线性激活层。在这种排列下面，第一个卷积层中每个神经元对输入数据的感受野是33，第二层卷积层对第一层卷积层的感受野也是33，这样对于输入数据的感受野就是55，同样，第三层卷积层上对第二层卷积层的感受野是33，这样第三层卷积层对于第一层输入数据的感受野就是77.
多个卷积层首先与非线性激活层交替的结构，比单一卷积层的结构更能提取出深层的特征。选择小滤波器的卷积组合能够对输入数据表达出更有力的特征，同时使用参数也更少。唯一的不足是反向传播更新参数的时候，中间的卷积层可能会占用更多的内存。

2.网络的尺寸

对于卷积神经网络的尺寸设计，没有严格的数学证明，这是根据经验指定出来的规则。
（1）输入层
一般而言，输入层的大小应该能够被2整除很多次，常用的数字包括32，64，96，224.
（2）卷积层
卷积层应该尽可能使用小尺寸的滤波器，比如33或者55，滑动步长取1。还有一点就是需要对输入数据体进行零填充，这样可以有效的保证卷积层不会改变输入数据体的空间尺寸。如果必须要使用更大的滤波器尺寸，比如77，通常用在第一个面对原始图像的卷积层上。
（3）池化层
池化层负责对输入的数据空间维度进行下采样，常用的设置使用22的感受野做最大值池化，滑动步长取2.另外一个不常用的设置是使用3*3的感受野，步长设置为2.一般而言，池化层的感受野大小很小超过2，因为这样会使池化过程过于激烈，造成信息的丢失，这通常会造成算法的性能变差。
（4）零填充
零填充的使用可以让卷积层的输入和输出在空间上的维度保持一致。除此之外，如果不使用零填充，那么数据体的尺寸就会略微减少，在不断进行卷积的过程中，图像边缘信息会过快的损失掉。

4.3 PyTorch卷积模块

PyTorch作为一个深度学习库，卷积神经网络是其中最为基础的一个模块，卷积神经网络中所有的层结构都可以通过nn这个包来调用。

4.3.1 卷积层

nn.Conv2d()就是PyTorch中的卷积模块，常用的参数有5个，分别是in_channels, out_channels, kernel_size, stride, padding,还有参数dilation, groups, bias等
in_channels对应的是输入数据体的深度；
out_channels表示输出数据体的深度；
kernel_size表示滤波器（卷积核）的大小，可以使用一个数字来表示高和宽相同的卷积核，比如kernel_size=3, 也可以使用不同的数字来表示高和宽不同的卷积层，比如kernel_size=(3,2)；
stride表示滑动的步长；
padding=0表示四周不进行零填充，而padding=1表示四周进行1个像素点的零填充；
bias是一个布尔值，默认bias=True表示使用偏置；
groups表示输出数据体深度上和输入数据体深度上的联系，默认groups=1，也就是所有的输入和输出是相关联的；如果groups=2，表示输入的深度被分割成两份，输出的深度也被分割成两份，它们之间分别对应起来，所以要求输入和输出都要被groups整除；
dilation表示卷积对于输入数据体的空间间隔，默认dilation=1

4.3.2 池化层

nn.MaxPool2d()表示网络中最大值池化，其中参数有kernel_size, strid, padding, dilation, return_indices, ceil_mode。
kernel_size, stride, padding, dilation与卷积层参数的含义相同。
return_indices表示是否返回最大值所处的下标，默认return_indices=False;一般不会设置这些参数。
nn.AvgPool2d()表示均值池化，里面的参数和nn.MaxPool2d()类似，但多一个参数count_include_pad，这个参数表示计算均值的时候是否包含零填充，默认为True。
一般使用较多的就是nn.MaxPool2d()和nn.AvgPool2d(), 另外PyTorch还提供了一些别的池化层，如nn.LPPool2d(),nn.AdaptiveMaxPool2d()等不常用的池化层。
一个简单的多层卷积神经网络

import torch.nn as nn


class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()

        layer1 = nn.Sequential()
        layer1.add_module('conv1', nn.Conv2d(3, 32, 3, 1, padding=1))
        layer1.add_module('relu1', nn.ReLU(True))
        layer1.add_module('pool1', nn.MaxPool2d(2, 2))
        self.layer1 = layer1

        layer2 = nn.Sequential()
        layer2.add_module('conv2', nn.Conv2d(32, 64, 3, 1, padding=1))
        layer2.add_module('relu2', nn.ReLU(True))
        layer2.add_module('pool2', nn.MaxPool2d(2, 2))
        self.layer2 = layer2

        layer3 = nn.Sequential()
        layer3.add_module('conv3', nn.Conv2d(64, 128, 3, 1, padding=1))
        layer3.add_module('relu3', nn.ReLU(True))
        layer3.add_module('pool3', nn.MaxPool2d(2, 2))
        self.layer3 = layer3

        layer4 = nn.Sequential()
        layer4.add_module('fc1', nn.Linear(2048, 512))
        layer4.add_module('fc_relu1', nn.ReLU(True))
        layer4.add_module('fc2', nn.Linear(512, 64))
        layer4.add_module('fc_relu2', nn.ReLU(True))
        layer4.add_module('fc3', nn.Linear(64, 10))
        self.layer4 = layer4

    def forward(self, x):
        conv1 = self.layer1(x)
        conv2 = self.layer2(conv1)
        conv3 = self.layer3(conv2)
        fc_input = conv3.view(conv3.size(0), -1)
        fc_out = self.layer4(fc_input)
        return fc_out


model = SimpleCNN()
print(model)

在上面的定义中，将卷积层、激活层、池化层，组合在一起构成了一个层结构，定义了3个这样的层结构，最后定义了全连接层，输出10.
通过print(model)显示网络中定义了哪些层结构, 这些层结构

SimpleCNN(
  (layer1): Sequential(
    (conv1): Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (relu1): ReLU(inplace)
    (pool1): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (layer2): Sequential(
    (conv2): Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (relu2): ReLU(inplace)
    (pool2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (layer3): Sequential(
    (conv3): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (relu3): ReLU(inplace)
    (pool3): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (layer4): Sequential(
    (fc1): Linear(in_features=2048, out_features=512, bias=True)
    (fc_relu1): ReLU(inplace)
    (fc2): Linear(in_features=512, out_features=64, bias=True)
    (fc_relu2): ReLU(inplace)
    (fc3): Linear(in_features=64, out_features=10, bias=True)
  )
)

4.3.3 提取层结构

对于一个给定的模型，如果不想要模型中所有的层结构，只希望能够提取网络中的某一层或者几层，应该如何实现？
首先看nn.Module的几个重要属性。
第一个是children(), 这个会返回下一级模块的迭代器，比如上面这个模型，智慧返回self.layer1, self.layer2, self.layer3,self.layer4上的迭代器，不会返回它们内部的东西。
第二个是modules()会返回模型中所有模块的迭代器，即它能够访问到最内层，比如self.layer1.conv1这个模块。
还有一个与前两个相对应的是named_children()属性以及named_modules(), 这两个不仅会返回模块的迭代器，还会返回网络层的名字。
下面来提取网络中需要的层。
如果希望能提取出前面两层，可以通过下面的方法实现。

model = SimpleCNN()
new_model = nn.Sequential(*list(model.children())[:2])
print(new_model)

Sequential(
  (0): Sequential(
    (conv1): Conv2d(3, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (relu1): ReLU(inplace)
    (pool1): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (1): Sequential(
    (conv2): Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (relu2): ReLU(inplace)
    (pool2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
)

如果希望提取出模型中所有的卷积层，可以通过下面的方法实现.使用isinstance()可以判断这个模块是不是所需要的类型实例，这样就提取出了所有的卷积模块。

conv_model = nn.Sequential()
for layer in model.named_modules():
    if isinstance(layer[1], nn.Conv2d):
        conv_model.add_module(layer[0], layer[1])

4.3.4 如何提取参数及自定义初始化

有时候提取出的层结构并不够，还需要对里面的参数进行初始化，那么如何提取网络中的参数并初始化呢？
首先nn.Module里面有两个特别重要的关于参数的属性，分别是named_parameters()和parameters(), named_parameters()给出网络层的名字和参数的迭代器， parameters()会给出一个网络的全部参数的迭代器。

model = SimpleCNN()
for param in model.named_parameters():
    print(param[0])

layer1.conv1.weight
layer1.conv1.bias
layer2.conv2.weight
layer2.conv2.bias
layer3.conv3.weight
layer3.conv3.bias
layer4.fc1.weight
layer4.fc1.bias
layer4.fc2.weight
layer4.fc2.bias
layer4.fc3.weight
layer4.fc3.bias

如何对权重做初始化呢？因为权重是一个Variable，所以只需要取出其中的data属性，对其进行所需要的处理即可。

model = SimpleCNN()
for m in model.modules():
    if isinstance(m, nn.Conv2d):
        init.normal_(m.weight.data)
        init.xavier_normal_(m.weight.data)
        init.kaiming_normal_(m.weight.data)
        m.bias.data.fill_(0)
    elif isinstance(m, nn.Linear):
        m.weight.data.normal_()

4.4 卷积神经网络案例分析

4.4.1 LeNet

LeNet是整个卷积神经网络的开山之作，1998年由LeCun提出，它的结构特别简单。
整个网络结构特别清晰，一共7层，其中2层卷积和2层池化层交替出现，最后输出3层全连接层得到整体的结果。
网络的层数很浅，也没有添加激活层

import torch.nn as nn


class LeNet(nn.Module):
    def __init__(self):
        super(LeNet, self).__init__()

        layer1 = nn.Sequential()
        layer1.add_module('conv1', nn.Conv2d(1, 6, 3, padding=1))
        layer1.add_module('pool1', nn.MaxPool2d(2, 2))
        self.layer1 = layer1

        layer2 = nn.Sequential()
        layer2.add_module('conv2', nn.Conv2d(6, 16, 5))
        layer2.add_module('pool2', nn.MaxPool2d(2, 2))
        self.layer2 = layer2

        layer3 = nn.Sequential()
        layer3.add_module('fc1', nn.Linear(400, 120))
        layer3.add_module('fc2', nn.Linear(120, 84))
        layer3.add_module('fc3', nn.Linear(84, 10))
        self.layer3 = layer3

    def forward(self, x):
        x = self.layer1(x)
        x = self.layer2(x)
        x = x.view(x.size(0), -1)
        x = self.layer3(x)
        return x

4.4.2 AlexNet

AlexNet在2012年的ImageNet竞赛上大放异彩，以领先第二名10%的准确率夺得冠军，并成功展示了深度学习的威力。
当时GPU计算能力不强，而AlexNet比较复杂，所以使用两个GPU并行计算，现在完全可以用一个GPU代替。
AlexNet相对于LeNet层数更深，同时第一次引入了激活层ReLU，在全连接层引入了Dropout层防止过拟合。

import torch.nn as nn


class AlexNet(nn.Module):
    def __init__(self, num_classes):
        super(AlexNet, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),

            nn.Conv2d(64, 192, kernel_size=5, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),

            nn.Conv2d(192, 384, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),

            nn.Conv2d(384, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),

            nn.Conv2d(256, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
        )
        self.classifier = nn.Sequential(
            nn.Dropout(),
            nn.Linear(256 * 6 * 6, 4096),
            nn.ReLU(inplace=True),

            nn.Dropout(),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096, num_classes)
        )

    def forward(self, x):
        x = self.features(x)
        x = x.view(x.size(0), 256 * 6 * 6)
        x = self.classifier(x)
        return x

4.4.3 VGGNet

VGGNet是ImageNet竞赛2014年的亚军，总结起来就是它使用了更小的滤波器，同时使用了更深的结构，AlexNet只有8层网络，而VGGNet有16-19层网络；AlexNet使用了1111的大滤波器，而VGGNet只使用了33的卷积滤波器和2*2的大池化层。
VGGNet之所以使用很多小的滤波器，是因为层叠很多小的滤波器的感受野和一个大滤波器的感受野是相同的，还能减少参数，同时有更深的网络结构。
VGG只是对网络层进行不断的堆叠，并没有进行太多的创新，而增加深度确实可以一定程度改善模型效果。

import torch.nn as nn


class VGGNet(nn.Module):
    def __init__(self, num_classes):
        super(VGGNet, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=3, padding=1),
            nn.ReLU(True),

            nn.Conv2d(64, 64, kernel_size=3, padding=1),
            nn.ReLU(True),
            nn.MaxPool2d(kernel_size=2, stride=2),

            nn.Conv2d(64, 128, kernel_size=3, padding=1),
            nn.ReLU(True),

            nn.Conv2d(128, 128, kernel_size=3, padding=1),
            nn.ReLU(True),
            nn.MaxPool2d(kernel_size=2, stride=2),

            nn.Conv2d(128, 256, kernel_size=3, padding=1),
            nn.ReLU(True),

            nn.Conv2d(256, 256, kernel_size=3, padding=1),
            nn.ReLU(True),

            nn.Conv2d(256, 256, kernel_size=3, padding=1),
            nn.ReLU(True),
            nn.MaxPool2d(kernel_size=2, stride=2),

            nn.Conv2d(256, 512, kernel_size=3, padding=1),
            nn.ReLU(True),

            nn.Conv2d(512, 512, kernel_size=3, padding=1),
            nn.ReLU(True),

            nn.Conv2d(512, 512, kernel_size=3, padding=1),
            nn.ReLU(True),
            nn.MaxPool2d(kernel_size=2, stride=2),

            nn.Conv2d(512, 512, kernel_size=3, padding=1),
            nn.ReLU(True),

            nn.Conv2d(512, 512, kernel_size=3, padding=1),
            nn.ReLU(True),

            nn.Conv2d(512, 512, kernel_size=3, padding=1),
            nn.ReLU(True),
            nn.MaxPool2d(kernel_size=2, stride=2),

        )
        self.classifier = nn.Sequential(
            nn.Linear(512 * 7 * 7, 4096),
            nn.ReLU(True),
            nn.Dropout(),

            nn.Linear(4096, 4096),
            nn.ReLU(True),
            nn.Dropout(),

            nn.Linear(4096, num_classes),
        )

    def forward(self, x):
        x = self.features(x)
        x = x.view(x.size(0), -1)
        x = self.classifier(x)
        return x

4.4.4 GoogLeNet

GoogLeNet也叫InceptionNet，是ImageNet竞赛2014年的冠军，采用了一种很有效的Inception模块，没有全连接层。
GoogLeNet采取了比VGGNet更深的网络结构，一共有22层，但是它的参数却比AlexNet少了12倍，同时有很高的计算效率。
Inception模块设计了一个全局的网络拓扑结构，然后将这些模块堆叠在一起形成一个抽象层网络结构。具体就是运用几个并行的滤波器对输入进行卷积和池化，这些滤波器有不同的感受野，最后将输出的结果按深度拼接在一起形成输出层。
首先定义一个最基础的卷积模块，然后根据这个模块定义了11，33，5*5的模块和一个池化层，最后使用torch.cat()将它们按深度拼接起来，得到输出结果。

import torch.nn as nn
import torch
from pandas.util._decorators import F


class BasicConv2d(nn.Module):
    def __init__(self, in_channels, out_channels, **kwargs):
        super(BasicConv2d, self).__init__()
        self.conv = nn.Conv2d(in_channels, out_channels, bias=False, **kwargs)
        self.bn = nn.BatchNorm2d(out_channels, eps=0.001)

    def forward(self, x):
        x = self.conv(x)
        x = self.bn(x)
        return F.relu(x, inplace=True)


class Inception(nn.Module):
    def __init__(self, in_channels, pool_features):
        super(Inception, self).__init__()
        self.branch1x1 = BasicConv2d(in_channels, 64, kernel_size=1)
        self.branch5x5_1 = BasicConv2d(in_channels, 48, kernel_size=1)
        self.branch5x5_2 = BasicConv2d(48, 64, kernel_size=5, padding=2)

        self.branch3x3db1_1 = BasicConv2d(in_channels, 64, kernel_size=1)
        self.branch3x3db1_2 = BasicConv2d(64, 96, kernel_size=3, padding=1)
        self.branch3x3db1_3 = BasicConv2d(96, 96, kernel_size=3, padding=1)

        self.branch_pool = BasicConv2d(in_channels, pool_features, kernel_size=1)

    def forward(self, x):
        branch1x1 = self.branch1x1(x)

        branch5x5 = self.branch5x5_1(x)
        branch5x5 = self.branch5x5_2(branch5x5)

        branch3x3db1 = self.branch3x3db1_1(x)
        branch3x3db1 = self.branch3x3db1_2(branch3x3db1)
        branch3x3db1 = self.branch3x3db1_3(branch3x3db1)

        branch_pool = F.avg_pool2d(x, kernel_size=3, stride=1, padding=1)
        branch_pool = self.branch_pool(branch_pool)

        outputs = (branch1x1, branch5x5, branch3x3db1, branch_pool)
        return torch.cat(outputs, 1)

4.4.5 ResNet

ResNet是2015年ImageNet竞赛的冠军，由微软研究院提出，通过残差模块能够成功训练高达152层的神经网络。
ResNet最初的设计灵感来自于这个问题：在不断加深神经网络的时候，会出现一个Degradation，即准确率会先上升然后达到饱和，再持续增加深度则会导致模型准确率下降。
这并不是过拟合的问题，因为不仅在验证集上误差增加，训练集本身误差也在增加。假设一个比较浅的网络达到了饱和的准确率，那么在后面加上恒等映射层，误差不会增加，也就是说更深的模型不会使模型效果下降。
这里提到的使用恒等映射直接将前一层输出传到后面的思想，就是ResNet的灵感来源。假设某个神经网络的输入是x，期望输出是H(x), 如果直接把输入x传到输出作为初始结果，那么此时需要学习的目标就是F(x)=H(x)-x, 也就是残差模块。
ResNet的残差学习单元相当于将学习目标改变了，不再是学习一个完整的输出H(x), 而是学习输出和输入差别H(x)-x, 即残差。

import torch.nn as nn


def conv3x3(in_planes, out_planes, stride=1):
    """
    3x3 convolution with padding
    :param in_planes:
    :param out_planes:
    :param stride:
    :return:
    """
    return nn.Conv2d(
        in_planes,
        out_planes,
        kernel_size=3,
        stride=stride,
        padding=1,
        bias=False
    )


class BasicBlock(nn.Module):
    def __init__(self, inplanes, planes, stride=1, downsample=None):
        super(BasicBlock, self).__init__()
        self.conv1 = conv3x3(inplanes, planes, stride)
        self.bn1 = nn.BatchNorm2d(planes)
        self.relu = nn.ReLU(inplace=True)

        self.conv2 = conv3x3(planes, planes)
        self.bn2 = nn.BatchNorm2d(planes)
        self.downsample = downsample
        self.stride = stride

    def forward(self, x):
        residual = x

        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)

        out = self.conv2(out)
        out = self.bn2(out)

        if self.downsample is not None:
            residual = self.downsample(x)

        out += residual
        out = self.relu(out)
        return out

4.5 实现MNIST手写数字分类

这个简单的卷积神经网络里面有4层卷积，2层最大池化，卷积之后使用批标准化加快收敛速度，使用ReLU激活函数增加非线性，最后使用全连接层输出分类得分。
结论：通过增加网络深度和复杂化网络结构，提高网络的准确率是可行的。

from torch import nn


class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.layer1 = nn.Sequential(
            nn.Conv2d(1, 16, kernel_size=3),
            nn.BatchNorm2d(16),
            nn.ReLU(inplace=True)
        )

        self.layer2 = nn.Sequential(
            nn.Conv2d(16, 32, kernel_size=3),
            nn.BatchNorm2d(32),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )

        self.layer3 = nn.Sequential(
            nn.Conv2d(32, 64, kernel_size=3),
            nn.BatchNorm2d(64),
            nn.ReLU(inplace=True)
        )

        self.layer4 = nn.Sequential(
            nn.Conv2d(64, 128, kernel_size=3),
            nn.BatchNorm2d(128),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )

        self.fc = nn.Sequential(
            nn.Linear(128 * 4 * 4, 1024),
            nn.ReLU(inplace=True),
            nn.Linear(1024, 128),
            nn.ReLU(inplace=True),
            nn.Linear(128, 10)
        )

    def forward(self, x):
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)
        x = x.view(x.size(0), -1)
        x = self.fc(x)
        return x

4.6 图像增强的方法

一直以来，图像识别这一计算机视觉的核心问题都面临着很多挑战，同一个物体在不同情况下都会得出不同的结论。
对于一张照片，人类看到的是一些物体，对于计算机而言，看到的是一些像素点。
如果拍摄照片的照相机位置发生了改变，那么拍摄的图片对于我们而言，变化很小，但是对于计算机而言，图片的像素变化是很大的。
拍摄时的光照条件也是很重要的一个影响因素：光照太弱，照片里的物体和背景融为一体，它们的像素点就会很接近，计算机就无法正确识别出物体。
物体本身的变形也会对计算机识别造成障碍，比如一只猫是趴着的，计算机能够识别它，但是如果猫换一个姿势，变成躺着的状态，计算机就无法识别了。
物体本身会隐藏在一些遮蔽物，这样物体只呈现局部的信息，计算也难以识别。
torchvision.transforms包括所有图像增强的方法。
scale 对图片的尺寸进行缩小和放大
CenterCrop 对图像正中心进行给定大小的剪裁
RandomCrop 对图片进行给定大小的随机剪裁
RandomHorizaontalFlip 对图片进行概率为0.5的随机水平反转
RandomSizedCrop 首先对图片进行随机尺寸的裁剪，然后对裁剪的图片进行一个随机比例的缩放，最后将图片变成给定大小，在InceptionNet中较流行。
pad 对图片进行边界零填充

4.7 实现cifar10分类

cifar10数据集有60000张图片，每张图片的大小都是32*32的三通道的彩色图，一共是10种类别，每种类别有6000张图片。
首先进行图像增强。只对训练集进行图片增强，提高泛化能力，对于测试集，仅对其中心化，不做其他的图像增强。

from torchvision import transforms

train_transform = transforms.Compose([
    transforms.Scale(40),
    transforms.RandomHorizontalFlip(),
    transforms.RandomCrop(32),
    transforms.ToTensor(),
    transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])
])
test_transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])
])

定义ResNet的基本模块。

def conv3x3(in_channels, out_channels, stride=1):
    return nn.Conv2d(
        in_channels,
        out_channels,
        kernel_size=3,
        stride=stride,
        padding=1,
        bias=False
    )


# Residual Block
class ResidualBlock(nn.Module):
    def __init__(self, in_channels, out_channels, stride=1, downsample=None):
        super(ResidualBlock, self).__init__()
        self.conv1 = conv3x3(in_channels, out_channels, stride)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.relu = nn.ReLU(inplace=True)
        self.conv2 = conv3x3(out_channels, out_channels)
        self.bn2 = nn.BatchNorm2d(out_channels)
        self.downsample = downsample

    def forward(self, x):
        residual = x
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)
        out = self.conv2(out)
        out = self.bn2(out)
        if self.downsample:
            residual = self.downsample(x)
        out += residual
        out = self.relu(out)
        return out

先定义残差模块，再将残差模块拼接起来，注意其中维度变化。

class ResNet(nn.Module):
    def __init__(self, block, layers, num_classes=10):
        super(ResNet, self).__init__()
        self.in_channels = 16
        self.conv = conv3x3(3, 16)
        self.bn = nn.BatchNorm2d(16)
        self.relu = nn.ReLU(inplace=True)
        self.layer1 = self.make_layer(block, 16, layers[0])
        self.layer2 = self.make_layer(block, 32, layers[0], 2)
        self.layer3 = self.make_layer(block, 64, layers[1], 2)
        self.avg_pool = nn.AvgPool2d(8)
        self.fc = nn.Linear(64, num_classes)

    def make_layer(self, block, out_channels, blocks, stride=1):
        downsample = None
        if (stride != 1) or (self.in_channels != out_channels):
            downsample = nn.Sequential(
                conv3x3(self.in_channels, out_channels, stride=stride),
                nn.BatchNorm2d(out_channels)
            )
        layers = []
        layers.append(
            block(self.in_channels, out_channels, stride, downsample)
        )
        self.in_channels = out_channels
        for i in range(1, blocks):
            layers.append(block(out_channels, out_channels))
        return nn.Sequential(*layers)

    def forward(self, x):
        out = self.conv(x)
        out = self.bn(out)
        out = self.relu(out)
        out = self.layer1(out)
        out = self.layer2(out)
        out = self.layer3(out)
        out = self.avg_pool(out)
        out = out.view(out.siza(0), -1)
        out = self.fc(out)
        return out

你可能感兴趣的:(神经网络,卷积)

ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
Pyorch中 nn.Conv1d 与 nn.Linear 的区别迪三 #NN_Layer 神经网络
即一维卷积层和全联接层的区别nn.Conv1d和nn.Linear都是PyTorch中的层，它们用于不同的目的，主要区别在于它们处理输入数据的方式和执行的操作类型。nn.Conv1d通过应用滑动过滤器来捕捉序列数据中的局部模式，适用于处理具有时间或序列结构的数据。nn.Linear通过将每个输入与每个输出相连接，捕捉全局关系，适用于将输入数据作为整体处理的任务。1.维度与输入nn.Conv1d（一
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【3.6 python中的numpy编写一个“手写数字识”的神经网络】 wang151038606 深度学习入门 python numpy 神经网络
3.6python中的numpy编写一个“手写数字识”的神经网络要使用Python中的NumPy库从头开始编写一个“手写数字识别”的神经网络，我们通常会处理MNIST数据集，这是一个广泛使用的包含手写数字的图像数据集。但是，完全用NumPy来实现神经网络（包括数据的加载、预处理、模型定义、前向传播、损失计算、反向传播和权重更新）是一个相当复杂的任务，因为NumPy本身不提供自动微分或高级优化算法（
yolov5单目测距+速度测量+目标跟踪 cv_2025 YOLO 目标跟踪人工智能计算机视觉机器学习图像处理 opencv
要在YOLOv5中添加测距和测速功能，您需要了解以下两个部分的原理：单目测距算法单目测距是使用单个摄像头来估计场景中物体的距离。常见的单目测距算法包括基于视差的方法（如立体匹配）和基于深度学习的方法（如神经网络）。基于深度学习的方法通常使用卷积神经网络（CNN）来学习从图像到深度图的映射关系。单目测距代码单目测距涉及到坐标转换，代码如下：defconvert_2D_to_3D(point2D,R,
探索深度学习的奥秘：从理论到实践的奇幻之旅小周不想卷深度学习
目录引言：穿越智能的迷雾一、深度学习的奇幻起源：从感知机到神经网络1.1感知机的启蒙1.2神经网络的诞生与演进1.3深度学习的崛起二、深度学习的核心魔法：神经网络架构2.1前馈神经网络（FeedforwardNeuralNetwork,FNN）2.2卷积神经网络（CNN）2.3循环神经网络（RNN）及其变体（LSTM,GRU）2.4生成对抗网络（GAN）三、深度学习的魔法秘籍：算法与训练3.1损失
卷积神经网络（CNN）详细介绍及其原理详解（二） FFmpeg123 Pytorch cnn 深度学习人工智能
接上一文继续;五、全连接层假设还是上面人的脑袋的示例，现在我们已经通过卷积和池化提取到了这个人的眼睛、鼻子和嘴的特征，如果我想利用这些特征来识别这个图片是否是人的脑袋该怎么办呢？此时我们只需要将提取到的所有特征图进行“展平”，将其维度变为1×x1×x1×x，这个过程就是全连接的过程。也就是说，此步我们将所有的特征都展开并进行运算，最后会得到一个概率值，这个概率值就是输入图片是否是人的概率，这个过程
【图像压缩】奇异值分解SVD灰色图像压缩（可设置压缩比）【含Matlab源码 4358期】 Matlab武动乾坤 Matlab图像处理（进阶版）matlab
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab仿真内容点击Matlab图像处理（进阶版）路径规划（Matlab）神经网络预测与分类（Matlab）优化求解（Matlab）语音处理（Matlab）信号处理（Matlab）车间调度
TextCNN：文本卷积神经网络模型一只天蝎编程语言---Python cnn 深度学习机器学习
目录什么是TextCNN定义TextCNN类初始化一个model实例输出model什么是TextCNNTextCNN（TextConvolutionalNeuralNetwork）是一种用于处理文本数据的卷积神经网（CNN）。通过在文本数据上应用卷积操作来提取局部特征，这些特征可以捕捉到文本中的局部模式，如n-gram（连续的n个单词或字符）。定义TextCNN类importtorch.nnasn
基于VGG的猫狗识别卑微小鹿 tensorflow tensorflow
由于猫和狗的数据在这里，所以就做了一下分类的神经网络1、首先进行图像处理：importcsvimportglobimportosimportrandomos.environ['TF_CPP_MIN_LOG_LEVEL']='2'importtensorflowastffromtensorflowimportkerasfromtensorflow.kerasimportlayersimportnum
机器学习到底是个啥旷_9b08
机器学习是装逼神器？曾几何时，当我还在本科打dota玩屁股的时候，身边总有一帮大神。听他们谈话我的心情是。。。大佬中有各路高手前端、后段、java三大架构。。。但最令本渣一听到就仰慕甚至肃然起敬的是当听到卷积神经网络的时候。顿时就有种掉线三十分钟别人都是六神装的感觉。另外，班会上别班小哥用说用机器学习把图片转换成梵高风格时自己班妹纸那一声声尖叫怕是很难忘掉了。。。好在家里爸妈给了次重新做人的机会，
入门篇，带你了解CPU, GPU, TPU, NPU, DPU 今夕是何年，视觉算法部署深度学习算法人工智能
目录CPU(中央处理器)GPU(图形处理器)TPU(张量处理单元)NPU(神经网络处理器)DPU(数据处理器)CPU(中央处理器)专业介绍：CPU是计算机系统的核心，负责执行操作系统和应用程序的指令。它由多个核心组成，每个核心可以独立执行任务。CPU的设计重点是处理复杂的逻辑运算和顺序任务，如分支预测、指令调度等。现代CPU通常包含多个层级的缓存（如L1、L2和L3缓存），以减少访问主存储器的延迟
深度学习之基于Tensorflow卷积神经网络水果蔬菜分类识别系统 qq1744828575 python python plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景与目标背景：在现代农业、智能零售等领域，自动化分类与识别技术对于提高效率、优化供应链管理具有重要意义。为了响应这一需求，本项目旨在构建一个基于深度学习技术的水果蔬菜分类识别系统。目标：构建一个准确率高、性能稳定的水果蔬菜分类识别模型，利用Tensorflow框架
【深度学习实战】使用深度学习模型可视化工具——Netron在线可视化深度学习神经网络量子-Alex 深度学习神经网络人工智能
一直以来，对于深度学习领域的开发者，可视化模型都是非常迫切的需求，今天主要介绍一款可视化工具——NetronNetron有三种使用方式：在线、本地安装、pip安装今天在这里只介绍在线使用这种方式。Netron有个官方的网站：Netron点击进去是这样的一个界面我们可以点击openmodel从本地选择一个预训练模型可以看到这里就显示出来了
PHP中使用grpc服务的教程详解 Oona_01 php android 开发语言
这篇文章主要为大家详细介绍了PHP中使用grpc服务的教程相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下grpc是通过定义服务端和客户端的代码来实现的通信的。但是要实现通信，还是要将其方法包装为一个http请求，除非你把grpc的服务端代码放在本地的端口上。grpc是面对微服务框架而风生水起的，上次我用python编写了一个图神经网络处理的微服务，使用grpc放在我的服务
每天五分钟玩转深度学习框架PyTorch：获取神经网络模型的参数幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 神经网络人工智能模型参数 python
本文重点当我们定义好神经网络之后，这个网络是由多个网络层构成的，每层都有参数，我们如何才能获取到这些参数呢？我们将再下面介绍几个方法来获取神经网络的模型参数，此文我们是为了学习第6步（优化器）。获取所有参数Parametersfromtorchimportnnnet=nn.Sequential(nn.Linear(4,2),nn.Linear(2,2))print(list(net.paramet
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它