Paddle.nn.Conv2D以及在构建CNN卷积神经网络中的参数传递

        最近在学习深度学习,采用的是百度的飞桨平台。今天在搭建简单的CNN网络的过程中,对于卷积层,池化层以及全连接层之间的参数传递感到很困惑,查阅资料之后有了一点理解,写在CSDN中做个记录。

        在官网的paddle.nn.Conv2D的说明文档中提到:

        “输入和输出是NCHW或NHWC格式,其中N是批尺寸,C是通道数,H是特征高度,W是特征宽度。卷积核是MCHW格式,M是输出图像通道数,C是输入图像通道数,H是卷积核高度,W是卷积核宽度。”

        以下面的手写数字识别的CNN网络为例:

        self.conv1 = paddle.nn.Conv2D(in_channels=1, out_channels=6, kernel_size=5, stride=1, padding=2)
        self.max_pool1 = paddle.nn.MaxPool2D(kernel_size=2, stride=2)
        self.conv2 = paddle.nn.Conv2D(in_channels=6, out_channels=16, kernel_size=5, stride=1)
        self.max_pool2 = paddle.nn.MaxPool2D(kernel_size=2, stride=2)
        self.linear1 = paddle.nn.Linear(in_features=16*5*5, out_features=120)
        self.linear2 = paddle.nn.Linear(in_features=120, out_features=84)
        self.linear3 = paddle.nn.Linear(in_features=84, out_features=10)

首先在代码前段已经设置,每一批次是64,因此批尺寸N = 64。

对于第一层卷积层,因为采用的是二值化的图片,所以输入通道数in_channels = 1,如果是RGB图片,那么通道数应该是3,对于输出通道数并没有明确的要求,一般按照经验设置。将卷积核的大小设置为5*5,步长为1,补0数为2。

在模型网络调用里加上print(x.size)之后能够查看每一层网络输入输出的情况。

分别对应第一层卷积层的输入,输出。第一层池化层的输出,第二层卷积输出,第二层池化的输出,第一层全连接层的输入。

[64, 1, 28, 28]
[64, 6, 28, 28]
[64, 6, 14, 14]
[64, 16, 10, 10]
[64, 16, 5, 5]
[64, 400]

卷积层输出的尺寸确定

可见格式是NCHW,批尺寸是64,第一层的输入通道数是1,输出通道数6,输入的图片尺寸是28*28,那么对于有补0之后的卷积层计算公式,输出的尺寸应该是:输入尺寸 + 2 * 补0值 - (kernel_size - 1),对于第一层卷积层便是28 + 2*2 - (5 - 1)= 28,因此对应的输出尺寸也是28,对于第二层卷积层同样如此,能够验证输出尺寸是 10 * 10。

池化层输出的尺寸确定

而对于池化层,池化核大小为2*2,步长为2,因此池化层的输出是输入的一半

对于全连接第一层的输入确定

因为采用的是linear线性全连接层,那么对于输入应该是展开成一维的向量,那对于最后一层池化层的输出,输出为16个通道,尺寸为5*5,展开成一维之后便是16*5*5,如此第一层池化层的输入确定。

全连接层之间的输出尺寸

[64, 400]
[64, 120]
[64, 84]
[64, 10]

首先对于第一层全连接层是输入尺寸是400,而其对应的输出是120。而当我们将全连接层第一层的输出尺寸更改之后

        self.linear1 = paddle.nn.Linear(in_features=16*5*5, out_features=100)
        self.linear2 = paddle.nn.Linear(in_features=100, out_features=84)

此时的尺寸:

[64, 400]
[64, 100]
[64, 84]
[64, 10]

可见对于网络并没有影响,因此对于全连接层的输入输出参数,只有第一层全连接层的参数是需要依据前面卷积层和池化层的结果来确定的。

你可能感兴趣的:(paddlepaddle)