memcpy0

【机器学习】基于Pytorch和GoogleNet的海面舰船图像分类

文章目录

基于Pytorch和GoogleNet的海面舰船图像分类
- 1. 问题概述
- 2. 实验环境、依赖库与代码结构
- 3. GoogleNet网络架构
- - 3.1 Inception结构
  - 3.2 辅助分类器
- 4. GoogleNet网络特征提取说明
- - 4.1 低层特征提取
  - 4.2 Inception特征提取
  - 4.3 分类器特征提取
- 5. 具体参数设计
- 6. 实际代码说明
- 7. 网络训练结果分析

基于Pytorch和GoogleNet的海面舰船图像分类

1. 问题概述

为了训练得到一个能够对海面船舶数据集进行二分类的网络模型（类别为：船舶/非船舶，数据集包括3000张海面图片和1000张舰船图片），我们有以下步骤：

整理数据集，按照要求更改数据格式；
对数据集进行合理的训练集/测试集划分；
编写、部署并调试好网络模型代码；
使用训练代码在训练集上训练模型，观察训练损失直到训练收敛；
训练完毕后，使用训练好的模型在测试集上测试网络性能；
分析测试结果。

2. 实验环境、依赖库与代码结构

由于本机不足以用作训练环境，为了完成模型的训练，我们在本地编写代码，并移植到Kaggle Kernel进行运行。实验使用Pytorch框架，依赖库名称、版本、功能如下所示：

依赖库名称	依赖库版本	依赖库功能
`torch`	1.6.0	在GPU上计算张量
`torchvision`	0.7.0	包含流行的数据集,模型结构和常用的图片转换工具
`tqdm`	4.63.0	用于显示进度，创建、关闭进度条
`Pillow`	8.4.0	包含图像的基本处理函数
`Matplotlib`	8.1	绘制图片

本地代码结构如下所示：

data 文件夹：sea 和 ship 文件夹用于存储原始数据，以及存储划分好的训练集（train 文件夹）/测试集（val 文件夹）数据；
data_processor.py ：对原始数据进行训练集/测试集划分；
googlenet_model.py ：定义了GoogleNet网络具体结构的代码；
train.py ：用于训练网络的代码，计算 loss 和 accuracy ，保存训练好的网络参数；
test.py ：用于测试网络性能、计算模型分类指标；
predict.py ：用自己的数据集进行分类测试
draw.py ：用于绘制损失函数曲线和准确度曲线；`

3. GoogleNet网络架构

GoogLeNet在2014年由Google团队提出，斩获当年ImageNet(ILSVRC14)竞赛中Classification Task（分类任务）第一名，VGG获得了第二名。为了向“LeNet”致敬，因此取名为“GoogLeNet”。

GoogLeNet做了更加大胆的网络结构尝试，虽然深度只有22层，但大小却比AlexNet和VGG小很多。GoogleNet参数为500万个，AlexNet参数个数是GoogleNet的12倍，VGGNet参数又是AlexNet的3倍，因此在内存或计算资源有限时，GoogleNet是比较好的选择。而从模型结果来看，GoogLeNet的性能也更为优越。

GoogLeNet 总共有22层，由9个Inception v1模块、多个池化层以及其他一些卷积层和全连接层构成。该网络有3个输出层，其中的两个是辅助分类层，如下图所示：

GoogleNet的创新点在于：

采用了模块化的设计，方便层的添加与修改；
使用1x1的卷积核进行降维以及映射处理；
引入了Inception结构（融合不同尺度的特征信息）；
部分丢弃全连接层，使用平均池化 average pooling 层，大大减少模型参数；
为了避免梯度消失，网络额外增加了2个辅助的 softmax 用于向前传导梯度（辅助分类器）。辅助分类器是将中间某一层的输出用作分类，并按一个较小的权重 $0.3$ 加到最终分类结果中，这样相当于做了模型融合，同时给网络增加了反向传播的梯度信号，也提供了额外的正则化，对于整个网络的训练很有裨益。在实际测试的时候，这两个额外的 softmax 会被去掉。

由于GoogLeNet的网络较深，因此将其网络结构按照模块进行划分进行分析。其结构由基础卷积结构、Inception结构、辅助分类器三个子结构构成。其中基础卷积结构由一个卷积层和一个ReLU激活函数组成。

3.1 Inception结构

GoogLeNet提出了一种并联结构——Inception网络结构。其主要思想是寻找密集成分来近似最优局部稀疏连接，通过构造一种“基础神经元”结构来搭建一个稀疏性、高计算性能的网络结构。论文中提出的inception v1结构如下图——Inception结构由4个分支组成，包括4个1x1基础卷积结构，1个3x3基础卷积结构，1个5x5基础卷积结构和1个最大池化层：

由四条并行路径组成的Inception块，可以融合不同尺度的特征信息——前三条路径使用窗口大小为1×1、3×3和5×5的卷积层，从不同空间大小中提取信息。中间的两条路径在输入上执行1×1卷积，以减少通道数、减少模型训练参数，从而降低模型的复杂性。第四条路径使用3×3最大池化层，然后使用1×1卷积层来改变通道数。这四条路径都使用合适的填充来使输入与输出的高和宽一致，以保证输出特征能在通道 channel 维度上进行拼接。最后将每条线路的输出在通道维度上连结，并构成Inception块的输出。Inception块的通道数分配之比，是在 ImageNet 数据集上通过大量的实验得来的。

可以总结出Inception结构与传统多通道卷积的不同之处：

使用了多个不同尺寸的卷积核，添加池化操作，将卷积和池化结果进行串联。
卷积之前有1×1的卷积操作，池化之后有1×1的卷积操作。1×1 的卷积操作将传统的线性模型变成非线性模型，将高相关性节点组合到了一起，具有更强的表达能力，同时减少了卷积参数个数。

每个分支的卷积核大小、stride和padding如下表所示：

卷积名称	kernel	size	stride	padding
1 × 1	convolutions	1 × 1	1	1
3 × 3	convolutions	3 × 3	1	1
5 × 5	convolutions	5 × 5	1	2
3 × 3	max pooling	3 × 3	1	1

3.2 辅助分类器

根据实验数据，研究员发现神经网络的中间层具有很强的识别能力，为了利用中间层抽象的特征，可在某些中间层中添加含有多层的分类器。GoogLeNet网络结构中有深层和浅层2个分类器，两个辅助分类器结构是一模一样的，输入分别来自Inception(4a)和Inception(4d)。其组成如下图所示—— 辅助分类器的第一层是一个平均池化下采样层，池化核大小为5x5，stride=3；第二层是基础卷积结构，卷积核大小为1x1，stride=1，卷积核个数是128；第三层是全连接层，节点个数是1024；第四层是全连接层，节点个数是1000（对应分类的类别个数）。

辅助分类器的具体参数如下所示。平均池化层和卷积层的参数如下表所示：

kernel	size	stride	padding
convolutions	5 × 5	3	0
convolutions	1 × 1	1	0
全连接层的参数如下表所示：

层次名称	输入特征数目	输出特征数目
FC1	2048	1024
FC2	1024	1000

在模型训练时的损失函数按照 $L_0 + 0.3 \times L_1 + 0.3 \times L_2$ 计算，其中 $L_0$ 是最后的分类损失。在测试阶段则去掉辅助分类器，只记最终的分类损失。

4. GoogleNet网络特征提取说明

4.1 低层特征提取

低层的特征提取需要分别经过3个基础卷积结构，2个最大池化层，2个LPN结构。其中LPN为局部响应归一化操作，增强了模型的泛化能力，在这里不做分析。低层结构：

假设在经过初始化操作后，输入图片的尺寸为(channel)3x(height)224x(weight)224。经过上图的层次结构，图片的大小变化如下。

conv1 ：输入 $3\times 224\times 224$ 的图片，经过64个 $7\times 7$ 的基础卷积结构以 stride=2, padding=3 进行卷积计算，得到输出图片大小为 $64\times 112\times 112$ 。
maxpool1 ：输入图片大小为 $64\times 112\times 112$ ，经 $3\times 3$ 的池化单元，以 stride=2 进行池化运算得到输出图片大小为 $64\times 56\times 56$ 。
conv2 ：输入 $64\times 56\times 56$ 的图片，经过64个 $1\times 1$ 的基础卷积结构以 stride=1 进行卷积计算，得到输出图片大小为 $64\times 56\times 56$ 。
conv3 ：输入 $64\times 56\times 56$ 的图片，经过192个 $3\times 3$ 的基础卷积结构以 stride=1, padding=1 进行卷积计算，得到输出图片大小为 $192\times 56\times 56$ 。
maxpool2 ：输入图片大小为 $192\times 56\times 56$ ，经 $3\times 3$ 的池化单元，以 stride=2 进行池化运算，得到输出图片大小为 $192\times 28\times 28$ 。

4.2 Inception特征提取

在Inception特征提取中，包括9个Inception结构，两个最大池化结构。Inception结构的卷积核的大小、stride、padding参数是固定的，因此在分析网络结构时，根据卷积计算公式以及参数，可以计算输入图片通道、高、宽的变化情况。

根据论文 Going Deeper with Convolutions 中GoogLeNet的Inception结构基础卷积结构参数表，可以得知9个Inception结构的具体卷积核数目如表：

层次名称	1×1	3×3	3×3 reduce	5×5	5×5 reduce	pool proj
Inception3a	64	96	128	16	32	32
Inception3b	128	128	192	32	96	64
Inception4a	192	96	208	16	48	64
Inception4b	160	112	224	24	64	64
Inception4c	128	128	256	24	64	64
Inception4d	112	144	288	32	64	64
Inception4e	256	160	320	32	128	128
Inception5a	256	160	320	32	128	128
Inception5b	384	192	384	48	128	128

Inception3：输入 $192\times 28\times 28$ 的图片，经过Inception3a卷积计算后得到 $256\times 28\times 28$ 的图片，然后经过Inception3b卷积计算后得到输出图片大小为 $480\times 28\times 28$ 。
maxpool3：输入图片大小为 $480\times 28\times 28$ ，经 $3\times 3$ 的池化单元，以 stride=2 进行池化运算得到输出图片大小为 $480\times 14\times 14$ 。
Inception4：输入图片大小为 $480\times 14\times 14$ ，分别经过Inception4a，4b，4c，4d，4e后得到输出图片大小为 $832\times 14\times 14$ 。具体图片变换如下所示：
maxpool4：输入图片大小为 $832\times 14\times 14$ ，经 $3\times 3$ 的池化单元，以 stride=2 进行池化运算得到输出图片大小为 $832\times 7\times 7$ 。
Inception5：输入 $832\times 7\times 7$ 的图片，经过Inception5a卷积计算后得到 $832\times 7\times 7$ 的图片，然后经过Inception5b卷积计算后得到输出图片大小为 $1024\times 7\times 7$ 。

4.3 分类器特征提取

GoogLeNet网络的分类器共有三个：2个辅助分类器和1个最终分类器。最终分类器由一个平均池化下采样层和一个全连接层组成。图片变换过程如下：

avgpool1：输入图片大小为 $1024\times 7\times 7$ ，经 $7\times 7$ 的池化单元，以 stride=1 进行池化运算，得到输出图片大小为 $1024\times 1\times 1$ 。然后将图片的特征向量进行展平操作，经过 dropout 结构使40%的神经元失活。
fc1：输入图片大小为 $1024\times 1\times 1$ ，经过一层全连接结构，然后将结果通过 softmax 结构，输出指定要求的预测结果数目。

5. 具体参数设计

对于GoogLeNet网络，首先设定其通用参数。总样本数为4000，训练集和测试集比例为3:1，划分训练集/测试集从原始数据集中采样时，必须保证随机从各个类别的数据中采样。批大小 batch_size（网络一次学习并计算损失的样本数量）一般设置在4~32之间，这里取32。

为对比不同参数下的GoogLeNet神经网络分类性能，对epoch数量（相当于不断迭代训练的回合数），学习率（梯度学习中的一个重要优化参数）进行调整，其参数如表所示。这里使用的是Adam优化器
，一种基于梯度优化方法的网络学习策略。

模型序号	学习率	优化器	Epoch
GoogLeNet_v1	0.0003	Adam	15
GoogLeNet_v2	0.003	Adam	30
GoogLeNet_v3	0.001	Adam	50

6. 实际代码说明

根据上文描述的GoogleNet网络架构和参数说明，googlenet_model.py 实现了GoogleNet网络：

# -*- coding: utf-8 -*-
import torch
import torch.nn as nn
import torch.nn.functional as F

#  基础卷积层Conv2d+ReLu
class BasicConv2d(nn.Module):
    # init: c进行初始化，申明模型中各层的定义
    def __init__(self, in_channels, out_channels, **kwargs):
        super(BasicConv2d, self).__init__()
        self.conv2d = nn.Conv2d(in_channels=in_channels, out_channels=out_channels, **kwargs)
        # ReLU(inplace=True): 将tensor直接修改，不找变量做中间的传递，节省运算内存，不用多存储额外的变量
        self.relu = nn.ReLU(inplace=True)

    # 前向传播过程
    def forward(self, x):
        x = self.conv2d(x)
        x = self.relu(x)
        return x

# Inception结构
class Inception(nn.Module):
    def __init__(self, in_channels, ch1_1, ch3_3red, ch3_3, ch5_5red, ch5_5, pool_pro):
        super(Inception, self).__init__() # 1_1 => 1x1
        # 分支1，单1x1卷积层
        # input:[in_channels,height,weight],output:[ch1_1,height,weight]
        self.branch1 = BasicConv2d(in_channels=in_channels, out_channels=ch1_1, kernel_size=1, stride=1)
        # input:[in_channels,height,weight],output:[ch3_3,height,weight]
        # 分支2，1x1卷积层后接3x3卷积层
        self.branch2 = nn.Sequential(
            # input:[in_channels,height,weight],output:[ch3_3red,height,weight]
            BasicConv2d(in_channels=in_channels, out_channels=ch3_3red, kernel_size=1, stride=1),
            # input:[ch3_3red,height,weight],output:[ch3_3,height,weight]
            # 保证输出大小等于输入大小
            BasicConv2d(in_channels=ch3_3red, out_channels=ch3_3, kernel_size=3, stride=1, padding=1), # 保证输出大小等于输入大小
        )
        # 分支3，1x1卷积层后接5x5卷积层
        self.branch3 = nn.Sequential(
            # input:[in_channels,height,weight],output:[ch5_5red,height,weight]
            BasicConv2d(in_channels=in_channels, out_channels=ch5_5red, kernel_size=1, stride=1),
            # 在官方实现中是3x3kernel并不是5x5，具体参考issue——https://github.com/pytorch/vision/issues/906.
            # input:[ch5_5red,height,weight],output:[ch5_5,height,weight]
            # 保证输出大小等于输入大小
            BasicConv2d(in_channels=ch5_5red, out_channels=ch5_5, kernel_size=5, stride=1, padding=2), # 保证输出大小等于输入大小
        )
        # 分支4，3x3最大池化层后接1x1卷积层
        self.branch4 = nn.Sequential(
            # input:[in_channels,height,weight],output:[in_channels,height,weight]
            nn.MaxPool2d(kernel_size=3, stride=1, padding=1),
            # input:[in_channels,height,weight],output:[pool_pro,height,weight]
            BasicConv2d(in_channels=in_channels, out_channels=pool_pro, kernel_size=1, stride=1),
        )
    # forward: 定义前向传播过程,描述了各层之间的连接关系
    def forward(self, x):
        output1 = self.branch1(x)
        output2 = self.branch2(x)
        output3 = self.branch3(x)
        output4 = self.branch4(x)
        # 在通道维上连结输出
        # cat()在给定维度上对输入的张量序列进行连接操作
        return torch.cat([output1, output2, output3, output4], dim=1)

# 辅助分类器: 4e和4a输出
class InceptionAux(nn.Module):
    def __init__(self, in_channels, class_num=1000):
        super(InceptionAux, self).__init__()
        # 4a:input:[512,14,14];output:[512,4,4]
        self.averagePool = nn.AvgPool2d(kernel_size=5, stride=3)
        # 4a:input:[512,4,4];output:[128,4,4]
        self.conv2d = BasicConv2d(in_channels=in_channels, out_channels=128, kernel_size=1)
        # 上一层output[batch, 128, 4, 4]，128X4X4=2048
        self.fc1 = nn.Linear(in_features=2048, out_features=1024)
        self.fc2 = nn.Linear(in_features=1024, out_features=class_num)

    # 前向传播过程
    def forward(self, x):
        # 输入：分类器1：Nx512x14x14，分类器2：Nx528x14x14
        x = self.averagePool(x)
        # 输入：分类器1：Nx512x14x14，分类器2：Nx528x14x14
        x = self.conv2d(x)
        # 输入：N x 128 x 4 x 4
        x = torch.flatten(x, 1)
        # 设置.train()时为训练模式，self.training=True
        x = F.dropout(x, p=0.5, training=self.training)
        # 输入：N x 2048
        x = self.fc1(x)
        x = F.relu(x, inplace=True)
        x = F.dropout(x, p=0.5, training=self.training)
        # 输入：N x 1024
        x = self.fc2(x)
        # 返回值：N*num_classes
        return x

# 定义GoogLeNet网络模型
class GoogLenet(nn.Module):
    # init: 进行初始化，申明模型中各层的定义
    # num_classes: 需要分类的类别个数
    # aux_logits: 训练过程是否使用辅助分类器
    # init_weights: 是否对网络进行权重初始化
    def __init__(self, num_classes=1000, aux_logits=True, init_weights=False):
        super(GoogLenet, self).__init__()
        # 是否选择辅助分类器
        self.aux_logits = aux_logits
        # 构建网络
        # input:[3,224,224],output:[64,112,112],padding自动忽略小数
        self.conv1 = BasicConv2d(in_channels=3, out_channels=64, kernel_size=7, stride=2, padding=3)
        # input:[64,112,112],output:[64,56,56](55.5->56)
        # ceil_mode=true时，将不够池化的数据自动补足NAN至kernel_size大小
        self.maxpool1 = nn.MaxPool2d(kernel_size=3, stride=2, ceil_mode=True)

        # input:[64,56,56],output:[64,56,56]
        self.conv2 = BasicConv2d(in_channels=64, out_channels=64, kernel_size=1, stride=1)
        # input:[192,56,56],output:[192,56,56]
        self.conv3 = BasicConv2d(in_channels=64, out_channels=192, kernel_size=3, stride=1, padding=1)

        # input:[192,56,56],output:[192,28,28](27.5->28)
        self.maxpool2 = nn.MaxPool2d(kernel_size=3, stride=2, ceil_mode=True)

        # input:[192,28,28],output:[256,28,28]
        self.inception3a = Inception(192, 64, 96, 128, 16, 32, 32)
        # input:[256,28,28],output:[480,28,28]
        self.inception3b = Inception(256, 128, 128, 192, 32, 96, 64)

        # input:[480,28,28],output:[480,14,14]
        self.maxpool3 = nn.MaxPool2d(kernel_size=3, stride=2, ceil_mode=True)
        # input:[480,14,14],output:[512,14,14]
        self.inception4a = Inception(480, 192, 96, 208, 16, 48, 64)
        # input:[512,14,14],output:[512,14,14]
        self.inception4b = Inception(512, 160, 112, 224, 24, 64, 64)
        # input:[512,14,14],output:[512,14,14]
        self.inception4c = Inception(512, 128, 128, 256, 24, 64, 64)
        # input:[512,14,14],output:[528,14,14]
        self.inception4d = Inception(512, 112, 144, 288, 32, 64, 64)
        # input:[528,14,14],output:[832,14,14]
        self.inception4e = Inception(528, 256, 160, 320, 32, 128, 128)

        # input:[832,14,14],output:[832,7,7]
        self.maxpool4 = nn.MaxPool2d(kernel_size=3, stride=2, ceil_mode=True)
        # input:[832,7,7],output:[832,7,7]
        self.inception5a = Inception(832, 256, 160, 320, 32, 128, 128)
        # input:[832,7,7],output:[1024,7,7]
        self.inception5b = Inception(832, 384, 192, 384, 48, 128, 128)

        # 如果为真，则使用辅助分类器
        if self.aux_logits:
            self.aux1 = InceptionAux(512, class_num=num_classes) # 4a输出
            self.aux2 = InceptionAux(528, class_num=num_classes) # 4d输出

        # AdaptiveAvgPool2d：自适应平均池化，指定输出（H，W）
        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
        self.dropout = nn.Dropout(0.4)
        self.fc1 = nn.Linear(in_features=1024, out_features=num_classes)
        # 如果为真，则对网络参数进行初始化
        if init_weights:
            self._initialize_weights()

    # forward() 定义前向传播过程,描述各层之间的连接关系
    def forward(self, x):
        # N x 3 x 224 x 224
        x = self.conv1(x)
        # N x 64 x 112 x 112
        x = self.maxpool1(x)
        # N x 64 x 56 x 56
        x = self.conv2(x)
        # N x 64 x 56 x 56
        x = self.conv3(x)
        # N x 192 x 56 x 56
        x = self.maxpool2(x)

        # N x 192 x 28 x 28
        x = self.inception3a(x)
        # N x 256 x 28 x 28
        x = self.inception3b(x)
        # N x 480 x 28 x 28
        x = self.maxpool3(x)
        # N x 480 x 14 x 14
        x = self.inception4a(x)
        # N x 512 x 14 x 14
        # 若存在辅助分类器
        if self.training and self.aux_logits: # eval model lose this layer
            aux1 = self.aux1(x)

        x = self.inception4b(x)
        # N x 512 x 14 x 14
        x = self.inception4c(x)
        # N x 512 x 14 x 14
        x = self.inception4d(x)
        # N x 528 x 14 x 14
        # 若存在辅助分类器
        if self.training and self.aux_logits: # eval model lose this layer
            aux2 = self.aux2(x)

        x = self.inception4e(x)
        # N x 832 x 14 x 14
        x = self.maxpool4(x)
        # N x 832 x 7 x 7
        x = self.inception5a(x)
        # N x 832 x 7 x 7
        x = self.inception5b(x)
        # N x 1024 x 7 x 7

        x = self.avgpool(x)
        # N x 1024 x 1 x 1
        x = torch.flatten(x, 1)
        # N x 1024
        x = F.dropout(x, p=0.4)
        x = self.fc1(x)
        # N x 1000 (num_classes)
        if self.aux_logits and self.training:
            return x, aux2, aux1
        return x

    # 网络结构参数初始化
    def _initialize_weights(self):
        # 遍历网络中的每一层
        for m in self.modules():
            # isinstance(object, type)，如果指定的对象拥有指定的类型，则isinstance()函数返回True
            # 如果是卷积层
            if isinstance(m, nn.Conv2d):
                # Kaiming正态分布方式的权重初始化
                nn.init.kaiming_normal_(m.weight, mode="fan_out", nonlinearity="relu")
                # 如果偏置不是0，将偏置置成0，对偏置进行初始化
                if m.bias is not None:
                    # torch.nn.init.constant_(tensor, val)，初始化整个矩阵为常数val
                    nn.init.constant_(m.bias, 0)
            # 如果是全连接层
            elif isinstance(m, nn.Linear):
                # init.normal_(tensor, mean=0.0, std=1.0)，使用从正态分布中提取的值填充输入张量
                # 参数：tensor：一个n维Tensor，mean：正态分布的平均值，std：正态分布的标准差
                nn.init.uniform_(m.weight, 0, 0.01)
                nn.init.constant_(m.bias, 0)

dataset_processor.py 将数据集分为训练集（train文件夹）以及测试集（val文件夹）。这两个文件夹内部的图像依旧根据分类的不同，分为sea和ship两个文件夹，用于区别不同类型的数据。代码设计思路很简单：

获取船舶/非船舶类别中图像数据的总量；
每个类别的数据总量乘以0.8，即为该类别数据的训练数据量，剩下的数据均作为测试集；
根据以上获得的每个类别中训练集数量，随机从各个类别的数据中采样训练数据；
训练数据采样后，每个类中的剩下的数据即为测试集。将训练集和测试集单独存储起来；
新建存放训练集和测试集的文件夹，分别在这两个文件夹中再新建对应的类别文件夹；
将不同类别划分出来的训练集/测试集图像数据，分别复制到对应的文件夹中。

# -*- coding: utf-8 -*-
import os
import random
import shutil
from glob import glob
from pathlib import Path

# 这份代码用于将原始数据集进行划分，变为PyTorch接口可以直接使用的训练集和测试集
def processor(dataset_root: str, train_ratio: float = 0.8):
    """
    将原始数据集划分为训练集和测试集。在使用该函数前，需要保证所有的船舶分类图像数据已经存储在data目录下，
    并且按照类别分好类（data/sea/文件夹内有3000张非船舶图片，data/ship/文件夹内有1000张船舶图片）。

    划分数据集的结果是：data文件夹下新建两个文件夹，分别是train和val文件夹。这两个文件夹中都存放有sea和ship文件夹，
    理论上data/train/sea/中有2400张图片，data/train/ship/中有800张图片；
    同理，data/val/sea/中有600张图片，data/val/ship/中共有200张图片。

    :param dataset_root: data文件夹的路径.
    :param train_ratio: 训练集的占比。按照8:2划分数据集的话，这个参数应当设置为0.8.
    :return: None
    """
    # 确保所有输入的参数没有问题
    assert os.path.exists(dataset_root) and os.path.isdir(dataset_root), \
        'Invalid dataset root directory!'
    assert 0.5 < train_ratio < 1, 'Invalid trainset ratio!'

    # 获取所有的正负样本。正样本即船舶图像，负样本即非船舶图像
    neg_samples = glob(os.path.join(dataset_root, 'sea/*.png'), recursive=False)  # 获取所有负样本的相对路径
    random.shuffle(neg_samples)  # 打乱读取的负样本的顺序，增加随机性
    pos_samples = glob(os.path.join(dataset_root, 'ship/*.png'), recursive=False)  # 获取所有正样本的相对路径
    random.shuffle(pos_samples)  # 打乱读取的正样本的顺序，增加随机性
    num_neg_samples = len(neg_samples)  # 获取正负样本的数量
    num_pos_samples = len(pos_samples)
    # print(num_neg_samples, num_pos_samples) # 3000 1000

    # 根据训练集的比例，计算从负样本中抽取的、作为训练集的负样本数量
    # 根据这个数量，随机从负样本中采样作为训练集，然后剩余样本作为负样本的测试集
    num_neg_training_samples = round(num_neg_samples * train_ratio)  # 计算负样本用于训练的样本数量
    neg_training_samples = random.sample(neg_samples, num_neg_training_samples)  # 对负样本训练集进行随机采样
    neg_testing_samples = [x for x in neg_samples if x not in neg_training_samples]  # 剩下的负样本作为测试集

    # 同理对正样本做训练集和测试集的采样
    num_pos_training_samples = round(num_pos_samples * train_ratio)
    pos_training_samples = random.sample(pos_samples, num_pos_training_samples)
    pos_testing_samples = [x for x in pos_samples if x not in pos_training_samples]

    # 完成正负样本的训练集测试集采样后，我们需要将原始没有划分好的数据组织为一个划分好的结构
    # 首先组织训练集
    train_dir = os.path.join(dataset_root, 'train/')  # 在data文件夹下新建一个train文件夹
    if os.path.exists(train_dir):  # 保证这个文件夹是空的
        shutil.rmtree(train_dir)
    os.makedirs(os.path.join(train_dir, 'sea/'))  # 在train文件夹下新建两个代表不同类别的文件夹，用于存储两类图像数据
    os.makedirs(os.path.join(train_dir, 'ship/'))
    for neg_train_sample in neg_training_samples:  # 将非船舶类别的训练图像数据复制到训练集中的sea文件夹中
        shutil.copyfile(
            src=neg_train_sample,
            dst=os.path.join(dataset_root, f'train/sea/{Path(neg_train_sample).name}')
        )
    for pos_train_sample in pos_training_samples:  # 将船舶类别的训练图像数据复制到训练集中的ship文件夹中
         shutil.copyfile(
            src=pos_train_sample,
            dst=os.path.join(dataset_root, f'train/ship/{Path(pos_train_sample).name}')
        )

    # 完成对训练集的组织后，组织测试集
    test_dir = os.path.join(dataset_root, 'val/')  # 同样在data文件夹下新建一个val文件夹，用于存储测试集数据
    if os.path.exists(test_dir):  # 确保文件夹为空
        shutil.rmtree(test_dir)
    os.makedirs(os.path.join(test_dir, 'sea/'))  # 同样代表两个类的文件夹
    os.makedirs(os.path.join(test_dir, 'ship/'))
    for neg_test_sample in neg_testing_samples:
        shutil.copyfile(
            src=neg_test_sample,
            dst = os.path.join(dataset_root, f'val/sea/{Path(neg_test_sample).name}')
        )
    for pos_test_sample in pos_testing_samples:
        shutil.copyfile(
            src=pos_test_sample,
            dst=os.path.join(dataset_root, f'val/ship/{Path(pos_test_sample).name}')
        )
    # 数据集的划分任务即完成

if __name__ == "__main__":
    processor(dataset_root='data/')

train.py 是训练代码，训练代码主要由以下几部分组成：

加载组织好的训练数据
建立网络模型
初始化训练必要的优化器、损失函数和迭代器
根据迭代设计训练网络，保存网络权重文件

# -*- coding: utf-8 -*-
import os
import sys
import json
import torch
import torch.nn as nn
from torchvision import transforms, datasets
from torch import optim
from torch.utils.data import DataLoader
from tqdm import tqdm
from googlenet_model import GoogLenet, InceptionAux

# 设置gpu训练模型
# 如果有NVIDA显卡，转到GPU训练，否则用CPU
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
# print("using {} device.".format(device))
# 数据预处理
trans_dic = {
    # Compose()：将多个transforms的操作整合在一起
    # 训练
    "train": transforms.Compose([
        # RandomResizedCrop(224)：将给定图像随机裁剪为不同的大小和宽高比，然后缩放所裁剪得到的图像为给定大小
        transforms.RandomResizedCrop(224),
        # RandomVerticalFlip()：以0.5的概率竖直翻转给定的PIL图像
        transforms.RandomHorizontalFlip(),
        # ToTensor()：数据转化为Tensor格式
        transforms.ToTensor(),
        # Normalize()：将图像的像素值归一化到[-1,1]之间，使模型更容易收敛
        transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
    ]),
    # 验证
    "val": transforms.Compose([
        transforms.Resize((224, 224)),
        transforms.ToTensor(),
        transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
    ])
}

# 读取数据
# 加载训练数据集
# ImageFolder：假设所有的文件按文件夹保存，每个文件夹下存储同一个类别的图片，文件夹名为类名，其构造函数如下：
# ImageFolder(root, transform=None, target_transform=None, loader=default_loader)
# root：在指定路径下寻找图片，transform：对PILImage进行的转换操作，输入是使用loader读取的图片
train_set = datasets.ImageFolder(
    root=r"/kaggle/input/seashiptrainandtest/data/train",
    transform=trans_dic["train"])
# 训练集长度
train_num = len(train_set)
# 一次训练载入32张图像
batch_size = 32
# 确定进程数
# min() 返回给定参数的最小值，参数可以为序列
# cpu_count() 返回一个整数值，表示系统中的CPU数量，如果不确定CPU的数量，则不返回任何内容
nw = min([os.cpu_count(), batch_size if batch_size > 1 else 0, 8])  # number of workers
print('Using {} dataloader workers every process'.format(nw))
# DataLoader 将读取的数据按照batch size大小封装给训练集
# dataset (Dataset) 输入的数据集
# batch_size (int, optional): 每个batch加载多少个样本，默认: 1
# shuffle (bool, optional): 设置为True时会在每个epoch重新打乱数据，默认: False
# num_workers(int, optional): 决定了有几个进程来处理，默认为0意味着所有的数据都会被load进主进程
train_loader = DataLoader(train_set, batch_size=batch_size, shuffle=True, num_workers=nw)

# 加载测试数据集
validate_set = datasets.ImageFolder(
    root=r"/kaggle/input/seashiptrainandtest/data/val",
    transform=trans_dic["val"])
# 测试集长度
validate_num = len(validate_set)
validate_loader = DataLoader(validate_set, batch_size=batch_size, shuffle=True, num_workers=nw)
print("using {} images for training, {} images for validation.".format(train_num, validate_num))

# 模型实例化，将模型转到device, 二分类
net = GoogLenet(num_classes=2, aux_logits=True, init_weights=True)
# model_weight_path = "/kaggle/working/googlenet-pre.pth"
# net.load_state_dict(torch.load(model_weight_path, map_location='cpu'), strict=False)
# net.fc1 = torch.nn.Linear(1024, 2)
# net.aux1 = InceptionAux(512, 2)
# net.aux2 = InceptionAux(528, 2)
net.to(device)
# 定义损失函数（交叉熵损失）
loss_function = nn.CrossEntropyLoss()
# 定义adam优化器
# params(iterable) 要训练的参数，一般传入的是model.parameters()
# lr(float): learning_rate学习率，也就是步长，默认：1e-3
# params = [p for p in net.parameters() if p.requires_grad]
optimizer = optim.Adam(net.parameters(), lr=0.0003)

# 用于判断最佳模型
best_acc = 0.0
# 迭代次数（训练次数）
epoches = 15
# 最佳模型保存地址
save_path = "/kaggle/working/googleNet1.pth"
train_step = len(train_loader)
loss_r, acc_r = [], []  # 记录训练时出现的损失以及分类准确度
# 开始训练
for epoch in range(epoches):
    net.train()
    running_loss = 0.0
    # tqdm 进度条显示
    train_bar = tqdm(train_loader, file=sys.stdout)
    # train_bar 传入数据（数据包括训练数据和标签）
    # enumerate() 将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在for循环当中
    # enumerate返回值: 一个是序号，一个是数据（包含训练数据和标签）
    # x: 训练数据（inputs）(tensor类型的）, y: 标签（labels）(tensor类型）
    for step, data in enumerate(train_bar):
        # 前向传播
        train_inputs, train_labels = data
        # 计算训练值
        train_outputs, aux_logits2, aux_logits1 = net(train_inputs.to(device))
        # GoogLeNet的网络输出loss有三个部分，分别是主干输出loss、两个辅助分类器输出loss（权重0.3）
        loss0 = loss_function(train_outputs, train_labels.to(device))
        loss1 = loss_function(aux_logits2, train_labels.to(device))
        loss2 = loss_function(aux_logits1, train_labels.to(device))
        loss = loss0 + loss1 * 0.3 + loss2 * 0.3

        # 反向传播
        # 清空过往梯度
        optimizer.zero_grad()
        # 反向传播，计算当前梯度
        loss.backward()
        # 根据梯度更新网络参数
        optimizer.step()
        # item()：得到元素张量的元素值
        running_loss += loss.item()

        # 进度条的前缀
        # .3f：表示浮点数的精度为3（小数位保留3位）
        train_bar.desc = "train epoch [{}/{}] loss:{:.3f}".format(epoch + 1, epoches, loss)

    loss_r.append(running_loss)  # 该损失数值会被保存起来
    # 测试
    # eval()：如果模型中Batch Normalization和Dropout，则不启用，以防改变权值
    net.eval()  # validate
    acc = 0.0
    # 清空历史梯度，与训练最大的区别是测试过程中取消了反向传播
    with torch.no_grad():
        test_bar = tqdm(validate_loader, file=sys.stdout)
        for data in test_bar:
            test_inputs, test_labels = data
            test_outputs = net(test_inputs.to(device))
            # torch.max(input, dim)函数
            # input是具体的tensor，dim是max函数索引的维度，0是每列的最大值，1是每行的最大值输出
            # 函数会返回两个tensor，第一个tensor是每行的最大值；第二个tensor是每行最大值的索引
            predict_y = torch.max(test_outputs, dim=1)[1]
            # 对两个张量Tensor进行逐元素的比较，若相同位置的两个元素相同，则返回True；若不同，返回False
            # .sum()对输入的tensor数据的某一维度求和
            acc += torch.eq(predict_y, test_labels.to(device)).sum().item()

        val_accurate = acc / validate_num
        if val_accurate > best_acc:
            best_acc = val_accurate
            torch.save(net.state_dict(), save_path)
        print("[epoch {}] train_loss:{:.3f}, val_accuracy:{:.3f} ".format(epoch + 1, running_loss / train_step, val_accurate))

    acc_r.append(val_accurate)  # 保存该准确度信息

with open('/kaggle/working/training_statistic_googlenet_v1.json', 'w+') as f:  # 保存训练过程的损失和准确度数据为一个json文件
    json.dump(dict(loss=loss_r, accuracy=acc_r), f, indent=4)

print("Finish training!")

predict.py 对一张图片进行预测：

# -*- coding: utf-8 -*-
import os
import json
import torch
from torchvision import transforms
from PIL import Image
import matplotlib.pyplot as plt
from googlenet_model import GoogLenet
# 定义可以使用的设备
# 如果有NVIDA显卡,转到GPU训练，否则用CPU
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
# 图像数据转换
# data_transform = transforms.Compose(
#     [transforms.Resize(256),
#      transforms.CenterCrop(224),
#      transforms.ToTensor(),
#      transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])])
data_transform = transforms.Compose(
    [transforms.Resize((224, 224)),
     transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

# 获取测试图像的路径
img_path = r"/kaggle/input/seashiptrainandtest/data/val/ship/ship__20170609_180756_103a__-122.33804952436104_37.737959994177224.png"
img = Image.open(img_path)
# imshow()对图像进行处理并显示其格式，show()则是将imshow()处理后的函数显示出来
plt.imshow(img)
# [C, H, W]，转换图像格式
img = data_transform(img) # [N, C, H, W]
# [N, C, H, W]，增加一个维度N
img = torch.unsqueeze(img, dim=0) # expand batch dimension

# class_indict = {"0": "sea", "1": "ship"}
# class_indict_reverse = {v: k for k, v in class_indict.items()}
class_indict = {"sea": '0', "ship": '1'}
class_indict_reverse = {v: k for k, v in class_indict.items()}

# 模型实例化，将模型转到device，结果类型有5种
# 实例化模型时不需要辅助分类器
model = GoogLenet(num_classes=2, aux_logits=False).to(device)
# 载入模型权重
weights_path = "/kaggle/working/googleNet2.pth"
# 在加载训练好的模型参数时，由于其中是包含有辅助分类器的，需要设置strict=False舍弃不需要的参数
missing_keys, unexpected_keys = model.load_state_dict(torch.load(weights_path, map_location=device), strict=False)
# 进入验证阶段
model.eval()
with torch.no_grad():
    # 预测类别
    # squeeze() 维度压缩，返回一个tensor（张量），其中input中大小为1的所有维都已删除
    output = torch.squeeze(model(img.to(device))).cpu()
    # softmax 归一化指数函数，将预测结果输入进行非负性和归一化处理，最后将某一维度值处理为0-1之内的分类概率
    predict = torch.softmax(output, dim=0)
    # argmax(input)返回指定维度最大值的序号
    # .numpy()把tensor转换成numpy的格式
    predict_class = torch.argmax(predict).numpy()

# 输出的预测值与真实值
print_res = "class: {}   prob: {:.3}".format(class_indict_reverse[str(predict_class)], predict[predict_class].numpy())
# 图片标题
plt.title(print_res)
for i in range(len(predict)):
    print("class: {:10}   prob: {:.3}".format(class_indict_reverse[str(i)], predict[i].numpy()))
plt.show()

test.py 对测试集的数据进行分类，并统计混淆矩阵的相关指标：

# -*- coding: utf-8 -*-
import os
import json
import torch
from PIL import Image
from torchvision import transforms
from glob import glob
from googlenet_model import GoogLenet, InceptionAux

# 定义可以使用的设备
# 如果有NVIDA显卡,转到GPU训练，否则用CPU
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
# 图像数据转换 
data_transform = transforms.Compose(
    [transforms.Resize((224, 224)),
     transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

# 获取存放测试图像的路径
test_paths = r"/kaggle/input/seashiptrainandtest/data/val/*/*.png"
# 通过库函数glob读取指定路径下所有符合匹配条件的文件（图片）
img_path_list = glob(test_paths, recursive=True)

class_indict = {"0": "sea", "1": "ship"}
class_indict_reverse = {v: k for k, v in class_indict.items()}
    
ground_truths = [int(class_indict_reverse[x.split('/')[-2]]) for x in img_path_list]

# 构建Googlenet模型
model = GoogLenet(num_classes=2, aux_logits=False)
model_weight_path = "/kaggle/working/googleNet2.pth"
model.load_state_dict(torch.load(model_weight_path, map_location='cpu'), strict=False)
model.fc1 = torch.nn.Linear(1024, 2)
model.aux1 = InceptionAux(512, 2)
model.aux2 = InceptionAux(528, 2)
model.to(device)
# 每次预测时将多少张图片打包成一个batch
batch_size = 32
# 统计整个测试过程中的TP/TN/FP/FN样本的总数
TPs, TNs, FPs, FNs = 0, 0, 0, 0

with torch.no_grad():  # PyTorch框架在验证网络性能时常用，无需像训练过程中记录网络的梯度数据
    for ids in range(0, round(len(img_path_list) / batch_size)):  # 根据批的划分情况，分批向网络传送数据
        # img_path_list中的元素只是图像的地址，下面将一批图像地址逐一读取为图像
        img_list = []
        # 由于是一次读取一批数据，所以可能存在批大小划分无法刚好划分完全部数据的情况，所以要放置下标越界的错误出现
        start = ids * batch_size
        end = -1 if (ids + 1) * batch_size >= len(img_path_list) else (ids + 1) * batch_size
        for img_path in img_path_list[start: end]:
            img = Image.open(img_path)
            img = data_transform(img)
            img_list.append(img)
        batch_ground_truths = ground_truths[start: end]  # 获取该批大小对应图片的类别序号
        # img_list内部即是一个批大小的图像数据，但是在输入网络之前我们需要将列表类型的数据转换为PyTorch支持的张量数据
        batch_img = torch.stack(img_list, dim=0)
        
        # 将数据输入网络，获得分类结果
        output = model(batch_img.to(device)).cpu()
        predict = torch.softmax(output, dim=1)
        # print(predict)
        
        probs, classes = torch.max(predict, dim=1)
        # 打印这一个批大小的数据的分类信息
        # for idx, (pro, cla) in enumerate(zip(probs, classes)):
        #    print("image: {}  class: {}  prob: {:.3}".format(img_path_list[ids * batch_size + idx],
        #                                                     class_indict[str(cla.numpy())],
        #                                                     pro.numpy()))
        batch_predicted_clses = classes.numpy().tolist()  # 对网络预测结果的变量类型做改变，变为列表

        # 计算该批下数据的TP/TN/FP/FN样本数量。如果符合条件的话，就向列表中添加一个1，然后计算整个列表的和值即为样本量
        TP = sum([1 for g, p in zip(batch_ground_truths, batch_predicted_clses) if g == p == 1])
        TN = sum([1 for g, p in zip(batch_ground_truths, batch_predicted_clses) if g == p == 0])
        FP = sum([1 for g, p in zip(batch_ground_truths, batch_predicted_clses) if g == 0 and p == 1])
        FN = sum([1 for g, p in zip(batch_ground_truths, batch_predicted_clses) if g == 1 and p == 0])

        # 一个批的预测结果加到总数上
        TPs += TP
        TNs += TN
        FPs += FP
        FNs += FN

# 根据定义，计算总数的各项指标
print("TPs: {} TNs: {} FPs: {} FNs: {}".format(TPs, TNs, FPs, FNs))
accuracy = (TNs + TPs) / len(img_path_list)
precision = TPs / (TPs + FPs)
recall = TPs / (TPs + FNs)
f1 = 2 * precision * recall / (precision + recall)
print(f'Overall performance:\n'
      f'Accuracy: {accuracy:.6f}, Precision: {precision:.6f}, Recall: {recall:.6f}, F1: {f1:.6f}')

通过调整GoogLeNet网络的学习率和epoch，可以得到两个在海面舰船数据上的分类模型。draw.py 根据收集到的数据，绘制损失函数与验证集准确率随epoch的变化曲线。

# -*- coding: utf-8 -*-
import json
import matplotlib.pyplot as plt

loss_path1=r"/kaggle/working/training_statistic_googlenet_v1.json"
loss_path2=r"/kaggle/working/training_statistic_googlenet_v2.json"
loss_path3=r"/kaggle/working/training_statistic_googlenet_v3.json"
with open(loss_path1, 'r') as f:
    statistics1 = json.load(f)
with open(loss_path2, 'r') as f:
    statistics2 = json.load(f)
with open(loss_path3, 'r') as f:
    statistics3 = json.load(f)

loss1, accuracy1 = statistics1['loss'], statistics1['accuracy']
loss2, accuracy2 = statistics2['loss'], statistics2['accuracy']
loss3, accuracy3 = statistics3['loss'], statistics3['accuracy']

plt.figure(1)
plt.plot(range(len(loss1)), loss1, color="#F52A2A", linestyle="-", label="GoogLeNet_v1: adam+0.0003")
plt.plot(range(len(loss2)), loss2, color="#FFC000", linestyle="-", label="GoogLeNet_v2: adam+0.003")
plt.plot(range(len(loss3)), loss3, color="#FFC0F0", linestyle="-", label="GoogLeNet_v3: adam+0.001")
plt.legend()
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.title('Loss curve of training')
plt.savefig('train_loss_comparsion.png', dpi=600)
plt.show()
#
plt.figure(1)
plt.plot(range(len(accuracy1)), accuracy1, color="#F52A2A", linestyle="-", label="GoogLeNet_v1: adam+0.0003")
plt.plot(range(len(accuracy2)), accuracy2, color="#FFC000", linestyle="-", label="GoogLeNet_v2: adam+0.003")
plt.plot(range(len(accuracy3)), accuracy3, color="#FFC0F0", linestyle="-", label="GoogLeNet_v3: adam+0.001")
plt.legend()
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.title('Accuracy curve of training')
plt.savefig('train_accuracy.png', dpi=600)
plt.show()

7. 网络训练结果分析

Epoch为15，学习率为0.0003的训练结果如下。对应 googleNet1.pth 和 training_statistic_googlenet_v1.json ：

Using 4 dataloader workers every process
using 3200 images for training, 800 images for validation.
train epoch [1/15] loss:0.799: 100%|██████████| 100/100 [07:11<00:00,  4.31s/it]
100%|██████████| 25/25 [00:44<00:00,  1.77s/it]
[epoch 1] train_loss:1.043, val_accuracy:0.751 
train epoch [2/15] loss:0.402: 100%|██████████| 100/100 [07:13<00:00,  4.34s/it]
100%|██████████| 25/25 [00:44<00:00,  1.78s/it]
[epoch 2] train_loss:0.768, val_accuracy:0.838 
train epoch [3/15] loss:0.649: 100%|██████████| 100/100 [07:13<00:00,  4.34s/it]
100%|██████████| 25/25 [00:45<00:00,  1.83s/it]
[epoch 3] train_loss:0.653, val_accuracy:0.762 
train epoch [4/15] loss:0.346: 100%|██████████| 100/100 [07:17<00:00,  4.38s/it]
100%|██████████| 25/25 [00:46<00:00,  1.87s/it]
[epoch 4] train_loss:0.570, val_accuracy:0.800 
train epoch [5/15] loss:1.117: 100%|██████████| 100/100 [07:12<00:00,  4.33s/it]
100%|██████████| 25/25 [00:44<00:00,  1.76s/it]
[epoch 5] train_loss:0.534, val_accuracy:0.887 
train epoch [6/15] loss:0.608: 100%|██████████| 100/100 [07:16<00:00,  4.36s/it]
100%|██████████| 25/25 [00:46<00:00,  1.84s/it]
[epoch 6] train_loss:0.523, val_accuracy:0.934 
train epoch [7/15] loss:0.627: 100%|██████████| 100/100 [07:21<00:00,  4.41s/it]
100%|██████████| 25/25 [00:44<00:00,  1.79s/it]
[epoch 7] train_loss:0.498, val_accuracy:0.873 
train epoch [8/15] loss:0.193: 100%|██████████| 100/100 [07:19<00:00,  4.40s/it]
100%|██████████| 25/25 [00:45<00:00,  1.83s/it]
[epoch 8] train_loss:0.488, val_accuracy:0.814 
train epoch [9/15] loss:0.239: 100%|██████████| 100/100 [07:23<00:00,  4.43s/it]
100%|██████████| 25/25 [00:45<00:00,  1.81s/it]
[epoch 9] train_loss:0.437, val_accuracy:0.927 
train epoch [10/15] loss:0.156: 100%|██████████| 100/100 [07:19<00:00,  4.40s/it]
100%|██████████| 25/25 [00:45<00:00,  1.84s/it]
[epoch 10] train_loss:0.413, val_accuracy:0.897 
train epoch [11/15] loss:0.657: 100%|██████████| 100/100 [07:24<00:00,  4.45s/it]
100%|██████████| 25/25 [00:45<00:00,  1.82s/it]
[epoch 11] train_loss:0.415, val_accuracy:0.927 
train epoch [12/15] loss:0.277: 100%|██████████| 100/100 [07:18<00:00,  4.39s/it]
100%|██████████| 25/25 [00:44<00:00,  1.79s/it]
[epoch 12] train_loss:0.394, val_accuracy:0.934 
train epoch [13/15] loss:0.294: 100%|██████████| 100/100 [07:14<00:00,  4.35s/it]
100%|██████████| 25/25 [00:45<00:00,  1.82s/it]
[epoch 13] train_loss:0.390, val_accuracy:0.926 
train epoch [14/15] loss:0.739: 100%|██████████| 100/100 [07:20<00:00,  4.40s/it]
100%|██████████| 25/25 [00:45<00:00,  1.83s/it]
[epoch 14] train_loss:0.372, val_accuracy:0.943 
train epoch [15/15] loss:0.374: 100%|██████████| 100/100 [07:18<00:00,  4.38s/it]
100%|██████████| 25/25 [00:43<00:00,  1.74s/it]
[epoch 15] train_loss:0.429, val_accuracy:0.949 
Finish training!

Epoch为30，学习率为0.003的训练结果如下。对应 googleNet2.pth 和 training_statistic_googlenet_v2.json ：

Using 4 dataloader workers every process
using 3200 images for training, 800 images for validation.
train epoch [1/30] loss:1.264: 100%|██████████| 100/100 [07:25<00:00,  4.45s/it] 
100%|██████████| 25/25 [00:42<00:00,  1.71s/it]
[epoch 1] train_loss:14.530, val_accuracy:0.750 
train epoch [2/30] loss:0.873: 100%|██████████| 100/100 [07:11<00:00,  4.31s/it]
100%|██████████| 25/25 [00:43<00:00,  1.75s/it]
[epoch 2] train_loss:0.957, val_accuracy:0.748 
train epoch [3/30] loss:0.945: 100%|██████████| 100/100 [07:16<00:00,  4.37s/it]
100%|██████████| 25/25 [00:43<00:00,  1.75s/it]
[epoch 3] train_loss:0.929, val_accuracy:0.728 
train epoch [4/30] loss:0.687: 100%|██████████| 100/100 [07:10<00:00,  4.31s/it]
100%|██████████| 25/25 [00:42<00:00,  1.69s/it]
[epoch 4] train_loss:0.840, val_accuracy:0.686 
train epoch [5/30] loss:0.783: 100%|██████████| 100/100 [07:10<00:00,  4.30s/it]
100%|██████████| 25/25 [00:43<00:00,  1.75s/it]
[epoch 5] train_loss:0.809, val_accuracy:0.759 
train epoch [6/30] loss:0.484: 100%|██████████| 100/100 [07:13<00:00,  4.34s/it]
100%|██████████| 25/25 [00:44<00:00,  1.80s/it]
[epoch 6] train_loss:0.704, val_accuracy:0.834 
train epoch [7/30] loss:0.847: 100%|██████████| 100/100 [07:12<00:00,  4.33s/it]
100%|██████████| 25/25 [00:44<00:00,  1.76s/it]
[epoch 7] train_loss:0.637, val_accuracy:0.691 
train epoch [8/30] loss:0.728: 100%|██████████| 100/100 [07:23<00:00,  4.43s/it]
100%|██████████| 25/25 [00:43<00:00,  1.74s/it]
[epoch 8] train_loss:0.621, val_accuracy:0.914 
train epoch [9/30] loss:0.724: 100%|██████████| 100/100 [07:19<00:00,  4.40s/it]
100%|██████████| 25/25 [00:44<00:00,  1.78s/it]
[epoch 9] train_loss:0.567, val_accuracy:0.829 
train epoch [10/30] loss:0.506: 100%|██████████| 100/100 [07:17<00:00,  4.37s/it]
100%|██████████| 25/25 [00:43<00:00,  1.75s/it]
[epoch 10] train_loss:0.573, val_accuracy:0.860 
train epoch [11/30] loss:0.545: 100%|██████████| 100/100 [07:19<00:00,  4.39s/it]
100%|██████████| 25/25 [00:42<00:00,  1.70s/it]
[epoch 11] train_loss:0.512, val_accuracy:0.880 
train epoch [12/30] loss:0.388: 100%|██████████| 100/100 [07:21<00:00,  4.41s/it]
100%|██████████| 25/25 [00:43<00:00,  1.72s/it]
[epoch 12] train_loss:0.541, val_accuracy:0.839 
train epoch [13/30] loss:0.658: 100%|██████████| 100/100 [07:20<00:00,  4.40s/it]
100%|██████████| 25/25 [00:43<00:00,  1.75s/it]
[epoch 13] train_loss:0.486, val_accuracy:0.931 
train epoch [14/30] loss:0.340: 100%|██████████| 100/100 [07:19<00:00,  4.40s/it]
100%|██████████| 25/25 [00:43<00:00,  1.73s/it]
[epoch 14] train_loss:0.503, val_accuracy:0.819 
train epoch [15/30] loss:0.681: 100%|██████████| 100/100 [07:17<00:00,  4.37s/it]
100%|██████████| 25/25 [00:41<00:00,  1.64s/it]
[epoch 15] train_loss:0.477, val_accuracy:0.934 
train epoch [16/30] loss:0.542: 100%|██████████| 100/100 [07:21<00:00,  4.41s/it]
100%|██████████| 25/25 [00:43<00:00,  1.75s/it]
[epoch 16] train_loss:0.479, val_accuracy:0.926 
train epoch [17/30] loss:0.403: 100%|██████████| 100/100 [07:16<00:00,  4.36s/it]
100%|██████████| 25/25 [00:43<00:00,  1.73s/it]
[epoch 17] train_loss:0.498, val_accuracy:0.906 
train epoch [18/30] loss:0.565: 100%|██████████| 100/100 [07:13<00:00,  4.33s/it]
100%|██████████| 25/25 [00:43<00:00,  1.74s/it]
[epoch 18] train_loss:0.460, val_accuracy:0.850 
train epoch [19/30] loss:0.262: 100%|██████████| 100/100 [07:19<00:00,  4.40s/it]
100%|██████████| 25/25 [00:41<00:00,  1.68s/it]
[epoch 19] train_loss:0.436, val_accuracy:0.938 
train epoch [20/30] loss:0.454: 100%|██████████| 100/100 [07:19<00:00,  4.39s/it]
100%|██████████| 25/25 [00:42<00:00,  1.68s/it]
[epoch 20] train_loss:0.443, val_accuracy:0.940 
train epoch [21/30] loss:0.359: 100%|██████████| 100/100 [07:17<00:00,  4.37s/it]
100%|██████████| 25/25 [00:42<00:00,  1.70s/it]
[epoch 21] train_loss:0.512, val_accuracy:0.891 
train epoch [22/30] loss:0.266: 100%|██████████| 100/100 [07:17<00:00,  4.37s/it]
100%|██████████| 25/25 [00:43<00:00,  1.75s/it]
[epoch 22] train_loss:0.464, val_accuracy:0.940 
train epoch [23/30] loss:0.438: 100%|██████████| 100/100 [07:16<00:00,  4.36s/it]
100%|██████████| 25/25 [00:42<00:00,  1.69s/it]
[epoch 23] train_loss:0.458, val_accuracy:0.949 
train epoch [24/30] loss:0.631: 100%|██████████| 100/100 [07:12<00:00,  4.33s/it]
100%|██████████| 25/25 [00:41<00:00,  1.66s/it]
[epoch 24] train_loss:0.423, val_accuracy:0.911 
train epoch [25/30] loss:0.491: 100%|██████████| 100/100 [07:17<00:00,  4.37s/it]
100%|██████████| 25/25 [00:40<00:00,  1.61s/it]
[epoch 25] train_loss:0.463, val_accuracy:0.823 
train epoch [26/30] loss:0.708: 100%|██████████| 100/100 [07:14<00:00,  4.34s/it]
100%|██████████| 25/25 [00:42<00:00,  1.70s/it]
[epoch 26] train_loss:0.450, val_accuracy:0.922 
train epoch [27/30] loss:0.324: 100%|██████████| 100/100 [07:16<00:00,  4.37s/it]
100%|██████████| 25/25 [00:42<00:00,  1.69s/it]
[epoch 27] train_loss:0.433, val_accuracy:0.917 
train epoch [28/30] loss:0.406: 100%|██████████| 100/100 [07:13<00:00,  4.34s/it]
100%|██████████| 25/25 [00:41<00:00,  1.68s/it]
[epoch 28] train_loss:0.427, val_accuracy:0.939 
train epoch [29/30] loss:1.083: 100%|██████████| 100/100 [07:18<00:00,  4.38s/it]
100%|██████████| 25/25 [00:40<00:00,  1.61s/it]
[epoch 29] train_loss:0.423, val_accuracy:0.936 
train epoch [30/30] loss:0.260: 100%|██████████| 100/100 [07:13<00:00,  4.34s/it]
100%|██████████| 25/25 [00:42<00:00,  1.71s/it]
[epoch 30] train_loss:0.403, val_accuracy:0.927 
Finish training!

Epoch为50，学习率为0.001的训练结果如下。对应 googleNet3.pth 和 training_statistic_googlenet_v3.json（只展示部分）：

predict.py 对一张海面船舶图片的分类结果如下：

根据 train.py 运行过程中保存下来的数据，绘制损失曲线以及精确度曲线如下：

以可视化的角度来观察网络训练的过程，通过对比可以得到如下结论：

GoogleNet的损失曲线在10个Epoch往后几乎重合；
GoogleNet_v2在第23个Epoch时实现收敛，GoogleNet_v3在第35个Epoch处实现收敛。

test.py 中使用 googleNet1.pth ，对val文件夹进行分类，结果如下所示：

使用 googleNet2.pth ，对val文件夹下的图片进行分类，结果如下所示：

使用 googleNet3.pth ，对val文件夹下的图片进行分类，结果如下所示：

通过对比三个参数版本的GoogLeNet网络，分别计算其验证集上的网络分类性能指标——accuracy、precision、recall、F1，我们发现：使用Adam优化器在学习率为0.001条件下训练的GoogLeNet_v3网络的泛化能力最强，准确率最高。

你可能感兴趣的:(基础课程和实践项目,机器学习,pytorch,分类)

【前端】【面试】【功能函数】写一个JavaScript树形结构操作函数：`filter` 与 `forEach` 患得患失949 面试考题专栏（前后端）前端组件前端 javascript 开发语言树结构 filter forEach 面试
写一个JavaScript树形结构操作函数：filter与forEach在JavaScript开发中，处理树形结构数据是一项常见的任务。本文将详细介绍两个用于操作树形结构数据的函数：filter和forEach，包括它们的功能、使用方法以及具体示例。1.filter函数1.1功能概述filter函数用于过滤树形结构数据。它会遍历树形结构中的每个节点，根据传入的过滤函数func来决定是否保留该节点。
Java常见设计模式(上):创建型模式啥都不懂的小小白 Java知识集锦 java 设计模式开发语言
设计模式概述设计模式是从大量的实践中总结和理论化之后优选的代码结构、编程风格、以及问题解决思路。它们如同经典棋谱，不同的棋局不同棋局对应不同“套路”，帮助我们高效应对各种编程挑战。设计原则是一些通用的设计指导方针，它们提供了如何设计一个优秀的软件系统的基本思想和规则。指导着设计者如何组织代码以实现高内聚、低耦合、易扩展和易维护的软件系统。设计模式则是在特定情况下解决常见问题的经验性解决方案，它们提
《李航统计学习方法》学习笔记——第八章提升方法 eveiiii 统计学习 python 机器学习人工智能算法
提升方法8.1提升方法AdaBoost8.1.1提升方法的基本思路8.1.2AdaBoost算法8.1.3AdaBoost的例子（代码实现）8.2AdaBoost算法的训练误差分析定理8.1AdaBoost训练误差界定理8.2二分类问题AdaBoost训练误差界8.3AdaBoost算法的解释8.3.1前向分步算法8.3.2前向分步算法与AdaBoost8.4提升树8.4.1提升树模型8.4.2提
知识篇：（二十三）深入理解 Vue 的异步更新机制：为何数据更新延迟全栈探索者chen vue vue.js 前端 javascript 开发语言 ecmascript 性能优化学习
知识篇：（二十三）深入理解Vue的异步更新机制：为何数据更新延迟目录前言异步更新机制简介Vue异步更新的工作原理3.1nextTick与事件循环的关系3.2微任务与宏任务为什么Vue使用异步更新？4.1性能优化和批量更新4.2实例化组件的优化实际应用：数据更新延迟的常见问题和应对策略5.1数据更新延迟带来的问题5.2正确使用nextTick的策略实战案例：计数器组件的延迟更新问题深入分析：优化异步
沉浸式购物新纪元：3D技术如何重塑电商转化率 mirrornan 3D行业资讯 3d
3D技术已成为电商吸引流量的重要手段，它通过提供沉浸式、交互式的购物体验，显著提升了商品转化率。那么该如何利用3D技术提高商品转化率呢？一、商品3D展示全方位展示：3D技术可以实现商品的720°（或360°）立体化旋转缩放展示，让消费者从多角度、全方位地了解商品细节，增强购买欲望。细节放大：消费者可以放大并实时看到商品的每一处细节，这种沉浸式的购物体验提高了用户的参与度和兴趣，有助于做出更精准的购
AR技术在电商行业中有哪些应用场景？有何优势？ mirrornan 3D行业资讯 ar 3D模型 3D展示 3d 51建模网
AR（增强现实）技术在电商行业中的应用场景广泛且多样，为消费者带来了全新的购物体验，同时也为商家提供了诸多优势。51建模网为电商行业AR技术应用提供解决方案，以下是AR技术在电商行业中的主要应用场景及其优势：一、应用场景1、虚拟商品展示：家具展示：消费者可以通过手机摄像头将虚拟家具摆放在自己家中的实际环境中，直观地看到家具的尺寸、风格和搭配效果。鞋服展示：用户可以在手机或计算机屏幕上，通过AR技术
常见的图像处理算法：Sobel边缘检测资深流水灯工程师机器视觉图像处理算法计算机视觉
Sobel算子是一个主要用于边缘检测的离散微分算子。它结合了高斯平滑和微分求导，用来计算灰度图像的近似梯度。Sobel算子是一个主要用于边缘检测的离散微分算子（discretedifferentiationoperator）。它结合了高斯平滑和微分求导，用来计算图像灰度函数的近似梯度。在图像的任何一点使用此算子，都将会产生对应的梯度矢量或是其法矢量。Sobel算子的两个3*3内核为：
Cassini_Network-Aware Job Schedulingin Machine Learning Clusters 一只积极向上的小咸鱼机器学习人工智能
这篇论文介绍了CASSINI，一种用于机器学习（ML）集群的网络感知作业调度器。研究背景背景介绍:这篇文章的研究背景是深度学习数据集和模型规模的不断增长，对高效GPU集群的需求日益增加。分布式机器学习训练工作负载的通信开销占据了训练迭代时间的很大一部分，而现有的ML调度器往往忽略了ML训练作业的通信模式。研究问题:该问题的研究目标是开发一种简单而有效的方法，能够在网络链路中高效地放置多个ML作业，
51单片机键盘接口-独立按键和矩阵按键学习少年的天空单片机单片机
51单片机键盘接口-独立按键和矩阵按键按键的分类键输入原理独立式键盘矩阵键盘消抖键码识别键盘程序按键的分类按键按照结构原理可分为两类：一类是触点式开关按键，如机械开关、导电橡胶开关等；一类是无触点式开关按键，如电气式按键、磁感应按键等。单片机应用系统的键盘大都采用机械式按键。键输入原理键盘的按键都是以其状态来设置控制功能或输入数据的。当某个键按下时，计算机应用系统应完成对按键的识别及所设定的功能。
Vue 3 生命周期函数详解 licy__ vue.js 前端 javascript
Vue3生命周期函数详解引言Vue.js是一个渐进式的JavaScript框架，用于构建用户界面。Vue3在性能、API设计和开发者体验方面进行了重大改进。理解Vue3的生命周期函数（LifecycleHooks）对于开发高效的Vue应用至关重要。本文将详细介绍Vue3的生命周期钩子、每个阶段的作用及其代码示例，帮助读者更好地掌握这一重要概念。1.Vue3生命周期概述Vue实例从创建到销毁经历了一
安宝特方案 | AR在供应链管理中的应用：提升效率与透明度安宝特AR ar AR眼镜仓储管理工业ar 交通物流
随着全球化的不断深入和市场需求的快速变化，企业对供应链管理的要求也日益提高。如何在复杂的供应链环境中提升效率、降低成本，并确保信息的透明度，成为了各大行业亟待解决的问题。而增强现实（AR）技术，特别是安宝特的AR眼镜，正为这一挑战提供了创新的解决方案。1.实时信息可视化在传统的供应链管理中，决策往往依赖于静态数据，这使得反应速度缓慢且难以适应快速变化的市场。而通过安宝特的AR眼镜，工作人员可以实时
Git 操作全解：从基础命令到高级操作的实用指南 web Rookie Git git 开发语言
文章目录1.基本命令1.初始化仓库2.克隆远程仓库3.查看当前仓库状态4.查看提交日志5.添加文件到暂存区6.提交更改7.查看仓库的配置信息2.分支操作1.查看所有分支2.创建新分支3.切换名称4.创建并切换到新分支5.删除分支6.查看当前分支3.合并分支1.合并分支2.解决合并冲突4.远程仓库操作1.查看远程仓库信息2.添加远程仓库3.推送更改到远程仓库4.拉取远程仓库的更改5.获取远程仓库的最
性能测试丨JMeter 分布式加压机制霍格沃兹测试开发学社测试人社区 jmeter 分布式测试开发软件测试
JMeter的分布式加压机制允许在多台机器上同时运行测试，以模拟更高的负载。以下是其工作原理和配置步骤：1.分布式架构主节点（Controller）：负责管理测试计划、分发任务和收集结果。从节点（Slave）：执行主节点分配的测试任务并返回结果。2.配置步骤主节点配置安装JMeter：在主节点和所有从节点上安装相同版本的JMeter。配置主节点：编辑jmeter.properties文件，设置re
软件测试管理岗位职责与方法霍格沃兹测试开发学社测试人社区软件测试测试开发
软件测试管理岗位的主要职责是确保软件质量，通过有效的测试策略和流程，发现并解决潜在问题。以下是该岗位的主要职责和工作方法：主要职责测试计划制定：根据项目需求，制定详细的测试计划，明确测试范围、资源、时间表和工具。测试用例设计：编写测试用例，覆盖功能、性能、安全等各方面，确保全面验证软件。测试执行：组织团队执行测试，记录结果并跟踪缺陷，确保问题及时解决。缺陷管理：使用缺陷跟踪工具记录、分类和跟踪问题
测试管理丨OKR目标制定与关键结果解析霍格沃兹测试开发学社测试人社区软件测试测试开发
什么是OKROKR是一种目标管理框架，帮助组织、团队和个人明确目标并衡量进展。它由两个核心部分组成：O：明确、鼓舞人心的目标，通常是定性的。KR：衡量目标是否达成的关键结果，通常是定量的。O和KR的关系O是方向，KR是衡量标准。O回答“我们要实现什么”，KR回答“如何知道我们实现了目标”。KR必须直接支持O的实现。如何制定O明确且鼓舞人心：目标应清晰、具体，并能激励团队。简洁：用一句话概括，避免复
Spring Boot整合策略模式：概念、使用场景、优缺点及企业级Java 程序才子 java spring boot 策略模式 Java
策略模式是一种行为型设计模式，它允许在运行时选择算法的行为。SpringBoot是一个流行的Java开发框架，提供了简化的配置和快速开发的能力。在本文中，我们将探讨如何在SpringBoot应用程序中使用策略模式，讨论其使用场景、优缺点，并介绍如何在企业级Java应用程序中应用该模式。1.策略模式概念策略模式通过定义一系列算法，并将其封装在可互换的策略对象中，使得这些算法可以相互替换。它将算法的选
Git 常用指令及其说明浪九天项目管理工具 git 源代码管理
配置相关#配置全局用户名gitconfig--globaluser.name"YourUsername"#配置全局邮箱gitconfig--globaluser.email"your.email@example.com"说明：这两条命令用于设置Git全局的用户名和邮箱，在提交代码时，这些信息会被记录在提交历史中，用于标识提交者。仓库初始化#在当前目录初始化一个新的Git仓库gitinit说明：执行
【HeadFirst系列之HeadFirst设计模式】第13天之代理模式：控制对象访问的利器！工一木子 HeadFirst系列 HeadFirst设计模式笔记设计模式代理模式
代理模式：控制对象访问的利器！大家好！今天我们来聊聊设计模式中的代理模式（ProxyPattern）。如果你曾经需要控制对某个对象的访问，或者在访问对象时添加额外的逻辑（如权限检查、日志记录等），那么代理模式就是你的救星！本文基于《HeadFirst设计模式》的代理模式章节，通过生动的故事和Java代码示例，带你轻松掌握代理模式的精髓。我们还会探讨代理模式在JDK和Spring等框架中的应用，让你
【数据结构与算法】之深入解析“金字塔转换矩阵”的求解思路与算法示例 ╰つ栺尖篴夢ゞ数据结构与算法 LeetCode “递归”求解金字塔转换矩阵 “状态转换”求解金字塔转换 “深度优先搜索”求解 “回溯法”求解金字塔转换矩阵 Java/C++求解算法
一、题目要求你正在把积木堆成金字塔，每个块都有一个颜色，用一个字母表示，每一行的块比它下面的行少一个块，并且居中。为了使金字塔美观，只有特定的三角形图案是允许的。一个三角形的图案由两个块和叠在上面的单个块组成。模式是以三个字母字符串的列表形式allowed给出的，其中模式的前两个字符分别表示左右底部块，第三个字符表示顶部块。例如，“ABC”表示一个三角形图案，其中一个“C”块堆叠在一个‘A’块(左
大语言模型(LLM)入门学习路线图，附资源汇总，收藏这篇就够了 AI小白熊语言模型学习人工智能 ai transformer 深度学习
Github项目上有一个[大语言模型学习路线笔记]“大语言模型学习路线笔记”)，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模
【iOS】小蓝书学习（四）键盘敲没电 ios 学习 cocoa
小蓝书学习（四）第23条：通过委托与数据源协议进行对象间通信第24条：将类的实现代码分散到便于管理的数个分类之中第25条：总是为第三方类的分类名加前缀第26条：勿在分类中声明属性第27条：使用“class-continuation分类”隐藏实现细节第23条：通过委托与数据源协议进行对象间通信对象之间经常需要相互通信，而通信方式有很多种。OC开发者广泛使用一种名叫委托模式的编程设计模式来实现对象间的
Python常见面试题的详解23 ylfhpy Python基础和面试 python 开发语言面试数据库
1.存储过程与触发器有什么区别要点定义用途：存储过程是预编译SQL语句集合，存于数据库，含逻辑控制和变量，用于特定业务，可被调用；触发器是特殊存储过程，特定数据库事件触发，用于数据完整性和审计。调用方式：存储过程需显式调用；触发器由事件自动触发，不可显式调用。参数传递：存储过程可接收输入输出参数；触发器通常无显式参数，基于触发事件表数据操作。存储过程和触发器在数据库中扮演着不同但又重要的角色。存储
设计模式之策略模式（Strategy Pattern） Zayn~ 设计模式设计模式策略模式
模式定义定义了算法族，分别封装起来，让它们之间可以互相替换，此模式让算法的变化独立于使用算法的客户。模式类图示例以鸭子为例子，实现三个鸭子，分别为：绿头鸭、红头鸭和橡皮鸭，实现不同的飞行行为：会飞和不会飞。如下：优点1.**解耦合**：策略模式可以将一个算法的实现与其使用环境分离开来，从而使得算法可以独立于使用环境变化。这有助于降低系统的耦合度，提高系统的灵活性和可维护性。2.**易于扩展**：由
用于训练基于pytorch构建的小型字符级语言模型的数据集汇总搏博大模型 pytorch 语言模型人工智能 python 学习机器学习
前文，我们从零开始基于transformer框架在pytorch上构建一个小型字符级语言模型，并编写了完整的python示例，模型是需要训练的，所以在原有代码的基础上，我们寻找一些公开的数据集对模型进行训练。本文需要先了解的前置内容以及代码（如果不训练，仅看如何获取数据集，就可以跳过这部分），可以看的我文章：从零开始构建一个小型字符级语言模型的完整详细教程（基于Transformer架构）-CSD
Python 网络编程实战：手把手教你打造高效 HTTP 服务器！威哥说编程 python 开发语言
随着互联网的普及和发展，越来越多的应用需要通过网络进行数据传输和通信。作为开发者，掌握网络编程的技能是非常重要的。Python是一门非常适合进行网络编程的语言，它拥有简单易用的库，可以帮助我们快速实现高效的网络服务。在本篇文章中，我们将通过实际案例，手把手教你使用Python创建一个高效的HTTP服务器。通过这个实例，你将掌握Python网络编程的基本概念、使用常用的网络库以及如何优化网络服务的性
在 SQLite 中使用 SpatiaLite 实现地理空间数据自动化读写高堂明镜悲白发 sqlite 自动化数据库 GIS
地理空间数据（如坐标点、区域边界）的存储与查询是物联网、位置服务等领域的常见需求。本文提供一套简洁的解决方案，利用SQLite和SpatiaLite扩展，通过触发器和视图实现以下目标：写入简化：直接插入人类可读的坐标文本（如POINT(116.439.9)），自动转为二进制存储。读取简化：查询时自动返回坐标文本，无需手动调用转换函数。代码友好：便于与Python、Java等后端程序集成，隐藏底层空
【演化-如何理解现代婚姻关键字摘要】严文文-Chris 科学思维修炼科学思维
婚姻制度的生物基础首先，我们定义一下什么是现代婚姻。现代婚姻，就是生物属性上的一男和一女形成稳定夫妻关系来养育子女的婚配模式。这个定义就排除了一夫多妻、一夫一妻多妾，或者女性家长共同抚养的模式。尽管有些地区事实上存在其他形式，但法律层面上并不认可这种婚姻。而现代婚姻，只是人类婚配模式发展到中途的一个节点。从源头上说，婚姻最初来自于人类DNA的限制。这个限制就是智力发育时间太长了。人类幼儿需要至少长
轻松实现 Uniapp 小程序二维码长按识别与保存功能前端小雪的博客. uni-app 小程序前端
在开发Uniapp小程序的时候，很多场景都需要用到二维码，比如引导用户添加客服微信、推广活动等。为了提升用户体验，让用户可以方便地识别和保存二维码，我们可以实现长按识别二维码以及保存二维码到相册的功能。下面我就来详细讲讲怎么实现这两个功能。一、二维码展示部分长按识别二维码在这段代码里，用来包裹二维码图片。标签就是用来显示二维码的，mode="widthFix"能让图片宽度自适应，show-menu
计算机操作系统--Linux初识01 血月无华AUV 计算机操作系统 linux ubuntu
计算机操作系统--Linux初识01准备工作实验一：Linux软件部署及应用软件安装QQ官网下载二进制软件包.deb格式百度网盘官网下载软件包.rpm软件卸载软件更新此系列博客将会记录学校任务的完成情况，希望能有所收获。准备工作安装Ubuntu虚拟机，Mac电脑的操作比win10简单许多（Parallel可以实现Mac和虚拟机之间的无缝对接，且无卡顿）在此不做赘述。安装好后截图如下（20.04版本
基于matlab的帧间差法进行视频目标检测系统挂科边缘 MATLAB项目实战 matlab 人工智能计算机视觉
文章目录前言一、理论基础1.帧间差分法2.背景差分法3.光流法二、程序实现总结源码下载前言运动目标自动检测是对运动目标进行检测、提取、识别和跟踪的技术。基于视频序列的运动目标检测，一直以来都是机器视觉、智能监控系统、视频跟踪系统等领域的研究重点，是整个计算机视觉的研究难点之一。运动目标检测的结果正确性对后续的图像处理、图像理解等工作的顺利开展具有决定性的作用，所以能否将运动物体从视频序列中准确地检
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1