车明美

第2周学习：卷积神经网络基础

Part1 视频学习

一、绪论

卷积神经网络的应用

传统神经网络vs卷积神经网络

二、基本组成结构

卷积

池化 Polling：缩放

全连接：

三、卷积神经网络典型结构

AlexNet：2012年ImageNet图像分类竞赛中冠军

ZFNet：2013年ImageNet图像分类竞赛中冠军

VGG：一个更深的网络（原来只有8层），2014年第二名，先训练前11层，把参数固定住，再训练后面的

GoogleNet：2014年第一名

ResNet：残差学习网络，2015年ILSVRC竞赛冠军，深度有152层

Part2代码练习

MNIST 数据集分类

1. 加载数据（MNIST）

2. 创建网络

3. 在小型全连接网络上训练（Fully-connected network）

4. 在卷积神经网络上训练

5. 打乱像素顺序再次在两个网络上训练与测试

CIFAR10 数据集分类

定义网络，损失函数和优化器：

训练网络：

使用 VGG16 对 CIFAR10 分类

1. 定义 dataloader

2. VGG 网络定义

3. 网络训练

4. 测试验证准确率：

Part3 思考题：

1、dataloader 里面 shuffle 取不同值有什么区别？

2、transform 里，取了不同值，这个有什么区别？

3、epoch 和 batch 的区别？

4、1x1的卷积和 FC 有什么区别？主要起什么作用？

5、residual leanring 为什么能够提升准确率？

6、代码练习二里，网络和1989年 Lecun 提出的 LeNet 有什么区别？

7、代码练习二里，卷积以后feature map 尺寸会变小，如何应用 Residual Learning?

8、有什么方法可以进一步提升准确率？

已解决的一些小问题：

Part1 视频学习

一、绪论

卷积神经网络的应用
1. 分类
2. 检索
3. 人脸识别
4. 表情识别
5. 图像生成——基于对抗生产网络
6. 图像风格转换
7. 自动驾驶
传统神经网络vs卷积神经网络
1. 深度学习三部曲
  1. 搭建神经网络结构（提特征）
  2. 找到合适的损失函数（交叉熵损失，均方误差MSE）评估表示与真实值之间的差异
  3. 找到合适的优化函数（BP，随机梯度下降SGD）更新参数
2. 损失函数：用来衡量预测结果与真是结果之间的吻合度

3.传统神经网络：层与层之间都是全连接的网络

参数太多：权重矩阵的参数太多—>过拟合

4.卷积神经网络：由卷积层，激活层，池化层，全连接层构成

局部关联，参数共享

二、基本组成结构

卷积
1. 一维卷积：
  1. 用在信号处理中，用于计算信号的延迟累积
  2. 假设一个信号发生器在时刻t发出一个信号xt，其信息的衰减率为fx，即在k-1个时间步长后，信息衰减为原来的fk倍
  3. 在时刻t收到的信号yt为当前时刻产生的信息和以前时刻延迟信息的叠加
  4. 此处fx被称为滤波器或卷积核
  5. 设滤波器f的长度为m，它和一个信息序列x1x2x3x4……的卷积记为
2. 卷积：是对两个实变函数的一种数学操作
3. 二维卷积：卷积核（F*F*x）是一个矩阵，以一定步长移动
  1. 卷积核：一个卷积核有x个权重矩阵，x=原图像通道数
  2. 步长：卷积核每次移动几个格子
  3. 感受野：卷积核进行一次卷积时输入图像（N*N*x）所对应的区域
  4. 特征图：卷积后输出的结果
    1. 特征图大小（N-F）/步长+1
    2. 特征图大小（N+pedding*2-F）/步长+1
  5. Depth/channel：特征图的深度/个数（和卷积核的个数保持一致）
  6. pedding：如果原图像在卷积的过程中出现一部分不够一次卷积，则在图像四周都补0
  7. 参数量=（F*F+1）*channel
4. 卷积可视化理解：浅层更关注整体信息，和输入图片比较像；深层更加抽象
池化 Polling：缩放
1. 保留主要特征的同时减少参数和计算量，防止过拟合，提高模型泛化能力
2. 它一般处于卷积层与卷积层之间，全连接层与全连接层之间
3. 池化核，步长
4. 类型：
  1. Max polling：最大值池化——分类任务中更倾向
  2. Average polling：平均池化
全连接：
1. 两层之间的所有神经元都有权重链接
2. 通常全连接层在卷积神经网络尾部
3. 全连接层参数量通常最大

三、卷积神经网络典型结构

AlexNet：2012年ImageNet图像分类竞赛中冠军
1. ReLU函数
  1. 解决了梯度消失的问题
  2. 计算速度特别快，只需要判断输入是否大于0
  3. 收敛速度远快于sigmoid
2. DropOut（随即失活）：训练时随即关闭部分神经元，测试时整合所有神经元
3. 数据增强：增大数据量
  1. 平移、翻转、对称：
    1. 随机crop，在256*256的图片中可以随机裁出来很多224*224的图片
    2. 水平翻转，相当于将样本倍增
  2. 改变RGB通道强度：对RGB加入高斯扰动
ZFNet：2013年ImageNet图像分类竞赛中冠军
1. 网络结构与AlexNet相同
2. 将卷积层1中的感受野大小由11x11改为7x7，步长由4改为2（可以提取到更详细的信息）
3. 卷积层3，4，5中的滤波器个数由384，384，256改为512，512，1024
VGG：一个更深的网络（原来只有8层），2014年第二名，先训练前11层，把参数固定住，再训练后面的
1. VGG16
2. VGG19
GoogleNet：2014年第一名
1. 网络包含22个带参数的层（如果考虑pollig是27层），独立成块的层总共有约100个
2. 参数量大概是Alexnet的1/12（因为它全连接层少，只有用来分类的）
3. 没有FC层
4. inception模块，在同一层用了大小不同的3个卷积核（1x1,3x3,5x5）增加特征多样性——特征图层数太多了，可以通过加入1*1的卷积核降维（inceptionV2）
5. Inception V3：将5*5的卷积核裂变成两个3*3的卷积核，降低了参数量，增加了非线性激活函数，表征能力增强
6. Inception V4
ResNet：残差学习网络，2015年ILSVRC竞赛冠军，深度有152层
1. 残差的思想：去掉相同的主体部分，从而突出微小的变化
2. 是一个更灵活的网络，可以根据任务需求学习一个需要的网络深度

Part2代码练习

MNIST 数据集分类

构建简单的CNN对 mnist 数据集进行分类

深度卷积神经网络中，有如下特性

很多层: compositionality
卷积: locality + stationarity of images
池化: Invariance of object class to translations

1. 加载数据（MNIST）

PyTorch里包含了 MNIST， CIFAR10 等常用数据集，调用 torchvision.datasets 即可把这些数据由远程下载到本地，下面给出MNIST的使用方法：

torchvision.datasets.MNIST(root, train=True, transform=None, target_transform=None, download=False)

root 为数据集下载到本地后的根目录，包括 training.pt 和 test.pt 文件
train，如果设置为True，从training.pt创建数据集，否则从test.pt创建。
download，如果设置为True, 从互联网下载数据并放到root文件夹下
transform, 一种函数或变换，输入PIL图片，返回变换之后的数据。
target_transform 一种函数或变换，输入目标，进行变换。

另外值得注意的是，DataLoader是一个比较重要的类，提供的常用操作有：batch_size(每个batch的大小), shuffle(是否进行随机打乱顺序的操作), num_workers(加载数据的时候使用几个子进程)

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
import matplotlib.pyplot as plt
import numpy

# 一个函数，用来计算模型中有多少参数
def get_n_params(model):
    np=0
    for p in list(model.parameters()):
        np += p.nelement()
    return np

# 使用GPU训练，可以在菜单 "代码执行工具" -> "更改运行时类型" 里进行设置
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
datasets.MNIST(root='F:\pytorch', train=True, transform=None, target_transform=None, download=True)
input_size  = 28*28   # MNIST上的图像尺寸是 28x28
output_size = 10      # 类别为 0 到 9 的数字，因此为十类

train_loader = torch.utils.data.DataLoader(
    datasets.MNIST('./data', train=True, download=True,
        transform=transforms.Compose(
            [transforms.ToTensor(),
             transforms.Normalize((0.1307,), (0.3081,))])),
    batch_size=64, shuffle=True)

test_loader = torch.utils.data.DataLoader(
    datasets.MNIST('./data', train=False, transform=transforms.Compose([
             transforms.ToTensor(),
             transforms.Normalize((0.1307,), (0.3081,))])),
    batch_size=1000, shuffle=True)
plt.figure(figsize=(8, 5))
for i in range(20):
    plt.subplot(4, 5, i + 1)
    image, _ = train_loader.dataset.__getitem__(i)
    plt.imshow(image.squeeze().numpy(),'gray')
    plt.axis('off');

输出结果：

显示数据集中的部分图像：

plt.figure(figsize=(8, 5))
for i in range(20):
    plt.subplot(4, 5, i + 1)
    image, _ = train_loader.dataset.__getitem__(i)
    plt.imshow(image.squeeze().numpy(),'gray')
    plt.axis('off');
plt.show()  # 展示图象

输出结果：

2. 创建网络

定义网络时，需要继承nn.Module，并实现它的forward方法，把网络中具有可学习参数的层放在构造函数init中。

只要在nn.Module的子类中定义了forward函数，backward函数就会自动被实现(利用autograd)。

class FC2Layer(nn.Module):
    def __init__(self, input_size, n_hidden, output_size):
        # nn.Module子类的函数必须在构造函数中执行父类的构造函数
        # 下式等价于nn.Module.__init__(self)        
        super(FC2Layer, self).__init__()
        self.input_size = input_size
        # 这里直接用 Sequential 就定义了网络，注意要和下面 CNN 的代码区分开
        self.network = nn.Sequential(
            nn.Linear(input_size, n_hidden), 
            nn.ReLU(), 
            nn.Linear(n_hidden, n_hidden), 
            nn.ReLU(), 
            nn.Linear(n_hidden, output_size), 
            nn.LogSoftmax(dim=1)
        )
    def forward(self, x):
        # view一般出现在model类的forward函数中，用于改变输入或输出的形状
        # x.view(-1, self.input_size) 的意思是多维的数据展成二维
        # 代码指定二维数据的列数为 input_size=784，行数 -1 表示我们不想算，电脑会自己计算对应的数字
        # 在 DataLoader 部分，我们可以看到 batch_size 是64，所以得到 x 的行数是64
        # 大家可以加一行代码：print(x.cpu().numpy().shape)
        # 训练过程中，就会看到 (64, 784) 的输出，和我们的预期是一致的

        # forward 函数的作用是，指定网络的运行过程，这个全连接网络可能看不啥意义，
        # 下面的CNN网络可以看出 forward 的作用。
        x = x.view(-1, self.input_size)
        return self.network(x)
    


class CNN(nn.Module):
    def __init__(self, input_size, n_feature, output_size):
        # 执行父类的构造函数，所有的网络都要这么写
        super(CNN, self).__init__()
        # 下面是网络里典型结构的一些定义，一般就是卷积和全连接
        # 池化、ReLU一类的不用在这里定义
        self.n_feature = n_feature
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=n_feature, kernel_size=5)
        self.conv2 = nn.Conv2d(n_feature, n_feature, kernel_size=5)
        self.fc1 = nn.Linear(n_feature*4*4, 50)
        self.fc2 = nn.Linear(50, 10)    
    
    # 下面的 forward 函数，定义了网络的结构，按照一定顺序，把上面构建的一些结构组织起来
    # 意思就是，conv1, conv2 等等的，可以多次重用
    def forward(self, x, verbose=False):
        x = self.conv1(x)
        x = F.relu(x)
        x = F.max_pool2d(x, kernel_size=2)
        x = self.conv2(x)
        x = F.relu(x)
        x = F.max_pool2d(x, kernel_size=2)
        x = x.view(-1, self.n_feature*4*4)
        x = self.fc1(x)
        x = F.relu(x)
        x = self.fc2(x)
        x = F.log_softmax(x, dim=1)
        return x

定义训练和测试函数

# 训练函数
def train(model):
    model.train()
    # 主里从train_loader里，64个样本一个batch为单位提取样本进行训练
    for batch_idx, (data, target) in enumerate(train_loader):
        # 把数据送到GPU中
        data, target = data.to(device), target.to(device)

        optimizer.zero_grad()
        output = model(data)
        loss = F.nll_loss(output, target)
        loss.backward()
        optimizer.step()
        if batch_idx % 100 == 0:
            print('Train: [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))


def test(model):
    model.eval()
    test_loss = 0
    correct = 0
    for data, target in test_loader:
        # 把数据送到GPU中
        data, target = data.to(device), target.to(device)
        # 把数据送入模型，得到预测结果
        output = model(data)
        # 计算本次batch的损失，并加到 test_loss 中
        test_loss += F.nll_loss(output, target, reduction='sum').item()
        # get the index of the max log-probability，最后一层输出10个数，
        # 值最大的那个即对应着分类结果，然后把分类结果保存在 pred 里
        pred = output.data.max(1, keepdim=True)[1]
        # 将 pred 与 target 相比，得到正确预测结果的数量，并加到 correct 中
        # 这里需要注意一下 view_as ，意思是把 target 变成维度和 pred 一样的意思                                                
        correct += pred.eq(target.data.view_as(pred)).cpu().sum().item()

    test_loss /= len(test_loader.dataset)
    accuracy = 100. * correct / len(test_loader.dataset)
    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),
        accuracy))

3. 在小型全连接网络上训练（Fully-connected network）

n_hidden = 8 # number of hidden units

model_fnn = FC2Layer(input_size, n_hidden, output_size)
model_fnn.to(device)
optimizer = optim.SGD(model_fnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_fnn)))

train(model_fnn)
test(model_fnn)

结果输出：

4. 在卷积神经网络上训练

需要注意的是，上在定义的CNN和全连接网络，拥有相同数量的模型参数

# Training settings 
n_features = 6 # number of feature maps

model_cnn = CNN(input_size, n_features, output_size)
model_cnn.to(device)
optimizer = optim.SGD(model_cnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_cnn)))

train(model_cnn)
test(model_cnn)

结果输出：

通过上面的测试结果，可以发现，含有相同参数的 CNN 效果要明显优于简单的全连接网络，是因为 CNN 能够更好的挖掘图像中的信息，主要通过两个手段：

卷积：Locality and stationarity in images
池化：Builds in some translation invariance

5. 打乱像素顺序再次在两个网络上训练与测试

考虑到CNN在卷积与池化上的优良特性，如果我们把图像中的像素打乱顺序，这样卷积和池化就难以发挥作用了，为了验证这个想法，我们把图像中的像素打乱顺序再试试。

首先下面代码展示随机打乱像素顺序后，图像的形态：

# 这里解释一下 torch.randperm 函数，给定参数n，返回一个从0到n-1的随机整数排列
perm = torch.randperm(784)
plt.figure(figsize=(8, 4))
for i in range(10):
    image, _ = train_loader.dataset.__getitem__(i)
    # permute pixels
    image_perm = image.view(-1, 28*28).clone()
    image_perm = image_perm[:, perm]
    image_perm = image_perm.view(-1, 1, 28, 28)
    plt.subplot(4, 5, i + 1)
    plt.imshow(image.squeeze().numpy(), 'gray')
    plt.axis('off')
    plt.subplot(4, 5, i + 11)
    plt.imshow(image_perm.squeeze().numpy(), 'gray')
    plt.axis('off')

重新定义训练与测试函数，我们写了两个函数 train_perm 和 test_perm，分别对应着加入像素打乱顺序的训练函数与测试函数。

与之前的训练与测试函数基本上完全相同，只是对 data 加入了打乱顺序操作。

# 对每个 batch 里的数据，打乱像素顺序的函数
def perm_pixel(data, perm):
    # 转化为二维矩阵
    data_new = data.view(-1, 28*28)
    # 打乱像素顺序
    data_new = data_new[:, perm]
    # 恢复为原来4维的 tensor
    data_new = data_new.view(-1, 1, 28, 28)
    return data_new

# 训练函数
def train_perm(model, perm):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        # 像素打乱顺序
        data = perm_pixel(data, perm)

        optimizer.zero_grad()
        output = model(data)
        loss = F.nll_loss(output, target)
        loss.backward()
        optimizer.step()
        if batch_idx % 100 == 0:
            print('Train: [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))

# 测试函数
def test_perm(model, perm):
    model.eval()
    test_loss = 0
    correct = 0
    for data, target in test_loader:
        data, target = data.to(device), target.to(device)

        # 像素打乱顺序
        data = perm_pixel(data, perm)

        output = model(data)
        test_loss += F.nll_loss(output, target, reduction='sum').item()
        pred = output.data.max(1, keepdim=True)[1]                                            
        correct += pred.eq(target.data.view_as(pred)).cpu().sum().item()

    test_loss /= len(test_loader.dataset)
    accuracy = 100. * correct / len(test_loader.dataset)
    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),
        accuracy))

在全连接网络上训练与测试：

perm = torch.randperm(784)
n_hidden = 8 # number of hidden units

model_fnn = FC2Layer(input_size, n_hidden, output_size)
model_fnn.to(device)
optimizer = optim.SGD(model_fnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_fnn)))

train_perm(model_fnn, perm)
test_perm(model_fnn, perm)

在卷积神经网络上训练与测试：

perm = torch.randperm(784)
n_features = 6 # number of feature maps

model_cnn = CNN(input_size, n_features, output_size)
model_cnn.to(device)
optimizer = optim.SGD(model_cnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_cnn)))

train_perm(model_cnn, perm)
test_perm(model_cnn, perm)

从打乱像素顺序的实验结果来看，全连接网络的性能基本上没有发生变化，但是卷积神经网络的性能明显下降。

这是因为对于卷积神经网络，会利用像素的局部关系，但是打乱顺序以后，这些像素间的关系将无法得到利用。

CIFAR10 数据集分类

对于视觉数据，PyTorch 创建了一个叫做 totchvision 的包，该包含有支持加载类似Imagenet，CIFAR10，MNIST 等公共数据集的数据加载模块 torchvision.datasets 和支持加载图像数据数据转换模块 torch.utils.data.DataLoader。

下面将使用CIFAR10数据集，它包含十个类别：‘airplane’, ‘automobile’, ‘bird’, ‘cat’, ‘deer’, ‘dog’, ‘frog’, ‘horse’, ‘ship’, ‘truck’。CIFAR-10 中的图像尺寸为3x32x32，也就是RGB的3层颜色通道，每层通道内的尺寸为32*32。

首先，加载并归一化 CIFAR10 使用 torchvision 。torchvision 数据集的输出是范围在[0,1]之间的 PILImage，我们将他们转换成归一化范围为[-1,1]之间的张量 Tensors。

使用 CNN 对 CIFAR10 数据集进行分类

import torch
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

# 使用GPU训练，可以在菜单 "代码执行工具" -> "更改运行时类型" 里进行设置
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

transform = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

# 注意下面代码中：训练的 shuffle 是 True，测试的 shuffle 是 false
# 训练时可以打乱顺序增加多样性，测试是没有必要
trainset = torchvision.datasets.CIFAR10(root='./data', train=True,
                                        download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=64,
                                          shuffle=True, num_workers=2)

testset = torchvision.datasets.CIFAR10(root='./data', train=False,
                                       download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=8,
                                         shuffle=False, num_workers=2)

classes = ('plane', 'car', 'bird', 'cat',
           'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

下面展示 CIFAR10 里面的一些图片：

def imshow(img):
    plt.figure(figsize=(8,8))
    img = img / 2 + 0.5     # 转换到 [0,1] 之间
    npimg = img.numpy()
    plt.imshow(np.transpose(npimg, (1, 2, 0)))
    plt.show()

# 得到一组图像
images, labels = iter(trainloader).next()
# 展示图像
imshow(torchvision.utils.make_grid(images))
# 展示第一行图像的标签
for j in range(8):
    print(classes[labels[j]])

结果输出：

定义网络，损失函数和优化器：

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

# 网络放到GPU上
net = Net().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), lr=0.001)

训练网络：

for epoch in range(10):  # 重复多轮训练
    for i, (inputs, labels) in enumerate(trainloader):
        inputs = inputs.to(device)
        labels = labels.to(device)
        # 优化器梯度归零
        optimizer.zero_grad()
        # 正向传播 +　反向传播 + 优化 
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        # 输出统计信息
        if i % 100 == 0:   
            print('Epoch: %d Minibatch: %5d loss: %.3f' %(epoch + 1, i + 1, loss.item()))

print('Finished Training')

现在我们从测试集中取出8张图片：

# 得到一组图像
images, labels = iter(testloader).next()
# 展示图像
imshow(torchvision.utils.make_grid(images))
# 展示图像的标签
for j in range(8):
    print(classes[labels[j]])

我们把图片输入模型，看看CNN把这些图片识别成什么：

outputs = net(images.to(device))
_, predicted = torch.max(outputs, 1)

# 展示预测的结果
for j in range(8):
    print(classes[predicted[j]])

可以看到，有几个都识别错了~~~ 让我们看看网络在整个数据集上的表现：

correct = 0
total = 0

for data in testloader:
    images, labels = data
    images, labels = images.to(device), labels.to(device)
    outputs = net(images)
    _, predicted = torch.max(outputs.data, 1)
    total += labels.size(0)
    correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %d %%' % (
    100 * correct / total))

准确率还可以，通过改进网络结构，性能还可以进一步提升。在 Kaggle 的LeaderBoard上，准确率高的达到95%以上。

使用 VGG16 对 CIFAR10 分类

VGG是由Simonyan 和Zisserman在文献《Very Deep Convolutional Networks for Large Scale Image Recognition》中提出卷积神经网络模型，其名称来源于作者所在的牛津大学视觉几何组(Visual Geometry Group)的缩写。

该模型参加2014年的 ImageNet图像分类与定位挑战赛，取得了优异成绩：在分类任务上排名第二，在定位任务上排名第一。

VGG16的网络结构如下图所示：

16层网络的结节信息如下：

01：Convolution using 64 filters
02: Convolution using 64 filters + Max pooling
03: Convolution using 128 filters
04: Convolution using 128 filters + Max pooling
05: Convolution using 256 filters
06: Convolution using 256 filters
07: Convolution using 256 filters + Max pooling
08: Convolution using 512 filters
09: Convolution using 512 filters
10: Convolution using 512 filters + Max pooling
11: Convolution using 512 filters
12: Convolution using 512 filters
13: Convolution using 512 filters + Max pooling
14: Fully connected with 4096 nodes
15: Fully connected with 4096 nodes
16: Softmax

1. 定义 dataloader

import torch
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

# 使用GPU训练，可以在菜单 "代码执行工具" -> "更改运行时类型" 里进行设置
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

transform_train = transforms.Compose([
    transforms.RandomCrop(32, padding=4),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))])

transform_test = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))])

trainset = torchvision.datasets.CIFAR10(root='./data', train=True,  download=True, transform=transform_train)
testset  = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform_test)

trainloader = torch.utils.data.DataLoader(trainset, batch_size=128, shuffle=True, num_workers=2)
testloader = torch.utils.data.DataLoader(testset, batch_size=128, shuffle=False, num_workers=2)

classes = ('plane', 'car', 'bird', 'cat',
           'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

2. VGG 网络定义

下面定义VGG网络，参数太多，随便改简单了些~~~

现在的结构基本上是：

64 conv, maxpooling,

128 conv, maxpooling,

256 conv, 256 conv, maxpooling,

512 conv, 512 conv, maxpooling,

softmax

下面是模型的实现代码：

class VGG(nn.Module):
    def __init__(self):
        super(VGG, self).__init__()
        self.cfg = [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M']
        self.features = self._make_layers(cfg)
        self.classifier = nn.Linear(512, 10)

    def forward(self, x):
        out = self.features(x)
        out = out.view(out.size(0), -1)
        out = self.classifier(out)
        return out

    def _make_layers(self, self.cfg):
        layers = []
        in_channels = 3
        for x in cfg:
            if x == 'M':
                layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
            else:
                layers += [nn.Conv2d(in_channels, x, kernel_size=3, padding=1),
                           nn.BatchNorm2d(x),
                           nn.ReLU(inplace=True)]
                in_channels = x
        layers += [nn.AvgPool2d(kernel_size=1, stride=1)]
        return nn.Sequential(*layers)

初始化网络，根据实际需要，修改分类层。因为 tiny-imagenet 是对200类图像分类，这里把输出修改为200。

# 网络放到GPU上
net = VGG().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), lr=0.001)

3. 网络训练

训练的代码和以前是完全一样的：

for epoch in range(10):  # 重复多轮训练
    for i, (inputs, labels) in enumerate(trainloader):
        inputs = inputs.to(device)
        labels = labels.to(device)
        # 优化器梯度归零
        optimizer.zero_grad()
        # 正向传播 +　反向传播 + 优化 
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        # 输出统计信息
        if i % 100 == 0:   
            print('Epoch: %d Minibatch: %5d loss: %.3f' %(epoch + 1, i + 1, loss.item()))

print('Finished Training')

4. 测试验证准确率：

测试的代码和之前也是完全一样的。

correct = 0
total = 0

for data in testloader:
    images, labels = data
    images, labels = images.to(device), labels.to(device)
    outputs = net(images)
    _, predicted = torch.max(outputs.data, 1)
    total += labels.size(0)
    correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %.2f %%' % (
    100 * correct / total))

可以看到，使用一个简化版的 VGG 网络，就能够显著地将准确率由 64%，提升到 83.85%

Part3 思考题：

1、dataloader 里面 shuffle 取不同值有什么区别？

DataLoader用于加载数据到模型中
在pytorch 中的数据加载到模型的操作顺序是这样的：

① 创建一个 Dataset 对象
② 创建一个 DataLoader 对象
③ 循环这个 DataLoader 对象，将img, label加载到模型中进行训练

shuffer=False表示不打乱数据的顺序，然后以batch为单位从头到尾按顺序取用数据。shuffer=Ture表示在每一次epoch中都打乱所有数据的顺序，然后以batch为单位从头到尾按顺序取用数据。这样的结果就是不同epoch中的数据都是乱序的。

2、transform 里，取了不同值，这个有什么区别？

torchvision.transforms是pytorch中的图像预处理包，包含了很多种对图像数据进行变换的函数，这些都是在我们进行图像数据读入步骤中必不可少的。

torchvision.datasets 中的数据集都有两个参数：

transform：可以对数据进行的变换；
target_transform：可以对标签进行的变换。

而 torchvision.transforms.functional 模块提供了一些常用的转换，这些转换都能够接受以下三种输入：

PIL Image：对于 RGB 图像，size 为 (W, H)，将其转换为 NumPy array 后 size 为 (H, W, C)；
Tensor Image：指具有 shape 为 (C, H, W) 的一个 tensor，C 为通道数，H、W 分别是图像的高和宽；
batch of Tensor Images：指具有 shape 为 (B, C, H, W) 的一个 tensor，B 为 batchsize，也就是一个批次中的图像数量。

这里需要注意的一个地方是：

Pytorch 中存储的 Tensor Image 的存储格式为 (C, H, W)；而转换为 NumPy array 的 PIL Image 的存储格式为 (H, W, C)；
相关函数具体使用可见Pytorch(三)：数据变换 Transforms_犬冢紬希的博客-CSDN博客_target_transform

3、epoch 和 batch 的区别？

Batch大小是一个超参数，用于定义在更新内部模型参数之前要处理的样本数。

Epoch数是一个超参数，它定义了学习算法在整个训练数据集中的工作次数。Epoch由一个或多个Batch组成。

Batch大小是在更新模型之前处理的多个样本。Epoch数是通过训练数据集的完整传递次数。批处理的大小必须大于或等于1且小于或等于训练数据集中的样本数。

工作实例

假设您有一个包含200个样本（数据行）的数据集，并且您选择的Batch大小为5和1,000个Epoch。

这意味着数据集将分为40个Batch，每个Batch有5个样本。每批五个样品后，模型权重将更新。

这也意味着一个epoch将涉及40个Batch或40个模型更新。

有1000个Epoch，模型将暴露或传递整个数据集1,000次。在整个培训过程中，总共有40,000Batch。

神经网络中Batch和Epoch之间的区别是什么？_喜欢打酱油的老鸟的博客-CSDN博客_batch

4、1x1的卷积和 FC 有什么区别？主要起什么作用？

卷积跟全连接都是一个点乘的操作，区别在于卷积是作用在一个局部的区域，而全连接是对于整个输入而言，那么只要把卷积作用的区域扩大为整个输入，那就变成全连接了。全连接的输入是特征图所有元素乘以权重再求和，但是这个权重向量是在设计网络的时候就需要固定的，所以全连接没办法适应输入尺寸的变化只能固定。但是1*1卷积的输出与输入尺寸是一样大的，输出尺寸可以随着输入尺寸的变化而变化，所以1*1卷积无需固定输出尺寸。

1x1的卷积核可以降低特征图的维度同时加入非线性，实现跨通道信息交互（channal 的变换）

全连接层可以对输入的数据进行线性变换，还可以完成最后的分类任务

5、residual leanring 为什么能够提升准确率？

残差网络在每次输出前都在结果上＋输入，从而去掉相同的主体部分，从而突出微小的变化，同时它还是一个更灵活的网络，可以根据任务需求学习一个需要的网络深度

6、代码练习二里，网络和1989年 Lecun 提出的 LeNet 有什么区别？

1989年 Lecun 提出的 LeNet 是CNN的开山之作:

在Lenet-1中, 28x28 的输入图像 --> 4个24×24 feature maps卷积层(5×5 size) -->平均池化层(2×2大小） -->8个12×12 feature maps 卷积层(5×5 size)--> 平均池化层(2×2大小）--> 直接全连接后输出

引入卷积和下采样/池化层后，LeNet-1对测试数据的错误率为1.7%.值得注意的是，在作者发明LeNet时，他们使用平均池化层，输出2×2特征图的平均值。目前很多LeNet实现使用max pooling只输出2×2 feature map的最大值，这有助于加快训练速度。当选择最强的特征时，反向传播可以得到较大的梯度。
在LeNet系列中LeNet-5最受欢迎：

32x32的输入图像 => 6个28×28 feature maps 卷积层(5×5 size) => 平均池化层(2×2大小）=>16个10×10 feature maps 卷积层(5×5 size) => 平均池化层(2×2大小）=>全连接到120个神经元 => 全连接84个神经元 => 全连接到10个输出

有了更多的feature map和全连接层，测试数据的错误率为0.95%。

代码练习二中所构建的网络是LeNet-5的变形，比LeNet-5少了一个池化层，同时将LeNet-5中的平均池化优化为最大池化，将激活函数由softmax变换为relu

7、代码练习二里，卷积以后feature map 尺寸会变小，如何应用 Residual Learning?

通过线性变换将原图像缩小为和feature map大小相同的图像

当输入输出维度上升时有两种处理方式：第一种是仍使用恒等映射，多出来的通道使用零矩阵填充，这样做的好处是不会带来额外的参数；第二种是添加变换方程，通常来说会使用 1*1 卷积来完成升维。

8、有什么方法可以进一步提升准确率？

改进网络结构
选择合适的激活函数
选择合适的损失函数
使用更大的训练集：使用数据增强技术（data augmentation），主要是在训练数据上增加微小的扰动或者变化，一方面可以增加训练数据，从而提升模型的泛化能力，另一方面可以增加噪声数据，从而增强模型的鲁棒性。主要的数据增强方法有：翻转变换 flip、随机修剪（random crop）、色彩抖动（color jittering）、平移变换（shift）、尺度变换（scale）、对比度变换（contrast）、噪声扰动（noise）、旋转变换/反射变换（rotation/reflection）等
使用更深的网络
增加训练轮次

已解决的一些小问题：

1、VGG网络定义时报错name ‘cfg’ is not defined，需要做以下更改：

改为：

2、VGG网络训练时报错RuntimeError: mat1 and mat2 shapes cannot be multiplied (128x512 and 2048x10)，图片大小不同，需要做以下更改

改为：

你可能感兴趣的:(学习)

【一起学Rust | Tauri2.0框架】基于 Rust 与 Tauri 2.0 框架实现跨平台二维码扫描应用金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 rust 开发语言后端
《一起学Rust|Tauri2.0框架》是一个结合Rust语言与Tauri框架开发跨平台应用的教程。Tauri2.0是一个非常适合构建跨平台桌面应用的框架，它让开发者可以使用Web技术（如HTML、CSS、JavaScript）来创建前端，同时利用Rust编写后端逻辑，确保应用运行高效且轻量。在这个教程中，开发者可以学习如何使用Rust与Tauri2.0框架实现一个跨平台二维码扫描应用。具体步骤可
SAP-ABAP：SAP采购模块（MM-PUR）学习指南爱喝水的鱼丶 VIP详情查看专栏 SAP业务学习捷径 SAP-ABAP开发基础详解 ABAP SAP ERP 运维 SAP采购业务学习
Ⅰ.模块全景图采购管理需求计划供应商协同采购执行财务集成采购申请/MRP供应商评估/合同订单/收货/发票应付账款Ⅱ.核心配置矩阵2.1组织结构配置对象事务码配置关系业务影响示例值采购组织OX01分配公司代码跨法人采购1000-US工厂OX18链接采购组织库存管理2000-CH采购组OME9指定采购专家责任划分PG01-IT采购2.2单据类型配置单据类型配置路径关键字段审批策略应用场景标准采购订单M
【含文档+PPT+源码】基于微信小程序农家乐美食餐厅预约推广系统编程毕设微信小程序美食小程序
项目介绍本课程演示的是一款基于微信小程序农家乐美食餐厅预约推广系统，主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。1.包含：项目源码、项目文档、数据库脚本、软件工具等所有资料2.带你从零开始部署运行本套系统3.该项目附带的源码资料可作为毕设使用该系统功能架构图如下：技术栈说明技术栈：后端：SpringBoot+Vue+ElementUI（后端是前后端分离的）前端：Un
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
深入自制Shell：解锁Linux进程控制的实践密码 A charmer Linux linux 服务器运维
亲爱的读者朋友们，此文开启知识盛宴与思想碰撞。快来参与讨论，点赞、收藏⭐、分享，共创活力社区。在上一篇文章《Linux进程控制：创建、终止、等待与程序替换全解析》中，我们系统地学习了Linux进程控制相关知识，从进程的创建、终止，到进程等待与程序替换，每一个环节都为我们深入理解Linux系统的运行机制提供了关键线索。而现在，我们将沿着这条知识脉络，深入到自主Shell命令行解释器的实现领域，进一步
【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破寻道AI小兵 AI大模型前沿技术追踪人工智能语言模型 AIGC
系列篇章No.文章1【AI大模型前沿】深度剖析瑞智病理大模型RuiPath：如何革新癌症病理诊断技术2【AI大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破目录系列篇章前言一、项目概述二、技术原理（一）异构低秩适应（H-LoRA）（二）分层视觉感知（HVP）（三）三阶段学习策略（TLS）三、
Python零基础通关教程（二）：列表、字典与函数详解（附生活化案例）中意可口可乐 python 开发语言 windows python列表
一、前情回顾与学习路线第一篇重点复习：✅变量与数据类型✅条件判断✅循环结构本篇新知识地图：graphLRA[基础语法]-->B[列表]A-->C[字典]B-->D[函数进阶]C-->D二、列表(List)：你的数据收纳盒1.列表是什么？现实比喻：像超市购物车，可以随时添加/取出商品代码定义：用方括号[]包裹，元素用逗号分隔#创建购物车列表cart=["苹果","牛奶","面包"]print("购物
【含文档+PPT+源码】基于SpringBoot+vue的疫苗接种系统的设计与实现小咕聊编程 spring boot 后端 java
项目介绍本课程演示的是一款基于SpringBoot+vue的疫苗接种系统的设计与实现，主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。1.包含：项目源码、项目文档、数据库脚本、软件工具等所有资料2.带你从零开始部署运行本套系统3.该项目附带的源码资料可作为毕设使用疫苗接种系统包括管理员登录、用户管理、疫苗信息管理、疫苗接种管理、接种管理、疫苗百科知识管理、消息通知管理、
React学习笔记20 充气大锤 React学习笔记学习笔记 javascript 前端算法开发语言 react.js
一、React.forward1.1、作用通过ref暴露子组件的DOM1.2、场景说明1.3、语法实现//子组件constInput=forwardRef((props,ref)=>{return})//父组件functionfather_component(){constinputRef=useRef(null)constfocus=(ref)=>{ref.current.focus()}ret
知识蒸馏：从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新) AI仙人掌人工智能 AI 人工智能深度学习语言模型机器学习
知识蒸馏通过迁移教师模型（复杂）的知识到学生模型（轻量），实现模型压缩与性能平衡。核心在于利用教师模型的软标签（概率分布）替代独热编码标签，学生模型不仅学习到教师模型输出数据的类别信息，还能够捕捉到类别之间的相似性和关系，从而提升其泛化能力核心概念知识蒸馏的核心目标是实现从教师模型到学生模型的知识迁移。在实际应用中，无论是大规模语言模型（LLMs）还是其他类型的神经网络模型，都会通过softmax
【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？ 985小水博一枚呀深度学习学习笔记迁移学习人工智能机器学习域适应
【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？文章目录【迁移学习入门之域适应的背景、理论与方法】进一步理解迁移学习啦？1.背景介绍2.理论基础2.1分布差异（DomainShift）2.2迁移学习理论（TransferLearningTheory）2.3领域不变特征（Domain-invariantFeatures）
【论文精读】SCINet-基于降采样和交互学习的时序卷积模型打酱油的葫芦娃时序预测算法时序预测 SCINet TCN
《SCINet:TimeSeriesModelingandForecastingwithSampleConvolutionandInteraction》的作者团队来自香港中文大学，发表在NeurIPS2022会议上。动机该论文的出发点是观察到时间序列数据具有独特的属性：即使在将时间序列下采样成两个子序列后，时间关系（例如数据的趋势和季节性成分）也基本上得以保留。这个观察启发了作者去设计一种新型的神
迁移学习基础知识 zhooooooou 深度学习迁移学习人工智能机器学习
简介使用迁移学习的优势：1、能够快速的训练出一个理想的结果2、当数据集较小时也能训练出理想的效果。注意：在使用别人预训练的参数模型时，要注意别人的预处理方式。原理：对于浅层的网络结构，他们学习到的角点信息和纹理信息都是通用的，将学习好的浅层网络的信息迁移到新的网络中，这样新的网络也拥有了识别底层通用特征的能力，从而能加快网络学习新的数据集的高维特征。常见的迁移学习的方式：1、载入权重后训练所有参数
迁移学习入门 EmbodiedTech 人工智能大模型迁移学习人工智能机器学习
迁移学习1迁移学习的概念预训练模型定义:简单来说别人训练好的模型。一般预训练模型具备复杂的网络模型结构；一般是在大量的语料下训练完成的预训练语言模型的类别现在我们接触到的预训练语言模型，基本上都是基于transformer这个模型迭代而来的因此划分模型类别的时候，以transformer架构来划分：Encoder-Only:只有编码器部分的模型，代表：BERTDecoder-Only:只要解码器部
HarmonyOS TEXT 语音搜索场景学习和总结架构教育
在HarmonyOS中实现语音搜索功能时，涉及到麦克风权限的申请、音频数据的采集、编码和传输等多个步骤。以下是对上述代码的详细解析和补充说明：麦克风权限的申请与检查在HarmonyOS中，使用麦克风需要申请ohos.permission.MICROPHONE权限。在代码中，通过GRPermissionsUtils.checkPermissions方法来检查和申请权限。如果权限被授予，则可以继续进行
学习第十一天-树大橙子房 ai 学习
一、树的基础概念1.定义树是一种非线性数据结构，由n个有限节点组成层次关系集合。特点：有且仅有一个根节点其余节点分为若干互不相交的子树节点间通过父子关系连接2.关键术语术语定义节点包含数据和子节点引用的单元根节点树的起始节点，没有父节点子节点直接连接到父节点的节点叶子节点没有子节点的节点度节点拥有的子树数目树的高度从根节点到最远叶子节点的最长路径边数树的深度从根节点到当前节点的层数路径从根到某节点
SQL注入之ORDER BY注入是小七呀呀 sql 数据库网络安全
前言主要介绍本人在学习SQL注过程中遇到关于orderby这个字段的使用心得。一、ORDERBY是什么？orderby在mysql中就是用来对特定字段进行排序的，可以通过字段名进行指定，也可以通过数字1，2，3等进行指定，1就代表第一个字段，2就代表第二个字段，以此类推。因此，我我们就可以通过数字的方式，来判断查询的表格有几个字段，这样就避免了要知道表的字段名称的处境，为后续的sql注入打下基础。
什么是机器视觉3D引导大模型视觉人机器视觉机器视觉3D 3d 数码相机机器人人工智能大数据
机器视觉3D引导大模型是结合深度学习、多模态数据融合与三维感知技术的智能化解决方案，旨在提升工业自动化、医疗、物流等领域的操作精度与效率。以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer）进行特征提取与融合。例如，油田机
riscv linux 汇编,RISC-V汇编快速入门勤小墨 riscv linux 汇编
当今，强大的编译器将C或者更高级的语言编译成机器码后，其效能损失已经很小了，再加上芯片的性能越来越强，让汇编语言显得可有可无。但对于嵌入式来说至少在下面两种情况还需要汇编：1是启动代码，2是OS的上下文切换。另外在极端情况下使用汇编提高效率也是有必要的，例如芯片内核非常新编译器优化不够好可以在非常清楚CPU的微结构下进行指令集编码提高性能。因此学习一种新的体系结构，了解其汇编语言是非常有必要的。实
探索AI知识库的无限潜力：定义、应用与未来展望知识库知识库管理知识库软件
一、AI知识库的定义AI知识库，作为人工智能技术与传统知识库概念的融合，是指利用人工智能算法和技术构建、管理和维护的信息存储系统。它不仅包含了大量的结构化、半结构化和非结构化数据，还具备智能检索、推理分析、自我学习和优化等高级功能。AI知识库通过模拟人类的认知过程，实现了对知识的有效组织和高效利用，为各种应用场景提供了强大的支持。二、AI知识库的应用1.客户服务与支持在电子商务领域，AI知识库的应
【Hinton论文精读】The Forward-Forward Algorithm: Some Preliminary Investigations-202212 tyhj_sf 论文研读笔记 ML理论系列人工智能深度学习 FF算法
博文导航0引言1论文摘要2反向传播有什么问题呢？3Forward-Forward算法3.1使用逐层优化函数学习多层表示4Forward-Forward算法的实验4.1反向传播baseline4.2FF算法的一个简单的无监督的例子4.3FF算法的一个简单的监督例子4.4使用FF算法来模拟感知中自上而下的效应4.5作为教师使用空间环境的预测4.6CIFAR-10实验5睡眠6FF算法与其他对比性学习技术
斗地主老是输？一起用Python做个AI出牌器！姬姬姬姬姬姬 python 人工智能
前言最近在网上看到一个有意思的开源项目，基于快手团队开发的开源AI斗地主——DouZero做的一个“成熟”的AI，项目开源地址【https://github.com/tianqiraf/DouZero_For_HappyDouDiZhu–tianqiraf】。今天我们就一起来学习下是如何制作一个基于DouZero的出牌器，看看AI是如何来帮助斗地主的！一、核心功能设计首先这款出牌器是基于DouZe
HarmonyOS TEXT 语音搜索场景学习和总结架构教育
在HarmonyOS中实现语音搜索功能时，涉及到麦克风权限的申请、音频数据的采集、编码和传输等多个步骤。以下是对上述代码的详细解析和补充说明：麦克风权限的申请与检查在HarmonyOS中，使用麦克风需要申请ohos.permission.MICROPHONE权限。在代码中，通过GRPermissionsUtils.checkPermissions方法来检查和申请权限。如果权限被授予，则可以继续进行
学习单片机需要多长时间才能进行简单的项目开发？无际单片机编程单片机嵌入式硬件 stm32 嵌入式 java
之前有老铁问我，学单片机到底要多久，才能进行简单的项目开发？是三个月速成，还是三年磨一剑？今天咱们就来聊聊这个话题，我不是什么高高在上的专家，就是个踩过无数坑、烧过几块板子的“技术老友”。本文将用最接地气的话给你讲清楚，答案可能比你想的简单，也可能比你想的残酷，但肯定会让你心里有谱。单片机这东西，入门的第一道坎其实没那么高。你得先搞清楚几件基本装备：C语言、硬件基础、开发工具。C语言是单片机的“母
Python 机器学习基础之学习基础环境搭建仙魁XAN Python 机器学习基础+实战案例 python 学习开发语言机器学习 machine learning
Python机器学习基础之学习基础环境搭建目录Python机器学习基础之学习基础环境搭建一、简单介绍二、什么是机器学习三、python环境的搭建1、Python安装包下载2、这里以下载Python3.10.9为例3、安装Python3.10.94、检验python是否安装成功，win+R快捷打开运行，输入cmd，打开cmd四、Pycharm环境搭建1、下载Pycharm安装包2、安装Pycharm
深度学习在医学影像分析中的应用：DeepSeek系统的实践与探索 Evaporator Core #深度学习 #DeepSeek快速入门 DeepSeek进阶开发与应用深度学习人工智能
随着人工智能技术的迅猛发展，深度学习在医学领域的应用逐渐成为研究热点。医学影像分析作为医疗诊断的重要组成部分，正受益于深度学习技术的突破。DeepSeek系统是一种基于深度学习的医学影像分析平台，旨在通过高效、精准的算法辅助医生进行疾病诊断和治疗决策。本文将深入探讨DeepSeek系统的技术原理、实现方法及其在医学影像分析中的实际应用，并结合代码示例展示其核心功能。1.DeepSeek系统的技术架
【机器学习】主成分分析法（PCA）若兰幽竹机器学习机器学习信息可视化人工智能
【机器学习】主成分分析法（PCA）一、摘要二、主成分分析的基本概念三、主成分分析的数学模型五、主成分分析法目标函数公式推导（`梯度上升法`求解目标函数）六、梯度上升法求解目标函数第一个主成分七、求解前n个主成分及PCA在数据预处理中的处理步骤（后续实现）一、摘要本文主要讲述了主成分分析法（PCA）的原理和应用。PCA通过选择最重要的特征，将高维数据映射到低维空间，同时保持数据间的关系，实现降维和去
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
C++学习笔记:函数重载及函数模板 etp_ c++学习笔记
函数重载默认参数能让你使用不同数目的参数调用同一个函数，而函数多态（函数重载）能让你使用多个同名函数。----一般完成类似的工作，但一定使用不同的参数列表（函数特征标）。下面定义一组原型如下的print()函数voidprint(constchar*str,intwidth);voidprint(doubled,intwidth);voidprint(longl,intwidth);编译器根据参数
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

第2周学习：卷积神经网络基础

Part1 视频学习

一、绪论

卷积神经网络的应用

传统神经网络vs卷积神经网络

二、基本组成结构

卷积

池化 Polling：缩放

全连接：

三、卷积神经网络典型结构

AlexNet：2012年ImageNet图像分类竞赛中冠军

ZFNet：2013年ImageNet图像分类竞赛中冠军

VGG：一个更深的网络（原来只有8层），2014年第二名，先训练前11层，把参数固定住，再训练后面的

GoogleNet：2014年第一名

ResNet：残差学习网络，2015年ILSVRC竞赛冠军 ，深度有152层

Part2代码练习

MNIST 数据集分类

1. 加载数据 （MNIST）

2. 创建网络

3. 在小型全连接网络上训练（Fully-connected network）

4. 在卷积神经网络上训练

5. 打乱像素顺序再次在两个网络上训练与测试

CIFAR10 数据集分类

定义网络，损失函数和优化器：

训练网络：

使用 VGG16 对 CIFAR10 分类

1. 定义 dataloader

2. VGG 网络定义

3. 网络训练

4. 测试验证准确率：

Part3 思考题：

1、dataloader 里面 shuffle 取不同值有什么区别？

2、transform 里，取了不同值，这个有什么区别？

3、epoch 和 batch 的区别？

4、1x1的卷积和 FC 有什么区别？主要起什么作用？

5、residual leanring 为什么能够提升准确率？

6、代码练习二里，网络和1989年 Lecun 提出的 LeNet 有什么区别？

7、代码练习二里，卷积以后feature map 尺寸会变小，如何应用 Residual Learning?

8、有什么方法可以进一步提升准确率？

已解决的一些小问题：

你可能感兴趣的:(学习)

ResNet：残差学习网络，2015年ILSVRC竞赛冠军，深度有152层

1. 加载数据（MNIST）