kodoshinichi

【PyTorch】PyTorch深度学习实践|视频学习笔记|P10-11|CNN

PyTorch深度学习实践|CNN

CNN基础篇

CNN的整体计算框架

①相较全连接网络来说，CNN采用卷积核的层次架构是为了保留输入数据的空间特征信息；
②CNN从本质上来说，就是通过网络的叠加对原始数据做特征提取（Feature Extraction），将原始数据空间映射到目标特征空间，再对映射后得到的特征图，进行向量拉伸，连上一个FC和分类层。

卷积、池化与步长

convolution（卷积）

考虑最一般的卷积操作，有以下要点和结论：
①卷积核的通道数量应该和输入数据的通道数量保持一致；
②经过卷积运算后数据的通道数量应该和卷积核的个数保持一致；
③在卷积层和卷积运算中，输入图像的长宽和卷积核的大小并不存在对应关系，根据需求进行设定即可
④根据输入出数据的通道需求，假设需要m个大小为n x kernel_size_width x kernel_size_height的卷积核，则可以把这m个卷积核组合成一个四维张量的形式：m x n x kernel_size_width x kernel_size_height

import torch

#相关参数设定
in_channels,out_channels = 5,10
width,height = 100,100
kernel_size = 3
batch_size = 1 #在pytorch的实现中，所有数据都要采用mini-batch的形式

#随机化输入数据
input_data = torch.randn(batch_size,in_channels,width,height) #注意数据的维度写法(B,C,W,H)

#构造卷积层
conv_layer = torch.nn.Conv2d(in_channels,out_channels,kernel_size)#注意卷积层模型需传递的参数

#卷积计算输出结果
output_data = conv_layer(input_data)

#以下打印输入出和卷积层参数的维度，体会其中的维度变化
print(input_data.shape)
print(output_data.shape)
print(conv_layer.weight.shape)
'''
运行结果：
torch.Size([1, 5, 100, 100])
torch.Size([1, 10, 98, 98])
torch.Size([10, 5, 3, 3])
'''

padding（补零）

import torch
input_data = [3,4,6,5,7,
              2,4,6,8,2,
              1,6,7,8,4,
              9,7,4,6,2,
              3,7,5,4,1]
input_data = torch.Tensor(input_data).view(1,1,5,5)#将输入数据变形成（B,C,W,H）的形状

conv_layer = torch.nn.Conv2d(1,1,kernel_size=3,padding=1,bias = False)

kernel = torch.Tensor([1,2,3,4,5,6,7,8,9]).view(1,1,3,3)#卷积核应该满足（in_channel,out_channel,k_w,k_h)
conv_layer.weight.data = kernel.data #手动赋予卷积层权值

output_data = conv_layer(input_data)
print(output_data)
'''
运行结果：
tensor([[[[ 91., 168., 224., 215., 127.],
          [114., 211., 295., 262., 149.],
          [192., 259., 282., 214., 122.],
          [194., 251., 253., 169.,  86.],
          [ 96., 112., 110.,  68.,  31.]]]],
       grad_fn=)
'''

stride（步长）

通过在实例化卷积层对象的时候设置位置参数stride = xxx来设定该卷积层运算的步长；

步长改变的是卷积核每次右移（或下移）中心移动的像素点数；

不同的stride会使得卷积运算的数据结果的形状发生相应变化。

conv_layer = torch.nn.Conv2d(1,1,kernel_size=3,padding=1,stride=2,bias = False)

Max_Pooling（最大池化）

①最大池化层就是在给定的kernel_size x kernel_size的区域中选择当前最大的值作为输出中一个元素值；
②最大池化层没有参数，只需要指定kernel_size的大小即可；
③池化计算过程与通道数无关，因此计算前后数据的通道数也不会发生变化。

import torch
input_data = [3,4,6,5,
              2,4,6,8,
              1,6,7,8,
              9,7,4,6]
input_data = torch.Tensor(input_data).view(1,1,4,4)

maxpooling_layer = torch.nn.MaxPool2d(kernel_size=2)
output_data = maxpooling_layer(input_data)
print(output_data)
'''
运行结果：
tensor([[[[4., 8.],
          [9., 8.]]]])
'''

卷积层模型实例

①卷积-池化-激活或者卷积-激活-池化的顺序都可以，只要激活在两次卷积运算之间进行即可；
②要注意在进行全连接之前，首先将张量拉伸成一维的；

import torch

class Net(torch.nn.Module):
    def __init__(self):
        super(Net,self).__init__()
        self.conv1 = torch.nn.Conv2d(1,10,kernel_size=5)
        self.conv2 = torch.nn.Conv2d(10,20,kernel_size=5)
        self.pooling = torch.nn.MaxPool2d(2)
        self.fc = torch.nn.Linear(320,10) #这里的参数要计算匹配

    def _forward(self,x):
        batch_size = x.size(0)
        x = F.relu(self.pooling(self.conv1(x)))
        x = F.relu(self.pooling(self.conv2(x)))
        #将形如（n,1,28,28）的数据拉伸成（n,784）的形式，batch_size保持不变
        x = x.view(batch_size,-1) #进行FC之前将向量拉长
        x = self.fc(x) #采用多分类，最后一层不进行激活
        return x
model = Net()

GPU模型迁移

设定可行的设备参量

device = torch.device("cuda:0" if torch.cuda is available() else "cpu")

将模型及其参数进行迁移

model.to(device)

将数据集的输入输出进行迁移

如果将训练和测试过程都封装了函数train()和test()，则在函数内要对数据进行迁移；
否则要在主函数逻辑中的前向计算-反向传播-参数更新的逻辑链中对数据进行迁移。

inputs,targets = inputs.to(device),targets.to(device)

案例

使用CNN训练MNIST手写数字识别问题

import torch
from torchvision import transforms
from torchvision import  datasets
from torch.utils.data import DataLoader
import torch.nn.functional as F
import matplotlib.pyplot as plt

#超参数定义
BATCH_SIZE = 512
EPOCHS = 20
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")

#准备数据,转换成张量类型的数据，并进行归一化操作
batch_size = 64
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307),(0.3081))
])
train_dataset = datasets.MNIST(root = "../dataset/mnist",
                               train = True,download=False,transform = transform)
train_loader = DataLoader(train_dataset,shuffle = True,batch_size = batch_size)

test_dataset = datasets.MNIST(root = "../dataset/mnist",train = False,
                              download=False,transform = transform)
test_loader = DataLoader(test_dataset,shuffle = True,batch_size = batch_size)

#自定义网络模型
class Model(torch.nn.Module):
    def __init__(self):
        super(Model,self).__init__()
        self.conv1 = torch.nn.Conv2d(1,10,kernel_size = 5)
        self.conv2 = torch.nn.Conv2d(10,20,kernel_size=3,padding = 1)
        self.conv3 = torch.nn.Conv2d(20,20,kernel_size=3,padding = 1)
        self.pooling = torch.nn.MaxPool2d(2)
        self.l1 = torch.nn.Linear(180,16)
        self.l2 = torch.nn.Linear(16,10)

    def forward(self, x):
        batch_size = x.size(0)
        x = self.pooling(F.relu(self.conv1(x)))
        x = self.pooling(F.relu(self.conv2(x)))
        x = self.pooling(F.relu(self.conv3(x)))
        x = x.view(batch_size, -1)  # 进行FC之前将向量拉长
        x = self.l1(x)
        return self.l2(x)
model = Model().to(DEVICE)

#构建损失函数的计算和优化器
criterion = torch.nn.CrossEntropyLoss()#多分类交叉熵损失函数
op = torch.optim.SGD(model.parameters(),lr = 0.01)#采用SGD


#训练过程，包括前向计算和反向传播，封装成一个函数
def train(epoch):
    running_loss = 0.0
    for batch_idx,data in enumerate(train_loader,0):
        inputs,target = data
        op.zero_grad()

        #前向计算
        outputs = model(inputs)
        loss = criterion(outputs,target)
        #反向传播与权值更新
        loss.backward()
        op.step()

        running_loss += loss.item()
        if batch_idx % 300 == 299:#每训练300代就输出一次
            print('[%d,%5d] loss: %3f' % (epoch+1,batch_idx+1,running_loss / 300))
            running_loss = 0.0

#测试过程，封装成函数
def vali():
    correct = 0
    total = 0
    with torch.no_grad():#因为test的过程无需反向传播，也就不需要计算梯度
        for data in test_loader:
            images,labels = data
            outputs = model(images)
            _,predicted = torch.max(outputs.data,dim = 1)#因为是按批给的数据
            #所以得到的数据标签也是一个矩阵
            total += labels.size(0) #同样labels也是一个Nx1的张量
            correct += (predicted == labels).sum().item()
        print('Accuracy on test set: %d %%'%(100 * correct / total))

#主函数逻辑
if __name__ == '__main__':
    for epoch in range(10): #一共训练10epochs
        train(epoch)
        vali()

'''
运行结果：
[1,  300] loss: 2.224153
[1,  600] loss: 0.954984
[1,  900] loss: 0.318726
Accuracy on test set: 93 %
[2,  300] loss: 0.198788
[2,  600] loss: 0.157404
[2,  900] loss: 0.145021
Accuracy on test set: 96 %
[3,  300] loss: 0.122874
[3,  600] loss: 0.120096
[3,  900] loss: 0.105074
Accuracy on test set: 96 %
[4,  300] loss: 0.094667
[4,  600] loss: 0.095276
[4,  900] loss: 0.090835
Accuracy on test set: 97 %
[5,  300] loss: 0.084520
[5,  600] loss: 0.084876
[5,  900] loss: 0.078178
Accuracy on test set: 97 %
[6,  300] loss: 0.074427
[6,  600] loss: 0.072950
[6,  900] loss: 0.074670
Accuracy on test set: 98 %
[7,  300] loss: 0.067066
[7,  600] loss: 0.068477
[7,  900] loss: 0.066709
Accuracy on test set: 98 %
[8,  300] loss: 0.060533
[8,  600] loss: 0.060498
[8,  900] loss: 0.064969
Accuracy on test set: 98 %
[9,  300] loss: 0.056990
[9,  600] loss: 0.057694
[9,  900] loss: 0.057002
Accuracy on test set: 98 %
[10,  300] loss: 0.056185
[10,  600] loss: 0.056508
[10,  900] loss: 0.050906
Accuracy on test set: 98 %
'''

CNN高级篇

GoogleNet

网络结构

可以看到网络结构趋向于复杂，那么我们在定义实现这个网络时，就要尽可能减少代码的冗余：
①面向过程编程中，使用函数进行功能封装
②面向对象编程中，使用类进行功能封装

2. Inception

该网络构成的基本思路：因为事先无法知道超参数怎样选择才能使得网络具有最优的结果，因此对各种可能的超参数结构进行一个罗列，通过训练结果自然可以看出哪种超参数更优。

p.s.其中因为各路分支采取的kernel_size不一致，但是在最终拼接的时候要求图像块的尺寸WXH是一致的，所以需要规定好stride和padding。

1x1卷积

①它可以跨越不同通道的相同位置的元素值，也可以说成是实现了信息融合；

②1x1卷积最直接的作用就是改变数据的通道数目；

③从应用角度来说，1x1卷积的结构可以大大减少计算量。

实现

Inception块各个计算分支的实现

import torch
import torch.nn.functional as F
#对Inception网络块中的各个计算分支进行实现
#以下每个代码块均按照以下逻辑展开：
# 先写类定义中的初始化
# 再写出数据的前向传播计算过程

# Average-Pooling + 1x1 Conv
self.branch_pool = nn.Conv2d(in_channels,24,kernel_size = 1)

branch_pool = F.avg_pool2d(x,kernel_size = 3,stride = 1,padding = 1)#维度一致，使用padding
branch_pool = self.branch_pool(branch_pool)

# 1x1 Conv
self.branch1x1 = nn.Conv2d(in_channels,16,kernel_size = 1)

branch1x1 = self.branch1x1(x)

# 1x1 Conv + 5x5 Conv
self.branch5x5_1 = nn.Conv2d(in_channels,16,kernel_size = 1)
self.branch5x5_2 = nn.Conv2d(16,24,kernel_size = 5,padding = 2)#维度一致，使用padding

branch5x5 = self.branch5x5_1(x)
branch5x5 = self.branch5x5_2(branch5x5)

#1x1 Conv + 3x3 Conv + 3x3 Conv
self.branch3x3_1 = nn.Conv2d(in_channels,16,kernel_size = 1)
self.branch3x3_2 = nn.Conv2d(16,24,kernel_size = 3,padding = 1)
self.branch3x3_3 = nn.Conv2d(24,24,kernel_size = 3,padding = 1)

branch3x3 = self.branch3x3_1(x)
branch3x3 = self.branch3x3_2(branch3x3)
branch3x3 = self.branch3x3_3(branch3x3)

Inception块和含有Inception块的网络结构的代码实现

# 首先对Inception网络块进行抽象封装
# 其他的网络结构则可以直接调用封装好的Incpetion块来构成完整网络
class InceptionA(nn.Module):
    def __init__(self,in_channels):
        super(InceptionA,self).__init__()
        self.branch1x1 = nn.Conv2d(in_channels, 16, kernel_size=1)

        self.branch5x5_1 = nn.Conv2d(in_channels, 16, kernel_size=1)
        self.branch5x5_2 = nn.Conv2d(16, 24, kernel_size=5, padding=2)

        self.branch3x3_1 = nn.Conv2d(in_channels, 16, kernel_size=1)
        self.branch3x3_2 = nn.Conv2d(16, 24, kernel_size=3, padding=1)
        self.branch3x3_3 = nn.Conv2d(24, 24, kernel_size=3, padding=1)

        self.branch_pool = nn.Conv2d(in_channels, 24, kernel_size=1)

    def forward(self,x):
        branch1x1 = self.branch1x1(x)

        branch5x5 = self.branch5x5_1(x)
        branch5x5 = self.branch5x5_2(branch5x5)

        branch3x3 = self.branch3x3_1(x)
        branch3x3 = self.branch3x3_2(branch3x3)
        branch3x3 = self.branch3x3_3(branch3x3)

        branch_pool = F.avg_pool2d(x,kernel_size = 3,stride = 1,padding = 1)
        branch_pool = self.branch_pool(branch_pool)

        outputs = [branch1x1,branch5x5,branch3x3,branch_pool]
        return torch.cat(outputs,dim = 1)#沿着通道方向进行堆叠

ResNet

提出背景

总的来说，ResNet框架的诞生源于深度学习中网络越来越深和训练越来越难之间的一个trade-off：
①一方面，我们希望网络尽可能学习到更加复杂和细粒度的特征；
②另一方面，深层网络在训练之中会碰到梯度消失的问题。

基本思想

skip connection

梯度消失产生的原因：在链式求导法则下，大量小于1的数字连乘最终会趋向于0，使得接近输入层的网络权值无法得到很好的训练。

解决的方法：在进行激活函数之前，这层的输出值先和输入值进行一个叠加，这样在进行梯度求导时，接近于0的梯度就会变成接近于1，连乘时就不再会产生趋近于0的问题。

实现
（1）残差网络块的实现

# 残差网络块的实现
class ResidualBlock(nn.Module):
    def __init__(self,channels):
        super(ResidualBlock,self).__init__()
        self.channels = channels
        self.conv1 = nn.Conv2d(channels,channels,kernel_size = 3,padding = 1)
        self.conv2 = nn.Conv2d(channels,channels,kernel_size = 3,padding = 1)
        #因为残差块的输入出最后要叠加起来一起进行激活，所以通道、长和宽这里都处理成一致的
        
    def forward(self,x):
        y = F.relu(self.conv1(x))
        y = self.conv2(y)
        return F.relu(x+y)

（2）残差网络块在整个深度神经网络中的实现

#利用残差块搭建网络结构
class Net(nn.Module):
    def __init__(self):
        super(Net,self).__init__()
        self.conv1 = nn.Conv2d(1, 16, kernel_size=5, padding=2)
        self.conv2 = nn.Conv2d(16, 32, kernel_size=5, padding=2)
        self.mp = nn.MaxPool2d(2)

        self.rblock1 = ResidualBlock(16)
        self.rblock2 = ResidualBlock(32)

        self.fc = nn.Linear(512,10)

    def forward(self,x):
        in_size = x.size(0)
        x = self.mp(F.relu(self.conv1(x)))
        x = self.rblock1(x)
        x = self.mp(F.relu(self.conv2(x)))
        x = self.rblock2(x)
        x = x.view(in_size,-1)
        x = self.fc(x)
        return x

遗留问题：我没有计算出为什么线性层的输入维度是512

课后作业

多种ResNet的构造方式
Densely-connected卷积网络

之后会以paper_reading的形式给出

语音识别开源项目推荐：GitHub热门仓库盘点 AGI大模型与大数据研究院 AI大模型应用开发实战语音识别开源 github ai
2024年必看！GitHub热门语音识别开源项目全解析：从入门到实战关键词语音识别(ASR)、开源项目、GitHub、Whisper、FunASR、PaddleSpeech、深度学习摘要想象一下：开车时只需说一句话就能自动发消息，听英文演讲时实时获得中文翻译，给视障人士读文本时精准转换——这些场景的背后，语音识别（AutomaticSpeechRecognition,ASR）技术正在改变我们与机器
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
DL00478-涡轮叶片缺陷检测数据集yolo格式1300张左右
涡轮叶片缺陷检测数据集yolo格式1300张左右涡轮叶片缺陷检测数据集YOLO格式解析：提升研究与论文写作的关键要点在研究涡轮叶片缺陷检测的过程中，数据集的选择和格式处理是一个至关重要的环节。特别是当你打算通过卷积神经网络（CNN）等深度学习模型进行缺陷检测时，数据集的标注和格式化直接影响到模型的训练效果和论文的质量。本文将重点探讨涡轮叶片缺陷检测数据集的YOLO格式，并分析如何利用这一格式为研究
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
2024年1月15日学习记录——有关resnet18的简单再实现 BARBERUM 学习深度学习人工智能
2024年1月15日学习记录1.有关resnet18重写并训练的任务resnet本意为resdualnet，就是残差神经网络，利用shortcut的连接方式，将特征层隔层连接，在保留原有特征的同时进行深层卷积。可以有效的解决因神经网络层数的叠加而导致的退化问题。根据以下的逻辑图实现:首先图片作为输入，格式为[3,32,32]经过一个7*7的卷积核和一个最大池化层后进入残差结构层第一级残差结构层为两
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
深度强化学习 | 图文详细推导深度确定性策略梯度DDPG算法 Mr.Winter` 机器人人工智能数据挖掘深度学习神经网络强化学习具身智能
目录0专栏介绍1演员-评论家架构1.1Critic网络优化1.2Actor网络优化2深度确定性策略梯度算法0专栏介绍本专栏以贝尔曼最优方程等数学原理为根基，结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景，深入探讨如何将DRL与路径规划、动态避障等任务结合，包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节，旨在帮助读者掌握深度强化学
GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
边缘计算与量子模型优化驱动医疗诊断新突破
内容概要在医疗人工智能领域，边缘计算与量子模型优化的协同演进正重构诊断系统的技术范式。通过将计算节点前置至医疗设备端，边缘架构有效解决了传统云端模型面临的实时性瓶颈，配合量子优化算法对复杂特征空间的快速寻优能力，使得CT、MRI等高维影像数据的解析效率提升显著。值得关注的是，框架选型直接影响着模型部署的可行性——TensorFlow在移动端推理优化方面的工具链完备性，与PyTorch动态图机制对迭
精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介
项目使用到MLIR，通过了解triton对MLIR的使用，体会到MLIR在较大项目中的使用方式，汇总一下。1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码，又不必过度关注底层硬件细节。这样，通过简化高性能计算，可以加速新算法的实现和实验。传统GPU
pytorch图像分类全流程（二）前人栽树,后人乘凉 datawhale pytorch pytorch 分类 python
本次使用的是ImageNet1000类别信息，resnet18预训练模型。记录一些一坑和知识点。在传入图片或视频之前我们都会对其进行预处理，归纳下来为四个字母RCTN：缩放、裁剪、转Tensor、归一化，可以使用transforms.Compose()函数打包对应四个函数进行预处理，当然这里有个小坑，transforms.Compose()只接受pillow格式的图像，不能拿opencv传入图片。
PyTorch图像分类系列——流程概览 VAMOT PyTorch图像分类系列 pytorch 深度学习分类计算机视觉
一、加载数据1.使用torchvision.datasets的方法加载经典数据集在此网址查看支持哪些经典数据集：Datasets—Torchvision0.18documentation(pytorch.org)data_train=torchvision.datasets.CIFAR10(root="CIFAR10",train=True,transform=ToTensor(),target_
tensorflow sigmoid_cross_entropy_with_logits 函数解释及公式推导 CrazyWolf_081c
tensorflowsigmoid_cross_entropy_with_logits函数解释及公式推导tensorflow官方文档解释参考pytorch--BCELosspytorch--BCELoss解释参考定义在tensorflow/python/ops/nn_impl.py.功能：计算在给定logits和label之间的sigmoidcrossentropy。测量离散分类任务中的概率误差，
ai绘画生成软件哪个好？几款好用的AI绘画软件分享! 呼酱小宝箱
随着人工智能技术的不断发展，越来越多的AI绘画生成软件被开发出来。这些软件利用深度学习技术，可以将普通照片或图像转化成具备艺术效果的画作。那么，ai绘画生成软件哪个好？首先，让我们来看一下几个常见的AI绘画生成软件，它们分别是：1、DeepDreamDeepDream是由Google开发的一款AI绘画生成软件。它通过卷积神经网络对输入的图片进行处理，从而生成出具有艺术风格的画作。DeepDream
Pytorch图像二分类代码 AlexNet 望舒向晚 Pytorch pytorch 深度学习机器学习
importtorchimporttorch.nnasnnimporttorch.optimasoptimimporttorch.utils.dataimporttorch.nn.functionalasFimporttorchvisionfromtorchvisionimporttransformsfromPILimportImagedefcheck_image(path):try:im=Ima
基于逻辑回归的图像二分类算法实现（Pytorch版）哎呦哥哥、图像分类 pytorch 逻辑回归分类
基于逻辑回归的图像二分类算法实现（Pytorch版）数据集模型代码数据集链接：FastFoodClassificationDataset我们只使用Burger和Pizza这两类。模型代码importtorchimporttorch.nnasnnfromtorchvision.models.utilsimportload_state_dict_from_urlmodel_urls={'resnet5
DeepSeek部署指南：从入门到精通 wujj_whut 热门应用 c++DeepSeek 嵌入式实时数据库
DeepSeek部署指南：从入门到精通引言在人工智能和深度学习领域，模型的部署是一个至关重要的环节。DeepSeek作为一款强大的深度学习框架，其部署过程不仅关系到模型的性能表现，还直接影响到实际应用的效果。本文将详细介绍DeepSeek的部署流程，涵盖从环境配置到实际应用的各个方面，旨在帮助读者全面掌握DeepSeek的部署技巧。一、DeepSeek简介DeepSeek是一款开源的深度学习框架，
【人工智能之深度学习】1. 深度学习基石：神经元模型与感知机的数学本质（附代码实现与收敛性证明） AI_DL_CODE 人工智能之深度学习人工智能深度学习神经元模型感知机赫布法则深度学习基础线性可分
摘要：作为深度学习的基础单元，神经元模型与感知机承载着从生物智能到人工神经网络的桥梁作用。本文从生物神经元的工作机制出发，系统剖析数学建模过程：详解赫布法则的权重更新原理（Δwi=η·xi·y），推导McCulloch-Pitts神经元模型的数学表达（y=Θ(∑wixi−b)），重点证明感知机在linear可分情况下的收敛性——通过Novikoff定理严格推导迭代次数上界，揭示间隔γ对收敛速度的影
深度学习在环境感知中的应用：案例与代码实现
让机器学会“看”世界：深度学习如何赋能环境感知？关键词深度学习|环境感知|计算机视觉|传感器融合|语义分割|目标检测|自动驾驶摘要环境感知是机器与外界互动的“眼睛和耳朵”——从自动驾驶汽车识别行人，到智能机器人避开障碍物，再到城市监控系统检测异常，所有智能系统都需要先“理解”环境，才能做出决策。传统环境感知方法依赖手工特征提取，难以应对复杂场景；而深度学习通过数据驱动的方式，让机器从大量数据中自动
自编码器表征学习：重构误差与隐空间拓扑结构的深度解析码字的字节机器学习自编码器重构误差隐空间
自编码器基础与工作原理自编码器（Autoencoder）作为深度学习领域的重要无监督学习模型，其核心思想是通过模拟人类认知过程中的"压缩-解压"机制实现数据的表征学习。这种由GeoffreyHinton团队在2006年复兴的神经网络结构，本质上是一个试图通过编码-解码过程来复制其输入的系统，却在实现这一看似简单目标的过程中，意外地获得了强大的特征提取能力。基本架构与工作流程典型自编码器由对称的两部
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

【PyTorch】PyTorch深度学习实践|视频学习笔记|P10-11|CNN

PyTorch深度学习实践|CNN

CNN基础篇

CNN的整体计算框架

卷积、池化与步长

卷积层模型实例

GPU模型迁移

案例

CNN高级篇

GoogleNet

ResNet

课后作业

你可能感兴趣的:(深度学习,#,PyTorch,pytorch,cnn,深度学习,resnet)