白衣西蜀梅子酒

部分卷积网络结构（一）

文章目录

前言
一、LeNet
- 1.1 网络结构与亮点
- 1.2 代码
二、AlexNet
- 2.1 网络结构与亮点
- 2.2 代码
三、VGG
- 3.1 网络结构与亮点
- 3.2 代码
四、GoogLeNet
- 4.1 网络结构与亮点
- 4.2 代码
五、ResNet
- 5.1 网络结构与亮点
- 5.2 代码
六、MobileNet
- 6.1 网络结构与亮点
- 6.2 代码

前言

本文主要记录了一些经典的卷积网络架构，以及相应的pytorch代码。

提示：以下是本篇文章正文内容。

一、LeNet

1.1 网络结构与亮点

网络结构：

亮点：
1）卷积神经网络使用三个层作为一个系列：卷积，池化，非线性
2）使用卷积提取空间特征
3）使用映射到空间均值下采样（subsample）
4）双曲线（tanh）或S型（sigmoid）形式的非线性
6）层与层之间的稀疏连接矩阵避免大的计算成本

1.2 代码

import torch
import torch.nn.functional as F
import torch.nn as nn
import torch.optim as optim
import torchvision
import matplotlib.pyplot as plt
import numpy as np
from PIL import Image ##用该库来打开图片导入对应的数据
## 显示图片
def imshow(img):
    npimg=img.numpy()
    plt.imshow(np.transpose(npimg,(1,2,0))) ## 将图片的维度转换
    plt.show()
class LeNet(nn.Module):
    def __init__(self):
        super(LeNet,self).__init__()
        self.conv1=torch.nn.Conv2d(3,16,(5,5))
        self.pool1=torch.nn.MaxPool2d(2,2)  ## 不指定步长，则默认为kersize
        self.conv2=torch.nn.Conv2d(16,32,(5,5))
        self.pool2=torch.nn.MaxPool2d(2,2)
        self.fc1=torch.nn.Linear(32*5*5,120)
        self.fc2=torch.nn.Linear(120,84)
        self.fc3=torch.nn.Linear(84,10)
    def forward(self,X):
        X=F.relu(self.conv1(X))
        X=self.pool1(X)
        X=F.relu(self.conv2(X))
        X=self.pool2(X)
        X=X.view(-1,32*5*5)
        X=F.relu(self.fc1(X))
        X=F.relu(self.fc2(X))
        Z=self.fc3(X)
        return Z
x_test=0
net=LeNet()
loss_func=torch.nn.CrossEntropyLoss()
optimizer=torch.optim.Adam(net.parameters(),lr=0.01)
outputs=0
for epoch in range(500):
    running_loss=0.0
    optimizer.zero_grad() ## 如果不请空，那就可以做到大batchsize的梯度计算
    if(epoch % 500 ==499):
        with torch.no_grad():  ## 不计算误差梯度
            outputs=net(x_test)
            predict_y=torch.max(outputs,dim=1)[1] ## 返回概率最大的index
            pass
save_path=""
torch.save(net.state_dict(),save_path)  ## 保存网络的参数
net=LeNet()
net.load_state_dict(torch.load(""))

二、AlexNet

2.1 网络结构与亮点

网络结构：

亮点：
1.全部采用了非线性激活函数Relu
2.LRN（局部归一化层，后面证实无效果）overlapping pooling 网络的整体架构（pool的卷积核为stride < kernei_size，会出现重叠池化现象，有利于防止过拟合）
3.防止过拟合技术，数据增强和dropout（通过随机从256256的原始图像中截取224224的区域，来增加数据量，防止过拟合。）

2.2 代码

import torch
import torch.nn as nn
from torch.utils.data import DataLoader
import torch.nn.functional as F
import torchvision.transforms as transforms
import torchvision.datasets as datasets
from tqdm import tqdm
class AlexNet(nn.Module):
    def __init__(self,num_classes=5):
        super(AlexNet,self).__init__()
        self.features=nn.Sequential(
            nn.Conv2d(3,48,kernel_size=11,stride=4,padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3,stride=2),
            nn.Conv2d(48,128,kernel_size=5,padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3,stride=2),
            nn.Conv2d(128,192,kernel_size=3,padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(192,192,kernel_size=3,padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(192,128,kernel_size=3,padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3,stride=2)
        )
        self.classifier=nn.Sequential(
            nn.Dropout(p=0.5),
            nn.Linear(128*6*6,4096),
            nn.ReLU(inplace=True),
            nn.Dropout(p=0.5),
            nn.Linear(4096,4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096,num_classes)
        )

    def forward(self,x):
        x=self.features(x)
        x=torch.flatten(x,start_dim=1)
        x=self.classifier(x)
        return x
device=torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
data_transform={
    "train":transforms.Compose([transforms.RandomResizedCrop(224),
                                transforms.RandomHorizontalFlip(),
                                transforms.ToTensor(),
                                transforms.Normalize((0.5,0.5,0.5),(0.5,0.5,0.5))
                                ]),
    "val":transforms.Compose([transforms.Resize((224,224)),
                              transforms.ToTensor(),
                              transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
                              ])}

image_path=r'E:/MyCode/pythonProject1/MyPytorch/data_set/flower_data/'
train_data=datasets.ImageFolder(root=image_path+"train",transform=data_transform['train'])
validate_dataset = datasets.ImageFolder(root=image_path+"val",
                                            transform=data_transform["val"])
val_num = len(validate_dataset)
validate_loader = torch.utils.data.DataLoader(validate_dataset,
                                                  batch_size=4, shuffle=False,
                                                  num_workers=0)
flower_index=train_data.class_to_idx
cla_dict=dict((val,key) for key,val in flower_index.items())
batch_size=32
data_loader=DataLoader(train_data,batch_size=batch_size,shuffle=True,num_workers=0)
net=AlexNet()
net.to(device)
loss_func=nn.CrossEntropyLoss()
optimizer=torch.optim.Adam(net.parameters(),lr=0.0002)
best_acc=0.0
epochs = 10
print(device)
for epoch in range(epochs):
    net.train()
    runnning_loss=0.0
    train_steps = len(data_loader)
    train_bar = tqdm(data_loader)
    for step,data in enumerate(train_bar,start=0):
        images,labels=data
        optimizer.zero_grad()
        output=net(images.to(device))
        loss=loss_func(output,labels.to(device))
        loss.backward()
        optimizer.step()
        runnning_loss+=loss.item()
        train_bar.desc = "train epoch[{}/{}] loss:{:.3f}".format(epoch + 1,
                                                                 epochs,
                                                                 loss)
    net.eval()
    acc = 0.0  # accumulate accurate number / epoch
    with torch.no_grad():
        val_bar = tqdm(validate_loader)
        for val_data in val_bar:
            val_images, val_labels = val_data
            outputs = net(val_images.to(device))
            predict_y = torch.max(outputs, dim=1)[1]
            acc += torch.eq(predict_y, val_labels.to(device)).sum().item()
    val_accurate = acc / val_num
    print('[epoch %d] train_loss: %.3f  val_accuracy: %.3f' %
          (epoch + 1, runnning_loss / train_steps, val_accurate))
    if val_accurate > best_acc:
        best_acc = val_accurate

三、VGG

3.1 网络结构与亮点

VGG网络的结构

一般而言我们采用的是D的结构。其中conv层的stride=1，padding=1
maxpool的size=2，stride=2

相关亮点
1.通过堆叠多个33的卷积核来替代大尺度卷积核（减少所需参数），同时拥有更多的非线性变换，增加了CNN对特征的学习能力。（多个卷积层与非线性的激活层交替的结构，比单一卷积层的结构更能提取出深层的更好的特征。）
(因为多个非线性层会增加网络的深度，从而允许其学习更复杂的特征，并且计算成本更低)
比如通过堆叠两个33的卷积核可以替代55的卷积核。
通过堆叠三个33的卷积核可以替代7*7的卷积核。
上述的替代都有相同的感受野。

补充： CNN感受野决定某一层输出结果中一个元素所对应的输入层的区域大小被称作感受野。通俗来说，即输出的feature map上的一个单元对应输入层上的区域大小。
感受野的计算公式如下：

2.在VGGNet的卷积结构中，引入1*1的卷积核，在不影响输入输出维度的情况下，引入非线性变换，增加网络的表达能力，降低计算量。

3.训练时，先训练级别简单（层数较浅）的VGGNet的A级网络，然后使用A网络的权重来初始化后面的复杂模型，加快训练的收敛速度。

4.采用了Multi-Scale的方法来训练和预测。可以增加训练的数据量，防止模型过拟合，提升预测准确率。

补充：多尺寸训练
每一幅图像单独的从[Smin,Smax]中随机选取S来进行尺寸缩放(Smin=256，Smax=512)。由于图像中的对象可能是各种尺寸的，因此在训练中采用这种方法是有利的。这同样可以看作是一种尺寸抖动(scale jittering)的训练集数据增强，使得一个单一模型能够识别各种尺寸的对象。考虑到训练速度，我们使用固定S=384预训练模型相同的配置对一个单尺度模型的所有层进行微调，来训练多尺度模型。

5.证明了局部归一化层的不起作用。

6.使用小卷积的好处：
（1）更少的参数量；（2）更多的非线性变换，使得CNN对特征的学习能力更强；
（3）隐式的正则化效果（收敛速度要快）。

可参考： OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks

参考文献
Very Deep Convolutional Networks for Large-Scale Image Recognition

3.2 代码

import torch
import torch.nn.functional as F
import numpy as np
import torch.nn as nn
class VGGNet(nn.Module):
    def __init__(self,features,class_num=1000):
        super(VGGNet,self).__init__()
        self.features=features
        self.classifier=nn.Sequential(
            nn.Dropout(p=0.5),
            nn.Linear(512*7*7,4096),
            nn.ReLU(True),
            nn.Dropout(p=0.5),
            nn.Linear(2048,4096),
            nn.ReLU(True),
            nn.Linear(4096,class_num)
        )
    ## 前向传播
    def forward(self,x):
        x=self.features(x)
        x=torch.flatten(x,start_dim=1)
        x=self.classifier(x)
        return x
    ## 初始化参数
    def _initialize_weights(self):
        for m in self.modules():
            if isinstance(m,nn.Conv2d):
                nn.init.xavier_uniform(m.weight)
                if m.bias is not None:
                    nn.init.constant_(m.bias,0)
            if isinstance(m,nn.Linear):
                nn.init.xavier_uniform(m.weight)
                nn.init.constant_(m.bias,0)
## 生成提取特征网络结构
def make_feature(cfg:list):
    layers=[]
    ## 默认输入channel
    in_channels=3
    for v in cfg:
        if v=='M':
            layers+=[nn.MaxPool2d(kernel_size=2,stride=(2,2))]
        else:
            conv2d=nn.Conv2d(in_channels,v,kernel_size=(3,3),padding=(1,1))
            layers+=[conv2d,nn.ReLU(True)]
            in_channels=v
    ## 非关键字参数传入参数
    return nn.Sequential(*layers)
## VGGNet的配置参数字典
cfgs={
    'VGG-11':[64,'M',128,'M',256,256,'M',512,512,'M',512,512,'M'],
    'VGG-13':[64,64,'M',128,128,'M',256,256,'M',512,512,'M',512,512,'M'],
    'VGG-16':[64,64,'M',128,128,'M',256,256,256,'M',512,512,512,'M',512,512,512,'M'],
    'VGG-19':[64,64,'M',128,128,'M',256,256,256,256,'M',512,512,512,512,'M',512,512,512,512,'M']
}
def vgg(model_name='vgg-16',**kwargs):
    try:
        cfg=cfgs[model_name]
    except:
        raise BaseException
    ## kwargs 可变长度的字典变量
    model=VGGNet(make_feature(cfg),**kwargs)
    return model

## 采用gpu训练
device=torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

四、GoogLeNet

4.1 网络结构与亮点

网络的具体框架

论文的动机或者思路：
直接提升深度神经网络的方法就是增加网络的尺寸，包括宽度和深度。深度也就是网络中的层数，宽度指每层中所用到的神经元的个数。但是这种简单直接的解决方式存在的两个重大的缺点。
(1)网络尺寸的增加也意味着参数的增加，也就使得网络更加容易过拟合。
(2)计算资源的增加。
该论文通过想到将全连接的方式改为稀疏连接来解决这两个问题。

数据集的概率分布由大又稀疏的深度神经网络表达时，网络拓扑结构可由逐层分析与输出高度相关的上一层的激活值和聚类神经元的相关统计信息来优化。（Provable bounds for learning some deep representations）

通常全连接是为了更好的优化并行计算，而稀疏连接是为了打破对称来改善学习，于是思索是否有方法能够既能保持网络结构的稀疏性，又能利用密集矩阵的高计算性能。通过已有文献可知将稀疏矩阵聚类为较为密集的子矩阵能提高计算性能，于是提出了Inception结构。

相关亮点：
1.增加了inception结构，在不增加计算负载的情况下，增加网络的宽度和深度。

补充对于inception结构的一些想法
（1）1*1卷积核：
在相同尺寸的感受野中叠加更多的卷积，能提取到更丰富的特征。（Network in Network）
同时降维来降低计算复杂性。

（2）在特征维度进行拼接的原因（融合不同尺度的特征信息）
利用稀疏矩阵分解成密集矩阵计算的原理来加快收敛速度
在多个尺度上同时进行卷积，能提取到不同尺度的特征。特征更为丰富也意味着最后分类判断时更加准确。

（通过多个卷积核提取图像不同尺度的信息，最后进行融合，可以得到图像更好的表征。）

2.添加了两个辅助分类器帮助训练
3.丢弃了全连接层层，使用平均池化层（大大减少模型的参数）

辅助分类器

参考文献
Going Deeper with Convolutions

4.2 代码

import telnetlib
import torch
import torchvision.transforms as transforms
import torch.nn.functional as F
import torch.nn as nn
import torchvision.datasets as datasets
from torch.utils.data import DataLoader
from tqdm import tqdm
## 定义GooLeNet类
class GooLeNet(nn.Module):
    def __init__(self,num_classes=1000,use_aux=True):
        super(GooLeNet, self).__init__()
        self.use_aux=use_aux
        self.conv1=BasicConv2d(3,64,kernel_size=7,stride=2,padding=3)
        ## ceil_mode 如果计算为小数，则向上取整， false 为向下取整
        self.maxPool1=nn.MaxPool2d(3,stride=2,ceil_mode=True)
        self.conv2=BasicConv2d(64,64,kernel_size=1)
        self.conv3=BasicConv2d(64,192,kernel_size=3,padding=1)
        self.maxPool2=nn.MaxPool2d(3,stride=2,ceil_mode=True)
        self.inception3a=Inception(192,64,96,128,16,32,32)
        self.inception3b=Inception(256,128,128,192,32,96,64)
        self.maxPool3=nn.MaxPool2d(3,stride=2,ceil_mode=True)
        self.inception4a=Inception(480,192,96,208,16,48,64)
        self.inception4b=Inception(512,160,112,224,24,64,64)
        self.inception4c=Inception(512,128,128,256,24,64,64)
        self.inception4d=Inception(512,112,144,288,32,64,64)
        self.inception4e=Inception(528,256,160,320,32,128,128)
        self.maxPool4=nn.MaxPool2d(kernel_size=3,stride=2,ceil_mode=True)
        self.inception5a=Inception(832,256,160,320,32,128,128)
        self.inception5b=Inception(832,384,192,384,48,128,128)
        if use_aux:
            self.aux1=AuxiliaryClassifier(512,num_classes)
            self.aux2=AuxiliaryClassifier(528,num_classes)
        ## 自适应 给定输出矩阵的高和宽
        self.avgPool=nn.AdaptiveAvgPool2d((1,1))
        self.dropout=nn.Dropout(0.4)
        self.fc=nn.Linear(1024,num_classes)
    def forward(self,x):
        x=self.conv1(x)
        x=self.maxPool1(x)
        x=self.conv2(x)
        x=self.conv3(x)
        x = self.maxPool2(x)
        x=self.inception3a(x)
        x=self.inception3b(x)
        x=self.maxPool3(x)
        x=self.inception4a(x)
        if self.training and self.use_aux:
            aux1=self.aux1(x)
        x=self.inception4b(x)
        x=self.inception4c(x)
        x=self.inception4d(x)
        if self.training and self.use_aux:
            aux2=self.aux2(x)
        x=self.inception4e(x)
        x=self.maxPool4(x)
        x=self.inception5a(x)
        x=self.inception5b(x)
        x=self.avgPool(x)
        x=torch.flatten(x,1)
        x=self.dropout(x)
        x=self.fc(x)
        if self.training and self.use_aux:
            return x,aux2,aux1
        return x
## 定义辅助分类器
class AuxiliaryClassifier(nn.Module):
    def __init__(self,in_channel,num_classes):
        super(AuxiliaryClassifier,self).__init__()
        self.avgPool=nn.AvgPool2d(kernel_size=5,stride=3)
        self.conv=BasicConv2d(in_channel,128,kernel_size=1)
        self.fc1=nn.Linear(2048,1024)
        self.fc2=nn.Linear(1024,num_classes)
    def forward(self,x):
        x=self.avgPool(x)
        x=self.conv(x)
        x=torch.flatten(x,start_dim=1)
        ## self.training 可以由model.train() 或者model.eval() 来修改
        x=F.dropout(x,p=0.7,training=self.training)
        x=F.relu(self.fc1(x),inplace=True)
        x=F.dropout(x,p=0.7,training=self.training)
        x=self.fc2(x)
        return x
## 定义Inception 结构
## ch1v1 等为对应的卷积核个数
class Inception(nn.Module):
    def __init__(self,in_channels,ch1v1,ch3v3red,ch3v3,ch5v5red,ch5v5,pool_proj):
        super(Inception,self).__init__()
        self.branch1=BasicConv2d(in_channels,ch1v1,kernel_size=1)
        self.branch2=nn.Sequential(
            BasicConv2d(in_channels,ch3v3red,kernel_size=1),
            BasicConv2d(ch3v3red,ch3v3,kernel_size=3,padding=1)
        )
        self.branch3=nn.Sequential(
            BasicConv2d(in_channels,ch5v5red,kernel_size=1),
            BasicConv2d(ch5v5red,ch5v5,kernel_size=5,padding=2)
        )
        self.branch4=nn.Sequential(
            nn.MaxPool2d(kernel_size=3,stride=1,padding=1),
            BasicConv2d(in_channels,pool_proj,kernel_size=1)
        )
    def forward(self,x):
        branch1=self.branch1(x)
        branch2=self.branch2(x)
        branch3=self.branch3(x)
        branch4=self.branch4(x)
        outputs=[branch1,branch2,branch3,branch4]
        ## 输入参数为 矩阵， 合并的维度 这里是channel
        return torch.cat(outputs,1)
## 定义基础的卷积层(包括激活函数)
class BasicConv2d(nn.Module):
    def __init__(self,in_channels,out_channels,**kwargs):
        super(BasicConv2d,self).__init__()
        self.conv=nn.Conv2d(in_channels,out_channels,**kwargs)
        ## inplace 增加计算量来减少内存使用
        self.relu=nn.ReLU(inplace=True)
    def forward(self,x):
        x=self.conv(x)
        x=self.relu(x)
        return x
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
data_transform = {
    "train": transforms.Compose([transforms.RandomResizedCrop(224),
                                 transforms.ToTensor(),
                                 transforms.RandomHorizontalFlip(),
                                 transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]),
    "eval": transforms.Compose([transforms.RandomSizedCrop((224, 224)),
                                transforms.ToTensor(),
                                transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
}
image_path = r'E:/MyCode/pythonProject1/MyPytorch/data_set/flower_data/'
train_data = datasets.ImageFolder(root=image_path + "train", transform=data_transform['train'])
eval_data = datasets.ImageFolder(root=image_path + "val", transform=data_transform['eval'])
train_num = len(train_data)
eval_num = len(eval_data)
batch_size = 32
train_loader = DataLoader(train_data, batch_size=batch_size, shuffle=True, num_workers=0)
validate_loader = torch.utils.data.DataLoader(eval_data,
                                                  batch_size=batch_size, shuffle=False,
                                                  num_workers=0)
##
net = GooLeNet(num_classes=5)
epoches = 10
loss_func = nn.CrossEntropyLoss()
net.to(device)
optimizer = torch.optim.Adam(net.parameters(), lr=0.0002)
train_steps = len(train_loader)
for epoch in range(epoches):
    net.train()
    running_loss = 0.0
    train_bar = tqdm(train_loader)
    for step, data in enumerate(train_bar,start=0):
        optimizer.zero_grad()
        images,labels=data
        output,aux1,aux2=net(images.to(device))
        loss1=loss_func(output,labels.to(device))
        loss2=loss_func(aux1,labels.to(device))
        loss3=loss_func(aux2,labels.to(device))
        loss = loss1 + loss2 * 0.3 + loss3 * 0.3
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
        train_bar.desc = "train epoch[{}/{}] loss:{:.3f}".format(epoch + 1,
                                                                 epoches,
                                                                 loss)
    net.eval()
    acc = 0.0
    with torch.no_grad():
        val_bar = tqdm(validate_loader)
        for data in val_bar:
            val_images, val_labels = data
            output = net(val_images.to(device))
            predict_y = torch.max(output, dim=1)[1]
            acc += torch.eq(predict_y, val_labels.to(device)).sum().item()
    val_accurate = acc / eval_num
    print('[epoch %d] train_loss: %.3f  val_accuracy: %.3f' %
          (epoch + 1, running_loss / train_steps, val_accurate))

五、ResNet

5.1 网络结构与亮点

ResNet的网络结构：

论文的一些思路想法
1.当神经网络更深时，会出现梯度爆炸/消失的情况。出现该情况的原因并非是神经网络的过拟合，而是在适当的深度模型上添加更多的层会导致更高的训练误差，所导致的。

论文采用残差块以及跳跃链接的方式来解决上述问题。即提出residual层，明确地让这些层拟合残差映射，而不是希望每几个堆叠的层直接拟合期望的基础映射。

跳跃连接既不增加额外的参数也不增加计算复杂度。

补充：残差表示：
在图像识别中，VLAD是一种通过关于字典的残差向量进行编码的表示形式，Fisher矢量可以表示为VLAD的概率版本。它们都是图像检索和图像分类中强大的浅层表示。对于矢量量化，编码残差矢量被证明比编码原始矢量更有效。
跳跃链接：训练多层感知机（MLP）的早期实践是添加一个线性层来连接网络的输入和输出。

残差结构更易于学习：
1.如果恒等映射是最优的，求解器可能简单地将多个非线性连接的权重推向零来接近恒等映射。
2.在实际情况下，恒等映射不太可能是最优的，但是我们的重构可能有助于对问题进行预处理。

残差：
在线性拟合中的残差说的是数据点距离拟合直线的函数值的差，那么这里我们可以类比，这里的X就是我们的拟合的函数，而H（x）的就是具体的数据点，那么我通过训练使的拟合的值加上F（x）的就得到具体数据点的值，因此这 F（x）的就是残差了，还是画个图吧，如下图：

如果已经学习到较饱和的准确率（或者当发现下层的误差变大时），那么接下来的学习目标就转变为恒等映射的学习，也就是使输入x近似于输出H(x)，以保持在后面的层次中不会造成精度下降。
在上图的残差网络结构图中，通过“shortcut connections（捷径连接）”的方式，直接把输入x传到输出作为初始结果，输出结果为H(x)=F(x)+x，当F(x)=0时，那么H(x)=x，也就是上面所提到的恒等映射。于是，ResNet相当于将学习目标改变了，不再是学习一个完整的输出，而是目标值H(X)和x的差值，也就是所谓的残差F(x) := H(x)-x，因此，后面的训练目标就是要将残差结果逼近于0，使到随着网络加深，准确率不下降。

补充：设计网络的规则：
1.对于输出feature map大小相同的层，有相同数量的filters，即channel数相同；
2.当feature map大小减半时（池化），filters数量翻倍。
对于残差网络，维度匹配的shortcut连接为实线，反之为虚线。维度不匹配时，同等映射有两种可选方案：

1）直接通过zero padding 来增加维度（channel）。
2）乘以W矩阵投影到新的空间。实现是用1x1卷积实现的，直接改变1x1卷积的filters数目。这种会增加参数。

亮点
1.相比传统的卷积神经网络如VGG复杂度降低，需要的参数下降。
2.可以做到更深，不会出现梯度弥散的问题。
3.优化简单，分类准确度加深由于使用更深的网络。
4.解决深层次网络的退化问题。

参考文献：
Deep Residual Learning for Image Recognition

5.2 代码

import torch
import torchvision
import torch.nn.functional as F
import torch.nn as nn
from torch.utils.data import DataLoader
import torch.optim as optim
class ResNet(nn.Module):
    ## block 所使用的的块, 每个conv的残差块的个数 列表
    def __init__(self,block,block_num,num_classes=1000):
        super(ResNet,self).__init__()
        ## 根据论文默认为64
        self.in_channels=64
        self.conv1=nn.Conv2d(3,self.in_channels,kernel_size=7,stride=2,padding=3,bias=False)
        self.bn1=nn.BatchNorm2d(self.in_channels)
        self.relu=nn.ReLU(inplace=True)
        ## 需要为原来的一般，默认向下取整
        self.maxpool=nn.MaxPool2d(kernel_size=3,stride=2,padding=1)
        self.layer1=self._make_layer(block,64,block_num[0])
        self.layer2=self._maker_layer(block,128,block_num[1],stride=2)
        self.layer3=self._maker_layer(block,256,block_num[2],stride=2)
        self.layer4=self._maker_layer(block,512,block_num[3],stride=2)
        self.avgpool=nn.AdaptiveAvgPool2d((1,1))
        self.fc=nn.Linear(512*block.expansion,num_classes)
    def _maker_layer(self,block,channel,block_num,stride=1):
        downsample=None
        if stride!=1 or self.in_channels !=channel*block.expansion:
            downsample=nn.Sequential(
                nn.Conv2d(self.in_channels,channel*block.expansion,kernel_size=1,stride=stride,bias=False),
                nn.BatchNorm2d(channel*block.expansion)
            )
        layers=[]
        layers.append(block(self.in_channels,channel,downsample=downsample,stride=stride))
        self.in_channels=channel*block.expansion
        for _ in range(1,block_num):
            layers.append(block(self.in_channels,channel))
        return nn.Sequential(*layers)
    def forward(self,x):
        x=self.conv(x)
        x=self.bn1(x)
        x=self.relu(x)
        x=self.maxpool(x)
        x=self.layer1(x)
        x=self.layer2(x)
        x=self.layer3(x)
        x=self.layer4(x)
        x=self.avgpool(x)
        x=torch.flatten(x,1)
        x=self.fc(x)
        return x
## 18 30 层的基本残差块
class BasicBlock(nn.Module):
    ## 残差结构的卷积核个数是否变动 ,如果为1则不变
    expansion=1
    ## downsample 下采样 捷径是否有对应的修改维度的操作
    def __init__(self,in_channels,out_channels,stride=1,downsample=None):
        super(BasicBlock,self).__init__()
        self.conv1=nn.Conv2d(in_channels=in_channels,out_channels=out_channels,kernel_size=3,stride=stride,padding=1,bias=False)
        self.bn1=nn.BatchNorm2d(out_channels)
        self.relu=nn.ReLU()
        self.conv2=nn.Conv2d(in_channels=out_channels,out_channels=out_channels,kernel_size=3,stride=1,padding=1,bias=False)
        self.bn2=nn.BatchNorm2d(out_channels)
        self.downsample=downsample
    def forward(self,x):
        identity=x
        if self.downsample is not None:
            identity=self.downsample(x)
        out=self.conv1(x)
        out=self.bn1(out)
        out=self.relu(out)
        out=self.conv2(out)
        out=self.bn2(out)
        out+=identity
        out=self.relu(out)
        return out
## 50层的基本类
class Bottleneck(nn.Module):
    ## 类似的由论文可知 50层，101层，152层的每个残差结构的最后一个的卷积核个数为之前的4倍，所以为4
    expansion=4
    def __init__(self,in_channels,out_channels,stride=1,downsample=None):
        super(Bottleneck,self).__init__()
        self.conv1=nn.Conv2d(in_channels=in_channels,out_channels=out_channels,kernel_size=1,stride=1,bias=False)
        self.bn1=nn.BatchNorm2d(out_channels)
        self.conv2=nn.Conv2d(in_channels=out_channels,out_channels=out_channels,kernel_size=3,stride=stride,padding=1,bias=False)
        self.bn2=nn.BatchNorm2d(out_channels)
        self.conv3=nn.Conv2d(in_channels=out_channels,out_channels=out_channels*self.expansion,kernel_size=1,stride=1,bias=False)
        self.bn3=nn.BatchNorm2d(out_channels*self.expansion)
        self.relu=nn.ReLU(inplace=True)
        self.downsample=downsample
    def forward(self,x):
        identity=x
        if self.downsample is not None:
            identity=self.downsample(x)
        out=self.conv1(x)
        out=self.bn1(out)
        out=self.relu(out)
        out=self.conv2(out)
        out=self.bn2(out)
        out=self.relu(out)
        out=self.conv3(out)
        out=self.bn3(out)
        out+=identity
        out=self.relu(out)
        return out
def resnet34(num_classes=1000):
    return ResNet(BasicBlock,[3,4,6,4],num_classes=num_classes)

def resnet101(num_classes=1000):
    return ResNet(Bottleneck,[3,4,23,3],num_classes=num_classes)

补充
ResNet 有两种残差结构，一种是虚线残差（因为输入与输出的维度不同，所以在shortcut上需要通过1*1的矩阵进行维度变换）另一种是实线残差（输入输出维度相同，之间线性组合）
同时在ResNet 层数18.24层,conv2的输入与输出相同所以为实线，但是其余的则不相同，在该conv2的第一个残差块需要用虚线残差。
同理，后续的conv3，conv4,conv5的第一个残差结构都需要使用虚线残差。

六、MobileNet

6.1 网络结构与亮点

MobileNet_v1网络结构：

论文的一些思路与动机：
为了能够在移动设备上完成相应的计算机视觉方面的实现，需要能够在不大幅度降低准确率的情况下，大量减少计算所需的参数。
由此提出了深度可分离卷积，同时增加两个模型收缩超参数即宽度乘法器和分辨率乘法器。

亮点：
1.深度可分离卷积(Depthwise Separable Conv)：
深度卷积（Depthwise Conv，DW）对每个通道使用一种卷积核,即第m个卷积核应用于F中的第m个通道来产生第m个通道的卷积输出特征图。由此可以大幅降低所需的参数量。

但是，深度卷积只对输入通道进行卷积，没有对其进行组合来产生新的特征。由此，需要在下一层来加上一个11的卷积来对深度卷积的输出计算一个线性组合从而产生新的特征。(Pointwise Conv,PW)
通过深度卷积加上1x1卷积的逐点卷积的结合而产生的深度可分离卷积，在理论上能够比标准卷积少了8-9倍的计算量，同时只有极小的准确率下降。
2.增加了超参数宽度乘法器α，分辨率乘法器β。
其中宽度乘法器α：主要是对每一层薄化，使其输入通道数与输出通道数同为α倍，一般设置为1\0.75\0.5\0.25。（通过实验可知薄化操作比浅化操作效果更好）
分辨率乘法器β：设置输入的分辨率大小，即βDF。

补充深度可分离卷积用于空间滤波的轻量深度深度卷积和用于特征生成的较重的1x1点向卷积。

MobileNet_v2：
论文的一些思路和动机：
优化MobileNet_v1，希望能够在更小的数据量的情况下，有更好的准确性。

网络结构：

亮点：
1.倒残差结构（inverted residual structure）：首先将输入从低维扩展到高维，然后用深度卷积做过滤，再将其从高维压缩到低维。同时采用relu6激活函数。

2.Linear Bottlenecks
我们认为在神经网络中，相应的manifold of interest（被翻译为兴趣流行，即通过一连串的卷积和激活层形成），是可以嵌入到低维子空间的。

补充：从某种意义上来说，MobileNetv1的宽度控制因子α也是控制激活空间的维度，使得manifold of interest 横跨整个空间。

但是如果当前的激活空间内的manifold of interest 有较高的完整度，那么经过Relu会丢失掉部分的信息。

从上图，我们可以看到，对于低纬度的，Relu会丢失大量的信息。
由此，我们知道，如果我们想要让manifold of interest 能够较完整的保留在低维空间，那么Relu很可能会过滤掉很多的有用信息，而对于没有过滤的部分，relu的作用是一个线性的分类器。
于是论文中提出使用linear bottleneck来代替Relu的非线性激活变换。(在结构的最后一个PW后不通过relu激活函数而是直接输出）

补充：如果manifold of interest 可通过激活空间嵌入到显著的低维子空间，那么通常ReLU变换可保留信息

参考文献
1.MobileNets: Efficient Convolutional Neural Networks for MobileVision Applications
2.MobileNetV2: Inverted Residuals and Linear Bottlenecks

6.2 代码

import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np
import torch.optim as optim
class ConvBNReLu(nn.Sequential):
    def __init__(self,in_channels,out_channels,kernel_size=3,stride=1,groups=1):
        padding=(kernel_size-1)//2
        super(ConvBNReLu,self).__init__(nn.Conv2d(in_channels=in_channels,out_channels=out_channels,kernel_size=kernel_size,stride=stride,groups=groups,bias=False,padding=padding),
                                        nn.BatchNorm2d(out_channels),
                                        nn.ReLU6(inplace=True)
                                        )

class InvertResidual(nn.Module):
    ## expand_ratio 扩展因子
    def __init__(self,in_channel,out_channel,stride,expand_ratio):
        super(InvertResidual,self).__init__()\
        ## tk
        hidden_channel=in_channel*expand_ratio
        ## 是否使用shortcut
        self.use_shortcut=stride==1 and in_channel==out_channel
        layers=[]
        if expand_ratio!=1:
            ## 添加一个1*1的升维卷积
            layers.append(ConvBNReLu(in_channel,hidden_channel,kernel_size=1))
        layers.extend([
            ##dw卷积
            ConvBNReLu(hidden_channel,hidden_channel,kernel_size=3,stride=stride,groups=hidden_channel),
            ## 使用的是线性激活函数
            nn.Conv2d(hidden_channel,out_channel,kernel_size=1,bias=False),
            nn.BatchNorm2d(out_channel)
        ])
        self.conv=nn.Sequential(*layers)
    def forward(self,x):
        if self.use_shortcut:
            return x+self.conv(x)
        else:
            return self.conv(x)
## min_ch 采用的channel的最小个数
def _make_divisible(ch,divisor=8,min_ch=None):
    if min_ch is None:
        min_ch=divisor
    ## 将输入的channels 调整到最近的8的整数倍的数值  当ch=12 时为16
    new_ch=max(min_ch,int(ch+divisor/2)//divisor*divisor)
    ## 调整后的channel不能减少超过10%
    if new_ch<0.9*ch:
        new_ch+=divisor
    return new_ch
class MobileNetV2(nn.Module):
    def __init__(self,num_classes=1000,alpha=1.0,round_nearest=8):
        super(MobileNetV2,self).__init__()
        block=InvertResidual
        ## 将输入的维度调整维roundnestest的整数倍
        input_channels=_make_divisible(32*alpha,round_nearest)
        last_channels=_make_divisible(1280*alpha,round_nearest)
        ## 残差块的参数设置
        inverted_residual_setting=[
            [1,16,1,1],
            [6,24,2,2],
            [6,32,3,2],
            [6,64,4,2],
            [6,96,3,1],
            [6,160,3,2],
            [6,320,1,1],
        ]
        features=[]
        features.append(ConvBNReLu(3,input_channels,stride=2))
        for t,c,n,s in inverted_residual_setting:
            ## 调整每层的输出channel
            output_channel=_make_divisible(c*alpha,round_nearest)
            for i in range(n):
                ## s是每个残差结构第一层的stride，后续的都为1
                stride=s if i==0 else 1
                features.append(block(input_channels,output_channel,stride,expand_ratio=t))
                input_channels=output_channel

        features.append(ConvBNReLu(input_channels,last_channels,1))
        self.features=nn.Sequential(*features)
        self.avgpool=nn.AdaptiveAvgPool2d((1,1))
        ## 全连接层
        ## 或者可以按照论文结构直接使用Conv2d ，Conv2d与linear两者效果一样
        # self.classifier=nn.Sequential(
        #     nn.Conv2d(last_channels,num_classes,kernel_size=1,stride=1)
        # )
        self.classifier=nn.Sequential(
            nn.Dropout(0.2),
            nn.Linear(last_channels,num_classes)
        )
    def forward(self,x):
        x=self.features(x)
        x=self.avgpool(x)
        x=torch.flatten(x,1)
        x=self.classifier(x)
        return x

补充：并非每个残差结构都有shortcut，而是当stride=1且输入特征矩阵与输出特征矩阵shape相同时才有shortcut连接。

你可能感兴趣的:(深度学习图像识别,pytorch)

DeepSeek部署指南：从入门到精通 wujj_whut 热门应用 c++DeepSeek 嵌入式实时数据库
DeepSeek部署指南：从入门到精通引言在人工智能和深度学习领域，模型的部署是一个至关重要的环节。DeepSeek作为一款强大的深度学习框架，其部署过程不仅关系到模型的性能表现，还直接影响到实际应用的效果。本文将详细介绍DeepSeek的部署流程，涵盖从环境配置到实际应用的各个方面，旨在帮助读者全面掌握DeepSeek的部署技巧。一、DeepSeek简介DeepSeek是一款开源的深度学习框架，
【人工智能之深度学习】1. 深度学习基石：神经元模型与感知机的数学本质（附代码实现与收敛性证明） AI_DL_CODE 人工智能之深度学习人工智能深度学习神经元模型感知机赫布法则深度学习基础线性可分
摘要：作为深度学习的基础单元，神经元模型与感知机承载着从生物智能到人工神经网络的桥梁作用。本文从生物神经元的工作机制出发，系统剖析数学建模过程：详解赫布法则的权重更新原理（Δwi=η·xi·y），推导McCulloch-Pitts神经元模型的数学表达（y=Θ(∑wixi−b)），重点证明感知机在linear可分情况下的收敛性——通过Novikoff定理严格推导迭代次数上界，揭示间隔γ对收敛速度的影
深度学习在环境感知中的应用：案例与代码实现
让机器学会“看”世界：深度学习如何赋能环境感知？关键词深度学习|环境感知|计算机视觉|传感器融合|语义分割|目标检测|自动驾驶摘要环境感知是机器与外界互动的“眼睛和耳朵”——从自动驾驶汽车识别行人，到智能机器人避开障碍物，再到城市监控系统检测异常，所有智能系统都需要先“理解”环境，才能做出决策。传统环境感知方法依赖手工特征提取，难以应对复杂场景；而深度学习通过数据驱动的方式，让机器从大量数据中自动
自编码器表征学习：重构误差与隐空间拓扑结构的深度解析码字的字节机器学习自编码器重构误差隐空间
自编码器基础与工作原理自编码器（Autoencoder）作为深度学习领域的重要无监督学习模型，其核心思想是通过模拟人类认知过程中的"压缩-解压"机制实现数据的表征学习。这种由GeoffreyHinton团队在2006年复兴的神经网络结构，本质上是一个试图通过编码-解码过程来复制其输入的系统，却在实现这一看似简单目标的过程中，意外地获得了强大的特征提取能力。基本架构与工作流程典型自编码器由对称的两部
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
深度学习--利用梯度下降法进行多变量的二分类（感知机）白话学生nit 深度学习分类人工智能
其实这一节涉及到了感知机的相关知识，就把这一节当作是学习感知机的引子吧。什么是二分类我们先来说一下什么是二分类，二分类指的是将结果分为两个互斥的类别，通常用来表示问题的两种可能。为什么用感知机学习二分类常见的解决问题的模型有很多，这里我们使用感知机模型。至于为什么，因为感知机模型很多地方用起来比较简便，就拿我们这一节的问题举一下例子，我们需要依照房子的价格对房子进行分类。在感知机模型中，我们可以使
2018 MacBook Pro 安装cuda+cuDNN+pytorch
2018MacBookPro安装cuda+cuDNN+pytorch根据CSDN上的两篇文章和知乎上的一篇文章，前前后后折腾了好几天，在一个小姐姐的帮助下终于装上了。我的环境系统版本：macOS10.13.6(17G10021)GPUDriverVersion:387.10.10.10.40.133CUDADriverVersion:410.130CUDA：cuda_10.0.130cuDNN：c
智能喷洒机器人目标识别系统：基于NanoDet的目标检测与UI界面实现 YOLO实战营机器人目标检测 ui NanoDet 计算机视觉目标跟踪深度学习
在现代农业生产中，自动化喷洒系统是实现精准农业的重要组成部分。智能喷洒机器人通过图像识别和自动控制技术，能够高效识别并精确喷洒农药、肥料等，提高农业生产效率，降低化学品使用量，减少环境污染。目标识别是智能喷洒机器人中至关重要的部分，它涉及到精准的作物和病虫害识别，确保喷洒操作的准确性。在本篇博客中，我们将构建一个基于NanoDet深度学习目标检测模型的智能喷洒机器人目标识别系统。我们将介绍如何使用
对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
【深度学习新浪潮】什么是system 1和system 2？小米玄戒Andrew 深度学习新浪潮深度学习人工智能大模型推理模型 COT 模型蒸馏动态推理
在大模型研究中，System1和System2的概念源于心理学家DanielKahneman的双系统理论，用于描述人类思维的两种模式。System1代表快速、直觉、自动化的思维（如模式识别），而System2代表慢速、有意识、需要努力的逻辑推理（如复杂数学计算）。这一理论被引入AI领域后，成为理解大模型能力边界和优化方向的重要框架。一、大模型中的System1与System2的定义System1（
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
推荐项目： Few-Shot-Adversarial-Learning-for-face-swap 邱晋力
推荐项目：Few-Shot-Adversarial-Learning-for-face-swap去发现同类优质开源项目:https://gitcode.com/1、项目介绍Few-Shot-Adversarial-Learning-for-face-swap是一个基于PyTorch的开源实现，重演了三星AI实验室的一项前沿研究——“Few-ShotAdversarialLearningofReal
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
深度学习分布式训练：并行策略与通信机制的系统性分析 Takoony 深度学习分布式人工智能
1.引言随着深度学习模型规模的指数级增长，单一计算设备已无法满足训练需求。以GPT-3为例，其1750亿参数在FP16精度下需要约350GB存储空间（每个参数2字节），远超当前主流GPU的显存容量（如NVIDIAA100的80GB）。根据OpenAI的技术报告[1]，即使使用最先进的硬件，单卡训练GPT-3需要355年。这一计算瓶颈催生了分布式训练技术的快速发展。本文将从理论基础出发，系统性地分析
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
Orange3实战教程：图像分析---图像嵌入 err2008 Orange3 实战教程数据挖掘神经网络自然语言处理机器学习计算机视觉深度学习 orange3中文版
图像嵌入通过深度神经网络实现图像嵌入。输入图像：图像列表。输出嵌入向量：用数字向量表示的图像。跳过的图像：未计算嵌入向量的图像列表。图像嵌入功能读取图像并将其上传至远程服务器或本地计算。深度学习模型用于为每张图像计算特征向量。该功能返回一个增强的数据表，包含额外的列（图像描述符）。图像可以通过导入图像小部件导入，也可以通过电子表格中的图像路径导入。在这种情况下，包含图像路径的列需要一个三行表头，第
Hadoop与图像识别与处理 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Hadoop与图像识别与处理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在大数据时代，数据的爆炸性增长对数据处理技术提出了新的挑战。图像数据作为一种重要的数据形式，其处理和分析在许多领域中具有重要意义，如医疗影像分析、自动驾驶、安防监控等。然而，传统的图像处理方法在面对海量图像数据时显得力不从心。Hadoop作为一种分
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
为什么用Pytorch帮客户训练好了模型还要提供模型结构？ yuanpan pytorch 人工智能机器学习
如果我在训练模型后生成好了一个模型文件：mnist_model.pth我想把这个模型文件给第三方使用，而不告诉他模型定义的结构等信息，那么第三方是不是就用不起来这个模型？答案：是的。如果只提供.pth文件而不告知模型结构，第三方确实无法直接使用该模型。原因和解决方案如下：1.为什么无法直接使用？.pth文件仅保存参数：torch.save(model.state_dict(),'mnist_mod
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
autodl云计算平台使用ollama 部署lightrag 加入streamlit界面 42fourtytoo 云计算深度学习 pytorch 学习
1到autodl的算力市场里开一台机器镜像选择：PyTorch2.3.0、Python3.12(ubuntu22.04)、Cuda12.1我本来选择的Cuda12.4，但版本过高疑似会使ollama不使用GPU而只用CPU，后来换个镜像就好了2下载lightrag从lightrag的GitHub界面下载zip开机，上传zip，解压到autodl-tmp/lightrag下安装依赖，在文件夹下：pi
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS