Henry_zhangs

MobileNet V1 图像分类

1. 介绍

2. MobileNet V1 亮点

2.1 深度可分离卷积

2.2 超参数

3. MobileNet V1网络

4. torchsummary

5. 训练train

6. 训练日志

7. MobileNet V1 在CIFAR10 的表现

8. 查看参数值

1. 介绍

Resnet 提出的残差结构，在理论上已经将网络的深度提升到了不可思议的程度。而深度是和模型的性能挂钩的，正因为这样，网络的性能早已达到了期望的要求。

人工智能是为了用户服务的，网络的深注定了网络只能再昂贵的实验室才可以运行，或者部署到云端进行计算。为了实现边缘计算，即在用户身边就能实时反应出结果，不需要传递给云端的服务器。所以神经网络的轻量化、便捷化和计算量小是现在网络努力的方向之一

MobileNet V1就是专注于移动端或者嵌入式设备这种计算量不是特别大的轻量级CNN网络

如图，MobileNet V1只是牺牲了一点精度，却大大减少模型的参数量和运算量

2. MobileNet V1 亮点

首先是深度可分离卷积可以大大减少运算量和参数量，其次就是增加超参数α、ρ可以根据需求调节网络的结构

2.1 深度可分离卷积

深度可分离卷积（Depthwise Separable Convolution）：depthwise(深度卷积)+pointwise(点卷积)

depthwise ：在空间上进行卷积

pointwise : 在深度上进行卷积

普通的卷积是kernel_size ，然后输入的channel，输出的channel是四维的

而深度可分离卷积分为了两个部分，深度卷积是卷积核单独对输入通道进行卷积，例如输入是3维的，那么就用3个kernel_size的卷积进行深度卷积。然后输出的话，用1*1的点卷积进行融合，这样又是一个1*1*out_channel的卷积。

这样参数和计算量就会被大大的减少

实现的过程如下：

2.2 超参数

至于α和ρ这两个超参数是为了控制网络的宽度和分辨率的

网络的宽度，代表卷积层的个数，也就是channel，之前的channel都是512，1024这种

网络的深度，就是卷积层的层数，也就是网络有多深，例如resnet34、resnet101这样

所以α(0-1)就是为了控制卷积核的个数，也就是输出的channel，因此α可以减少模型的参数

ρ是为了控制图像输入的size，是不会影响模型的参数，但是可以减少运算量

3. MobileNet V1网络

网络的结构如图：

代码为：实现的方式很简单，对着结构图就行了

import torch.nn as nn


# MobileNetV1
class MobileNetV1(nn.Module):
    def __init__(self,num_classes=1000):
        super(MobileNetV1, self).__init__()

        # 第一层的卷积,channel->32,size减半
        def conv_bn(in_channel, out_channel, stride):
            return nn.Sequential(
                nn.Conv2d(in_channel, out_channel, 3, stride, 1, bias=False),
                nn.BatchNorm2d(out_channel),
                nn.ReLU(inplace=True)
            )

        # 深度可分离卷积=depthwise卷积 + pointwise卷积
        def conv_dw(in_channel, out_channel, stride):
            return nn.Sequential(
                # depthwise 卷积,channel不变，stride = 2的时候，size减半
                nn.Conv2d(in_channel, in_channel, 3, stride, padding=1, groups=in_channel, bias=False),
                nn.BatchNorm2d(in_channel),
                nn.ReLU(inplace=True),

                # pointwise卷积(1*1卷积) same卷积, 只改变channel
                nn.Conv2d(in_channel, out_channel, 1, 1, padding=0, bias=False),
                nn.BatchNorm2d(out_channel),
                nn.ReLU(inplace=True),
            )

        self.model = nn.Sequential(
            conv_bn(3, 32, 2),          # conv/s2           out=224*224*32
            conv_dw(32, 64, 1),         # conv dw +1*1      out=112*112*64
            conv_dw(64, 128, 2),        # conv dw +1*1      out=56*56*128
            conv_dw(128, 128, 1),       # conv dw +1*1      out=56*56*128
            conv_dw(128, 256, 2),       # conv dw +1*1      out=28*28*256
            conv_dw(256, 256, 1),       # conv dw +1*1      out=28*28*256
            conv_dw(256, 512, 2),       # conv dw +1*1      out=14*14*512
            conv_dw(512, 512, 1),       # 5个 conv dw +1*1 ----> size不变，channel不变，out=14*14*512
            conv_dw(512, 512, 1),
            conv_dw(512, 512, 1),
            conv_dw(512, 512, 1),
            conv_dw(512, 512, 1),
            conv_dw(512, 1024, 2),      # conv dw +1*1      out=7*7*1024
            conv_dw(1024, 1024, 1),     # conv dw +1*1      out=7*7*1024
            nn.AvgPool2d(7),            # avg pool          out=1*1*1024
        )
        self.fc = nn.Linear(1024, num_classes)      # fc

    def forward(self, x):
        x = self.model(x)
        x = x.view(-1, 1024)
        x = self.fc(x)
        return x

4. torchsummary

安装方式

pip install torchsummary

可以查看网络的结构

方式如下：

from torchsummary import summary
import torch


DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'
net = MobileNetV1()
net.to(DEVICE)
print(summary(net, input_size=(3, 224, 224),device=DEVICE))

这里的input默认是在cuda上，所以这里需要根据自己的设备看情况选择：

输出：

----------------------------------------------------------------
Layer (type) Output Shape Param #
================================================================
Conv2d-1 [-1, 32, 112, 112] 864
BatchNorm2d-2 [-1, 32, 112, 112] 64
ReLU-3 [-1, 32, 112, 112] 0
Conv2d-4 [-1, 32, 112, 112] 288
BatchNorm2d-5 [-1, 32, 112, 112] 64
ReLU-6 [-1, 32, 112, 112] 0
Conv2d-7 [-1, 64, 112, 112] 2,048
BatchNorm2d-8 [-1, 64, 112, 112] 128
ReLU-9 [-1, 64, 112, 112] 0
Conv2d-10 [-1, 64, 56, 56] 576
BatchNorm2d-11 [-1, 64, 56, 56] 128
ReLU-12 [-1, 64, 56, 56] 0
Conv2d-13 [-1, 128, 56, 56] 8,192
BatchNorm2d-14 [-1, 128, 56, 56] 256
ReLU-15 [-1, 128, 56, 56] 0
Conv2d-16 [-1, 128, 56, 56] 1,152
BatchNorm2d-17 [-1, 128, 56, 56] 256
ReLU-18 [-1, 128, 56, 56] 0
Conv2d-19 [-1, 128, 56, 56] 16,384
BatchNorm2d-20 [-1, 128, 56, 56] 256
ReLU-21 [-1, 128, 56, 56] 0
Conv2d-22 [-1, 128, 28, 28] 1,152
BatchNorm2d-23 [-1, 128, 28, 28] 256
ReLU-24 [-1, 128, 28, 28] 0
Conv2d-25 [-1, 256, 28, 28] 32,768
BatchNorm2d-26 [-1, 256, 28, 28] 512
ReLU-27 [-1, 256, 28, 28] 0
Conv2d-28 [-1, 256, 28, 28] 2,304
BatchNorm2d-29 [-1, 256, 28, 28] 512
ReLU-30 [-1, 256, 28, 28] 0
Conv2d-31 [-1, 256, 28, 28] 65,536
BatchNorm2d-32 [-1, 256, 28, 28] 512
ReLU-33 [-1, 256, 28, 28] 0
Conv2d-34 [-1, 256, 14, 14] 2,304
BatchNorm2d-35 [-1, 256, 14, 14] 512
ReLU-36 [-1, 256, 14, 14] 0
Conv2d-37 [-1, 512, 14, 14] 131,072
BatchNorm2d-38 [-1, 512, 14, 14] 1,024
ReLU-39 [-1, 512, 14, 14] 0
Conv2d-40 [-1, 512, 14, 14] 4,608
BatchNorm2d-41 [-1, 512, 14, 14] 1,024
ReLU-42 [-1, 512, 14, 14] 0
Conv2d-43 [-1, 512, 14, 14] 262,144
BatchNorm2d-44 [-1, 512, 14, 14] 1,024
ReLU-45 [-1, 512, 14, 14] 0
Conv2d-46 [-1, 512, 14, 14] 4,608
BatchNorm2d-47 [-1, 512, 14, 14] 1,024
ReLU-48 [-1, 512, 14, 14] 0
Conv2d-49 [-1, 512, 14, 14] 262,144
BatchNorm2d-50 [-1, 512, 14, 14] 1,024
ReLU-51 [-1, 512, 14, 14] 0
Conv2d-52 [-1, 512, 14, 14] 4,608
BatchNorm2d-53 [-1, 512, 14, 14] 1,024
ReLU-54 [-1, 512, 14, 14] 0
Conv2d-55 [-1, 512, 14, 14] 262,144
BatchNorm2d-56 [-1, 512, 14, 14] 1,024
ReLU-57 [-1, 512, 14, 14] 0
Conv2d-58 [-1, 512, 14, 14] 4,608
BatchNorm2d-59 [-1, 512, 14, 14] 1,024
ReLU-60 [-1, 512, 14, 14] 0
Conv2d-61 [-1, 512, 14, 14] 262,144
BatchNorm2d-62 [-1, 512, 14, 14] 1,024
ReLU-63 [-1, 512, 14, 14] 0
Conv2d-64 [-1, 512, 14, 14] 4,608
BatchNorm2d-65 [-1, 512, 14, 14] 1,024
ReLU-66 [-1, 512, 14, 14] 0
Conv2d-67 [-1, 512, 14, 14] 262,144
BatchNorm2d-68 [-1, 512, 14, 14] 1,024
ReLU-69 [-1, 512, 14, 14] 0
Conv2d-70 [-1, 512, 7, 7] 4,608
BatchNorm2d-71 [-1, 512, 7, 7] 1,024
ReLU-72 [-1, 512, 7, 7] 0
Conv2d-73 [-1, 1024, 7, 7] 524,288
BatchNorm2d-74 [-1, 1024, 7, 7] 2,048
ReLU-75 [-1, 1024, 7, 7] 0
Conv2d-76 [-1, 1024, 7, 7] 9,216
BatchNorm2d-77 [-1, 1024, 7, 7] 2,048
ReLU-78 [-1, 1024, 7, 7] 0
Conv2d-79 [-1, 1024, 7, 7] 1,048,576
BatchNorm2d-80 [-1, 1024, 7, 7] 2,048
ReLU-81 [-1, 1024, 7, 7] 0
AvgPool2d-82 [-1, 1024, 1, 1] 0
Linear-83 [-1, 1000] 1,025,000
================================================================
Total params: 4,231,976
Trainable params: 4,231,976
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.57
Forward/backward pass size (MB): 115.43
Params size (MB): 16.14
Estimated Total Size (MB): 132.15
----------------------------------------------------------------
None

5. 训练train

训练的代码一样

import torch
import torch.nn as nn
from torchvision import transforms, datasets
import torch.optim as optim
from model import MobileNetV1
from torch.utils.data import DataLoader
from tqdm import tqdm


DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'
data_transform = {
    "train" : transforms.Compose([transforms.Resize((224,224)),
                                  transforms.ToTensor(),
                                  transforms.Normalize([0.485,0.456,0.406],[0.229,0.224,0.255])]),
    "test": transforms.Compose([transforms.Resize((224,224)),
                                 transforms.ToTensor(),
                                 transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.255])])}

# 训练集
trainset = datasets.CIFAR10(root='./data', train=True, download=False, transform=data_transform['train'])
trainloader = DataLoader(trainset, batch_size=16, shuffle=True)

# 测试集
testset = datasets.CIFAR10(root='./data', train=False, download=False, transform=data_transform['test'])
testloader = DataLoader(testset, batch_size=16, shuffle=False)

# 样本的个数
num_trainset = len(trainset)  # 50000
num_testset = len(testset)    # 10000

# 构建网络
net =MobileNetV1(num_classes=10)
net.to(DEVICE)

# 加载损失和优化器
loss_function = nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), lr=0.0001)

best_acc = 0.0
save_path = './MobileNetV1.pth'

for epoch in range(10):
    net.train()     # 训练模式
    running_loss = 0.0
    for data in tqdm(trainloader):
        images, labels = data
        images, labels = images.to(DEVICE), labels.to(DEVICE)

        optimizer.zero_grad()
        out = net(images)  # 总共有三个输出
        loss = loss_function(out,labels)
        loss.backward()  # 反向传播
        optimizer.step()

        running_loss += loss.item()

    # test
    net.eval()      # 测试模式
    acc = 0.0
    with torch.no_grad():
        for test_data in tqdm(testloader):
            test_images, test_labels = test_data
            test_images, test_labels = test_images.to(DEVICE), test_labels.to(DEVICE)

            outputs = net(test_images)
            predict_y = torch.max(outputs, dim=1)[1]
            acc += (predict_y == test_labels).sum().item()

    accurate = acc / num_testset
    train_loss = running_loss / num_trainset

    print('[epoch %d] train_loss: %.3f  test_accuracy: %.3f' %
          (epoch + 1, train_loss, accurate))

    if accurate > best_acc:
        best_acc = accurate
        torch.save(net.state_dict(), save_path)

print('Finished Training')

6. 训练日志

100%|██████████| 3125/3125 [12:43<00:00, 4.09it/s]
100%|██████████| 625/625 [01:01<00:00, 10.24it/s]
[epoch 1] train_loss: 0.098 test_accuracy: 0.527
100%|██████████| 3125/3125 [13:01<00:00, 4.00it/s]
100%|██████████| 625/625 [01:03<00:00, 9.88it/s]
[epoch 2] train_loss: 0.075 test_accuracy: 0.631
100%|██████████| 3125/3125 [13:08<00:00, 3.96it/s]
100%|██████████| 625/625 [01:05<00:00, 9.50it/s]
[epoch 3] train_loss: 0.062 test_accuracy: 0.696
100%|██████████| 3125/3125 [12:56<00:00, 4.03it/s]
100%|██████████| 625/625 [01:02<00:00, 10.00it/s]
[epoch 4] train_loss: 0.053 test_accuracy: 0.730
100%|██████████| 3125/3125 [13:20<00:00, 3.90it/s]
100%|██████████| 625/625 [01:06<00:00, 9.35it/s]
[epoch 5] train_loss: 0.046 test_accuracy: 0.751
100%|██████████| 3125/3125 [13:19<00:00, 3.91it/s]
100%|██████████| 625/625 [01:03<00:00, 9.88it/s]
[epoch 6] train_loss: 0.040 test_accuracy: 0.777
100%|██████████| 3125/3125 [13:20<00:00, 3.90it/s]
100%|██████████| 625/625 [01:01<00:00, 10.10it/s]
[epoch 7] train_loss: 0.035 test_accuracy: 0.790
100%|██████████| 3125/3125 [13:00<00:00, 4.01it/s]
100%|██████████| 625/625 [01:01<00:00, 10.11it/s]
[epoch 8] train_loss: 0.030 test_accuracy: 0.802
100%|██████████| 3125/3125 [13:27<00:00, 3.87it/s]
100%|██████████| 625/625 [01:05<00:00, 9.59it/s]
[epoch 9] train_loss: 0.025 test_accuracy: 0.805
100%|██████████| 3125/3125 [13:23<00:00, 3.89it/s]
100%|██████████| 625/625 [01:02<00:00, 10.02it/s]
[epoch 10] train_loss: 0.021 test_accuracy: 0.803
Finished Training

7. MobileNet V1 在CIFAR10 的表现

代码：

import os
os.environ['KMP_DUPLICATE_LIB_OK'] = 'True'

import torch
import numpy as np
import matplotlib.pyplot as plt
from model import MobileNetV1
from torchvision.transforms import transforms
from torch.utils.data import DataLoader
import torchvision

classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

# 预处理
transformer = transforms.Compose([transforms.Resize((224,224)),
                                  transforms.ToTensor(),
                                  transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.255])])

# 加载模型
DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'
model = MobileNetV1(num_classes=10)
model.load_state_dict(torch.load('./MobileNetV1.pth'))
model.to(DEVICE)

# 加载数据
testSet = torchvision.datasets.CIFAR10(root='./data', train=False, download=False, transform=transformer)
testLoader = DataLoader(testSet, batch_size=12, shuffle=True)

# 获取一批数据
imgs, labels = next(iter(testLoader))
imgs = imgs.to(DEVICE)

# show
with torch.no_grad():
    model.eval()
    prediction = model(imgs)  # 预测
    prediction = torch.max(prediction, dim=1)[1]
    prediction = prediction.data.cpu().numpy()

    plt.figure(figsize=(12, 8))
    for i, (img, label) in enumerate(zip(imgs, labels)):
        x = np.transpose(img.data.cpu().numpy(), (1, 2, 0))  # 图像
        x[:, :, 0] = x[:, :, 0] * 0.229 + 0.485  # 去 normalization
        x[:, :, 1] = x[:, :, 1] * 0.224 + 0.456  # 去 normalization
        x[:, :, 2] = x[:, :, 2] * 0.255 + 0.406  # 去 normalization
        y = label.numpy().item()  # label
        plt.subplot(3, 4, i + 1)
        plt.axis(False)
        plt.imshow(x)
        plt.title('R:{},P:{}'.format(classes[y], classes[prediction[i]]))
    plt.show()

结果展示：

8. 查看参数值

具体可以看：关于迁移学习的方法

from model import MobileNetV1
import torch


DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'

net = MobileNetV1(num_classes=10)
net.load_state_dict(torch.load('./MobileNetV1.pth'))
net.to(DEVICE)


with torch.no_grad():
    for i in range(0,14):       # 查看 depthwise 的权值
        print(net.model[i][0].weight)

解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
C++基础系列【26】排序和查找算法程序喵大人 C++基础系列 c语言算法开发语言 c++
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列专栏C++大佬养成攻略专栏C++训练营排序与查找算法的重要性不用过多介绍了吧，面试也经常考察。
深入解析深度学习中的过拟合与欠拟合诊断、解决与工程实践古月居GYH 深度学习人工智能
一、引言：模型泛化能力的核心挑战在深度学习模型开发中，欠拟合与过拟合是影响泛化能力的两个核心矛盾。据GoogleBrain研究统计，工业级深度学习项目中有63%的失败案例与这两个问题直接相关。本文将从基础概念到工程实践，系统解析其本质特征、诊断方法及解决方案，并辅以可复现的代码案例。二、核心概念与通熟易懂解释简单而言，欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在
CBNet--一种新的目标检测的复合骨干网体系结构 weixin_45963617 深度学习系列
一、Introduction一般来说，在一个典型的基于CNN的目标检测器中，使用主干网络来提取检测对象的基本特征，该网络通常是为图像分类任务而设计的，并在ImageNet上预训练。毫无疑问，更强大的主干网可以带来更好的检测性能。尽管最先进的基于深度的大骨干网络的探测器取得了很好的结果，但仍有很大改进空间。此外，通过设计一个新的更强大的主干网络并在ImageNet上预训练来获取好的检测性能是十分昂贵
一文读懂什么是服务器小熊猫Q 服务器科普服务器运维
服务器基础介绍介绍服务器相关基础知识，如服务器分类、组成、机箱内部构造等，个人公众号：SRE杂谈，欢迎关注1、什么是服务器？服务器品牌有惠普、戴尔、浪潮、华为、华三、曙光等，各厂商服务器型号存在差异，惠普DL380G10、戴尔PowerEdgeR750、浪潮NF5280M5、华为2288HV5、曙光R6230HA一般用SN序列号和资产编号来对服务器进行标识，其中SN为唯一标识2、服务器演进2.1、
深入探讨盘古大模型的高精度多尺度能力 Hardess-god WRF 人工智能算法
随着人工智能技术的快速发展，大模型的研究逐渐进入新的阶段。其中，盘古大模型以其卓越的高精度和多尺度处理能力成为研究热点。本文将详细分析盘古模型在高精度多尺度问题上的技术特征、优势和应用潜力，并探讨其深入研究的方向。一、盘古模型概述盘古模型是华为推出的中文预训练大模型系列，拥有数十亿甚至千亿级的参数规模。它以Transformer架构为基础，通过海量文本数据进行训练，表现出优异的自然语言理解和生成能
CSP-J备考冲刺必刷题（C++） | AcWing 1253 家谱热爱编程的通信人 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】Acwing：1253.家谱-AcWing题库
“三分钟”带你看懂批次管理!（一） wms系统
一、批次管理的定义与重要性1.批次管理的定义：批次管理是一种针对产品或物料的管理方法，它将同一生产周期或相同条件下生产、具有一致质量特征、生产信息和使用属性的产品组作为一个批次，进行分类、标识、追踪和管理。2.批次管理的重要性：提高可追溯性：精准追踪物料和产品的来源、去向及生命周期，在质量问题或召回需求出现时，能快速锁定问题批次，降低损失。增强质量控制：监控不同批次产品的质量指标，及时发现和分析质
AI巨浪中的安全之舵：天空卫士助力人工智能落地远航天空卫士人工智能安全数据安全网络安全大数据
"AI时代的安全战场，不在云端在本地；数据治理的胜负手，不在防御在认知。"近期，众多企业纷纷接入DeepSeek大模型，迅速推动了大型模型应用的广泛铺开。无论是在制造业、金融业，还是在医疗、教育等领域，DeepSeek大模型的应用都如火如荼，遍地开花，展现出了其广泛的应用前景和巨大的商业价值。顺势而来的是DeepSeek一体机以"低成本、高算力、私有化部署"的优势席卷企业市场。因为DeepSeek
DeepSeek重塑软件行业：研发工程师的机遇与挑战 LiuSid7 人工智能 llama 语言模型 ai
人工智能技术的浪潮正以前所未有的速度重塑软件行业，而DeepSeek作为其中的代表性技术，已成为研发工程师日常工作中不可忽视的变革力量。从代码生成到架构优化，从效率提升到职业生态重构，DeepSeek正在重新定义工程师的工作范式。以下从技术革新、职业发展、行业趋势三个维度，分析其对研发工程师的核心影响。一、技术革新：从“重复劳动”到“创造力释放”代码生产的效率革命DeepSeek通过自然语言指令生
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
MSE分类时梯度消失的问题详解和交叉熵损失的梯度推导阿正的梦工坊 Machine Learning Deep Learning 分类人工智能深度学习机器学习
下面是MSE不适合分类任务的解释，包含梯度推导。以及交叉熵的梯度推导。前文请移步笔者的另一篇博客：大模型训练为什么选择交叉熵损失（Cross-EntropyLoss）：均方误差（MSE）和交叉熵损失的深入对比MSE分类时梯度消失的问题详解我们深入探讨MSE（均方误差）的梯度特性，结合公式推导和分析，解释为什么在预测值接近0或1时梯度趋于0，以及这背后的含义。我会尽量保持清晰且严谨，适合高理论水平的
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南 m0_57781768 python langchain 搜索引擎
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南引言在人工智能和自然语言处理领域，利用大语言模型（LLM）构建复杂的问答（Q&A）系统是一个重要应用。检索增强生成（RetrievalAugmentedGeneration，RAG）是一种技术，通过将模型知识与额外数据结合来增强LLM的能力，使其能够回答关于特定源信息的问题。这些应用不仅限于公开数据，还可以处理私有数据和模
【从零开始学习计算机科学】计算机体系结构（一）计算机体系结构、指令、指令集（ISA）与量化评估贫苦游商学习服务器网络计算机体系结构 ISA 指令集量化评估
【从零开始学习计算机科学】计算机体系结构（一）计算机体系结构、指令、指令集（ISA）与量化评估概论计算机体系结构简介计算机的分类并行体系结构指令集体系结构（ISA）分类存储器寻址寻址模式操作数大小指令ISA的编码程序的优化计算机体系结构量化评估存储器体系结构概论计算机体系结构与计算机组成原理之间的联系非常紧密，其研究范畴基本一致，计算机体系结构与计算机组成原理两者是相辅相成的。但是，计算机体系结构
不用再当“技术宅“！这个AI神器让我5分钟变身人工智能达人阳光永恒736 AI工具人工智能 deepseek 一键包本地部署 AI资源
最近我在朋友圈刷到好多朋友都在玩AI画图、AI写诗，看得我心痒痒。可每次想自己试试，打开教程就被满屏的代码吓退——"Python环境配置"、"CUDA驱动安装"这些词比数学作业还让人头疼。直到我发现了一个叫DeepSeek本地部署一键包的神器，我的AI探索之旅终于变得像搭乐高一样简单！夸克网盘分享一、原来AI离我们这么近上周三放学路上，我看见隔壁班的小美用AI给自己照片生成古风造型，这让我突然意识
【从零开始学习JAVA】异常体系介绍 Cools0613 从0开始学Java 学习
前言：本文我们将为大家介绍一下异常的整个体系，而我们学习异常，不是为了敲代码的时候不出异常，而是为了能够熟练的处理异常，如何解决代码中的异常。异常的两大分类：我们就以这张图作为线索来详细介绍一下Java中的异常：1.Exceptions（异常）在Java中，Exception（异常）是一种表示非致命错误或异常情况的类或接口。Exception通常是由应用程序引发的，可以被程序员捕获、处理或抛出。E
Umi-OCR 实践教程：离线、免费、高效的图像文字识别工具几道之旅人工智能智能体及数字员工 ocr 人工智能
一、工具简介Umi-OCR是一款开源、免费且支持离线运行的OCR（光学字符识别）工具，适用于Windows和Linux系统。它基于深度学习技术，能够高效提取图像中的文字，支持多语言识别、批量处理、截屏识别等功能，尤其适合对隐私敏感或网络受限的场景。核心亮点：离线运行：无需联网，保护隐私。多引擎支持：提供Paddle（高性能）和Rapid（低配兼容）两种引擎。批量处理：支持图片、PDF、电子书等多格
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
DeepSeek API在AutoCAD中的创新应用与挑战 CodeJourney. 数据库算法人工智能
在数字化设计领域，随着人工智能技术的飞速发展，将AI能力融入传统设计软件成为提升设计效率和质量的重要趋势。AutoCAD作为广泛应用的计算机辅助设计软件，与DeepSeekAPI的结合展现出了巨大的潜力。这种融合不仅为设计工作带来了全新的思路和方法，还在多个方面对设计流程进行了优化和创新。一、DeepSeekAPI赋能AutoCAD的多元应用场景（一）智能设计辅助：让创意快速落地在传统设计过程中，
AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。ChatGPT、DeepSeek、Grok等AI模型凭借强大的文本处理、数据分析和推理能力，可为灾害预警、应急响应、风险评估等提供高效支持。本文将对比三大AI模型在应急管理中的优势，并探讨其在未来智能化应急管理体系中的应用前景。2.应急管理中的核心挑战应
DeepSeek的崛起：2025新春国产AI模型的全球影响力耶耶Norsea 网络杂烩人工智能百度
摘要在2025年新春之际，国产AI模型DeepSeek以现象级的姿态迅速崛起，凭借免费、易用及高性能的特点，吸引了全球科技界的广泛关注。这款大型人工智能模型不仅展现了国产技术的实力，还为用户提供了高效便捷的使用体验，成为行业内的焦点。关键词DeepSeek崛起,2025新春,国产AI模型,免费易用,高性能特点一、国产AI的崭新篇章1.1DeepSeek的诞生背景在2025年新春之际，DeepSee
一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！小城哇哇人工智能语言模型 AI大模型大模型微调预训练 agi LLM
前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。近年来，人工智能（AI）在各个领域的突破性进展，尤其是在自然语言处理（NLP）方面，引起了广泛关注。两项重要的技术方法——预训练和微调，成为了AI模型发展的基石。预训练通常是指在大规模数据集上进行模型训练，以帮助
ONE Deep模型：LG AI Research的开源突破耶耶Norsea 网络杂烩自动化
摘要由LGAIResearch开发的ONEDeep系列开源AI模型，参数规模覆盖2.4亿至32亿。经评估，2.4B参数规模的ONEDeep模型在性能上优于同类其他模型，展现出显著优势。这一成果为AI技术的应用与研究提供了强有力的支持。关键词ONEDeep模型,开源AI模型,LGAIResearch,2.4B参数,性能优越一、ONEDeep模型概述1.1ONEDeep模型的开发背景在当今人工智能技术
anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
大模型推理框架：从理论到实践的全面解析百度_开发者中心人工智能大模型自然语言处理
在数据驱动的时代，深度学习技术已经渗透到各个行业，从图像识别到自然语言处理，从推荐系统到智能客服，其应用无处不在。然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。一、大模型推理框架基本概念大模型推理框架是一种基于深度学习技术的推理框架，它通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分
单页响应式图片懒加载HTML页面 Wiktok css javascript 前端
设计说明响应式设计：使用CSSGrid布局，根据屏幕宽度自动调整色块数量在不同设备上都有良好的显示效果懒加载：使用标签的loading="lazy"属性实现原生懒加载图片在滚动到视口附近时才会加载色块展示：使用随机生成的色块作为内容展示每个色块都有独特的颜色和编号色块有悬停效果和阴影效果分类展示：将色块分为自然风光、城市建筑和抽象艺术三类每类都有独立的标题和网格布局响应式懒加载页面*{margin
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
《java面向对象(5)》＜不含基本语法＞ java小白板 java 开发语言
本笔记基于黑马程序员java教程整理，仅供参考1.异常1.1异常分类1.1.1Error指系统级别的错误，程序员无法解决，不必理会1.1.2Exception（异常）分为两类：RuntimeException：运行时异常，编译时程序不会报错，运行时报错，如数组越界其他异常：编译时异常，编译时就会报错运行时异常：publicclassText{publicstaticvoidmain(String[
人工智能和云计算带来的技术变革：工业自动化的新趋势 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能（AI）和云计算技术的发展，我们正面临着一场巨大的技术变革。这些技术正在改变我们的生活方式、工作方式和社会结构。在工业自动化领域，人工智能和云计算技术正在为我们提供新的可能性和挑战。本文将探讨这些技术如何影响工业自动化，以及未来的发展趋势和挑战。1.1人工智能的基本概念人工智能（ArtificialIntelligence，AI）是一种试图使计算机具有人类智能的技术。AI的
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

MobileNet V1 图像分类

1. 介绍

2. MobileNet V1 亮点

2.1 深度可分离卷积

2.2 超参数

3. MobileNet V1网络

4. torchsummary

5. 训练train

6. 训练日志

7. MobileNet V1 在CIFAR10 的表现

8. 查看参数值

你可能感兴趣的:(图像分类,人工智能,分类,深度学习)