无水先生

使用 PyTorch 的计算机视觉简介（2/6）

一、说明

在本单元中，我们从最简单的图像分类方法开始——一个全连接的神经网络，也称为感知器。我们将回顾一下 PyTorch 中定义神经网络的方式，以及训练算法的工作原理。

二、数据加载的实践

首先，我们使用 pytorchcv 助手来加载所有数据。

!wget https://raw.githubusercontent.com/MicrosoftDocs/pytorchfundamentals/main/computer-vision-pytorch/pytorchcv.py

import torch
import torch.nn as nn
import torchvision
import matplotlib.pyplot as plt
from torchinfo import summary
import numpy as np

from pytorchcv import load_mnist, train, plot_results, plot_convolution, display_dataset
load_mnist(batch_size=128)

三、全连接密集神经网络

PyTorch 中的基本神经网络由许多层组成。最简单的网络将只包含一个完全连接的层，称为线性层，具有 784 个输入（输入图像的每个像素一个输入）和 10 个输出（每个类一个输出）。

正如我们上面所讨论的，我们的数字图像的尺寸是 1 × 28 × 28，即每个图像包含 28 × 28 = 784 个不同的像素。由于线性层期望其输入为一维向量，因此我们需要在网络中插入另一层，称为 Flatten，以将输入张量形状从
1 × 28 × 28 更改为 784。在 Flatten 之后，有一个主要的线性层（在 PyTorch 中称为 Dense ），它将 784 个输入转换为 10 个输出——每个类一个。我们希望
网络的第 n 个输出返回输入数字等于 n 的概率。

由于全连接层的输出未归一化为介于 0 和 1 之间，因此不能将其视为概率。此外，如果希望输出是不同数字的概率，它们都需要加起来为 1。为了将输出向量转换为概率向量，称为 Softmax 的函数通常用作分类神经网络中的最后一个激活函数。例如，softmax（[−1， 1， 2]） = [0.035， 0.25， 0.705]。

在 PyTorch 中，我们通常更喜欢使用 LogSoftmax 函数，该函数还将计算输出概率的对数。为了将输出向量转换为实际概率，我们需要获取输出的torch.exp。

因此，我们的网络架构可以在 PyTorch 中使用顺序函数定义：

net = nn.Sequential(
        nn.Flatten(), 
        nn.Linear(784,10), # 784 inputs, 10 outputs
        nn.LogSoftmax())

四、如何训练网络

以这种方式定义的网络可以将任何数字作为输入，并生成概率向量作为输出。让我们看看这个网络是如何表现的，从我们的数据集中给它一个数字：

print('Digit to be predicted: ',data_train[0][1])
torch.exp(net(data_train[0][0]))

Digit to be predicted:  5
tensor([[0.1174, 0.1727, 0.0804, 0.1333, 0.0790, 0.0902, 0.0657, 0.0871, 0.0807,
         0.0933]], grad_fn=)

因为我们使用 LogSoftmax 作为我们网络的最终激活，所以我们通过 torch.exp 传递网络输出以获得概率。如您所见，网络预测每个数字的相似概率。这是因为它没有接受过如何识别数字的培训。我们需要给它我们的训练数据，以便在我们的数据集上训练它。

为了训练模型，我们需要从一定大小的数据集创建批次，比如说 64 个。PyTorch 有一个名为 DataLoader 的对象，它可以自动为我们创建成批的数据：

train_loader = torch.utils.data.DataLoader(data_train,batch_size=64)
test_loader = torch.utils.data.DataLoader(data_test,batch_size=64) # we can use larger batch size for testing

训练过程步骤如下：

我们从输入数据集中获取一个小批量，该数据集由输入数据（特征）和预期结果（标签）组成。
我们计算此小批量的预测结果。
此结果与预期结果之间的差异是使用损失函数计算的。损失函数显示网络的输出与预期输出的差异。我们培训的目标是尽量减少损失。
我们计算这个损失函数相对于模型权重（参数）的梯度，然后用于调整权重以优化网络的性能。调整量由称为学习率的参数控制，优化算法的详细信息在优化器对象中定义。
我们重复这些步骤，直到处理整个数据集。通过数据集的一次完整传递称为纪元。

下面是一个执行一个纪元训练的函数：

def train_epoch(net,dataloader,lr=0.01,optimizer=None,loss_fn = nn.NLLLoss()):
    optimizer = optimizer or torch.optim.Adam(net.parameters(),lr=lr)
    net.train()
    total_loss,acc,count = 0,0,0
    for features,labels in dataloader:
        optimizer.zero_grad()
        out = net(features)
        loss = loss_fn(out,labels) #cross_entropy(out,labels)
        loss.backward()
        optimizer.step()
        total_loss+=loss
        _,predicted = torch.max(out,1)
        acc+=(predicted==labels).sum()
        count+=len(labels)
    return total_loss.item()/count, acc.item()/count

train_epoch(net,train_loader)

(0.0059344619750976565, 0.8926833333333334)

以下是我们在训练时所做的：

将网络切换到训练模式（net.train（）)
遍历数据集中的所有批次，并为每个批次执行以下操作：
- 计算网络在此批次上所做的预测（输出）- 计算损失，即预测值和预期值
之间的差异- 通过调整网络权重来最小化损失（optimizer.step（））- 计算正确预测的事例数（准确性）

该函数计算并返回每个数据项的平均损失和训练准确性（正确猜测的案例百分比）。通过在训练期间观察这种损失，我们可以看到网络是否在改进并从提供的数据中学习。

控制测试数据集的准确性也很重要，这也称为验证准确性。具有大量参数的良好神经网络可以在任何训练数据集上以相当的准确性进行预测，但它可能很难推广到其他数据。这就是为什么在大多数情况下，我们会留出部分数据，然后定期检查模型在数据上的表现。以下是在测试数据集上评估网络的函数：

def validate(net, dataloader,loss_fn=nn.NLLLoss()):
    net.eval()
    count,acc,loss = 0,0,0
    with torch.no_grad():
        for features,labels in dataloader:
            out = net(features)
            loss += loss_fn(out,labels) 
            pred = torch.max(out,1)[1]
            acc += (pred==labels).sum()
            count += len(labels)
    return loss.item()/count, acc.item()/count

validate(net,test_loader)

(0.033262069702148435, 0.9496)

与训练函数类似，该函数计算并返回测试数据集的平均损失和准确性。

五、过拟合

通常，在训练神经网络时，我们会训练模型几个时期，观察训练和验证的准确性。一开始，训练和验证的准确性都应该提高，因为网络会拾取数据集中的模式。但是，在某些时候，可能会发生训练准确性增加而验证准确性开始降低的情况。这将表明过度拟合，即模型在训练数据集上表现良好，但在新数据上表现不佳。

下面是可用于执行训练和验证的训练函数。它打印每个纪元的训练和验证精度，并返回可用于在图形上绘制损失和精度的历史记录。

def train(net,train_loader,test_loader,optimizer=None,lr=0.01,epochs=10,loss_fn=nn.NLLLoss()):
    optimizer = optimizer or torch.optim.Adam(net.parameters(),lr=lr)
    res = { 'train_loss' : [], 'train_acc': [], 'val_loss': [], 'val_acc': []}
    for ep in range(epochs):
        tl,ta = train_epoch(net,train_loader,optimizer=optimizer,lr=lr,loss_fn=loss_fn)
        vl,va = validate(net,test_loader,loss_fn=loss_fn)
        print(f"Epoch {ep:2}, Train acc={ta:.3f}, Val acc={va:.3f}, Train loss={tl:.3f}, Val loss={vl:.3f}")
        res['train_loss'].append(tl)
        res['train_acc'].append(ta)
        res['val_loss'].append(vl)
        res['val_acc'].append(va)
    return res

# Re-initialize the network to start from scratch
net = nn.Sequential(
        nn.Flatten(), 
        nn.Linear(784,10), # 784 inputs, 10 outputs
        nn.LogSoftmax())

hist = train(net,train_loader,test_loader,epochs=5)

Epoch  0, Train acc=0.892, Val acc=0.893, Train loss=0.006, Val loss=0.006
Epoch  1, Train acc=0.910, Val acc=0.899, Train loss=0.005, Val loss=0.006
Epoch  2, Train acc=0.913, Val acc=0.898, Train loss=0.005, Val loss=0.006
Epoch  3, Train acc=0.915, Val acc=0.897, Train loss=0.005, Val loss=0.006
Epoch  4, Train acc=0.916, Val acc=0.897, Train loss=0.005, Val loss=0.006

此函数记录消息的准确性来自每个纪元的训练和验证数据。它还将此数据作为字典（称为历史记录）返回。然后，我们可以可视化这些数据，以更好地了解我们的模型训练。

plt.figure(figsize=(15,5))
plt.subplot(121)
plt.plot(hist['train_acc'], label='Training acc')
plt.plot(hist['val_acc'], label='Validation acc')
plt.legend()
plt.subplot(122)
plt.plot(hist['train_loss'], label='Training loss')
plt.plot(hist['val_loss'], label='Validation loss')
plt.legend()

左图显示训练精度增加（对应于网络学习，以越来越好地分类我们的训练数据），而验证精度开始降低。
右图显示了训练损失减少（对应于网络性能越来越好），而验证损失增加（对应于网络性能越来越差）。这些图形将指示模型过度拟合。

六、可视化网络权重

我们网络中的密集层也称为线性，因为它对其输入执行线性变换，可以定义为 y = Wx + b，其中 W 是权重矩阵，b 是偏差。权重矩阵 W 实际上负责我们的网络可以做什么，即识别数字。
在我们的例子中，它的大小为 784 × 10，因为它为输入图像生成 10 个输出（每个数字一个输出）。

让我们可视化神经网络的权重，看看它们是什么样子的。当网络比仅一层更复杂时，可能很难像这样可视化结果，因为在复杂的网络中，权重在可视化时没有多大意义。然而，在我们的例子中，权重矩阵W的10个维度中的每一个都对应于单个数字，因此可以可视化以查看数字识别是如何发生的。例如，如果我们想看看我们的数字是否为 0，我们将输入数字乘以 W[0] 并通过 softmax 归一化传递结果以获得答案。

在下面的代码中，我们将首先将矩阵 W 放入变量weight_tensor。它可以通过调用 net.parameters（）方法（它同时返回 W 和 b）来获取，然后调用 next 以获取两个参数中的第一个。然后我们将遍历每个维度，将其重塑为 28 × 28 大小，然后绘制图。您可以看到 10 个权重张量维度有点类似于它们分类的数字的平均形状：

weight_tensor = next(net.parameters())
fig,ax = plt.subplots(1,10,figsize=(15,4))
for i,x in enumerate(weight_tensor):
    ax[i].imshow(x.view(28,28).detach())

七、多层感知器

为了进一步提高准确性，我们可能希望包含一个或多个隐藏层。这里需要注意的重要一点是层之间的非线性激活函数，称为ReLU。深度学习中使用的其他激活函数是sigmoid和tanh，但ReLU最常用于计算机视觉，因为它可以快速计算，并且使用其他函数不会带来任何显着的好处。

这个网络可以在 PyTorch 中使用以下代码定义：

net = nn.Sequential(
        nn.Flatten(), 
        nn.Linear(784,100),     # 784 inputs, 100 outputs
        nn.ReLU(),              # Activation Function
        nn.Linear(100,10),      # 100 inputs, 10 outputs
        nn.LogSoftmax(dim=0))

summary(net,input_size=(1,28,28))

==========================================================================================
Layer (type:depth-idx)                   Output Shape              Param #
==========================================================================================
├─Flatten: 1-1                           [1, 784]                  --
├─Linear: 1-2                            [1, 100]                  78,500
├─ReLU: 1-3                              [1, 100]                  --
├─Linear: 1-4                            [1, 10]                   1,010
├─LogSoftmax: 1-5                        [1, 10]                   --
==========================================================================================
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
Total mult-adds (M): 0.08
==========================================================================================
Input size (MB): 0.00
Forward/backward pass size (MB): 0.00
Params size (MB): 0.32
Estimated Total Size (MB): 0.32
==========================================================================================

在这里，我们使用 summary（） 函数来显示网络的详细逐层结构以及其他一些有用的信息。特别是，我们可以看到：

网络的逐层结构，以及每层的输出大小
每层以及整个网络的参数数量。网络拥有的参数越多，需要训练的数据样本就越多，而不会过度拟合。

让我们看看参数的数量是如何计算的。第一个线性层有 784 个输入和 100 个输出。该层由 W1 × x + b 1 定义，其中 W1 的大小为 784 × 100，b 1 - 100。因此，此图层的参数总数为 784 × 100 + 100 = 78500。
同样，第二层的参数数为 100 × 10 + 10 = 1010。激活函数以及展平层没有参数。

我们可以使用另一种语法来通过使用类来定义相同的网络：

from torch.nn.functional import relu, log_softmax

class MyNet(nn.Module):
    def __init__(self):
        super(MyNet, self).__init__()
        self.flatten = nn.Flatten()
        self.hidden = nn.Linear(784,100)
        self.out = nn.Linear(100,10)

    def forward(self, x):
        x = self.flatten(x)
        x = self.hidden(x)
        x = relu(x)
        x = self.out(x)
        x = log_softmax(x,dim=0)
        return x

net = MyNet()

summary(net,input_size=(1,28,28),device='cpu')

==========================================================================================
Layer (type:depth-idx)                   Output Shape              Param #
==========================================================================================
├─Flatten: 1-1                           [1, 784]                  --
├─Linear: 1-2                            [1, 100]                  78,500
├─Linear: 1-3                            [1, 10]                   1,010
==========================================================================================
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
Total mult-adds (M): 0.08
==========================================================================================
Input size (MB): 0.00
Forward/backward pass size (MB): 0.00
Params size (MB): 0.32
Estimated Total Size (MB): 0.32
==========================================================================================

您可以看到神经网络的结构与顺序网络相同，但定义更明确。我们的自定义神经网络由从 torch.nn.Module 类继承的类表示。

类定义由两部分组成：

在构造函数 （__init__）中，我们定义了网络将具有的所有层。这些层存储为类的内部变量，PyTorch 会自动知道这些层的参数在训练时应该优化。在内部，PyTorch 使用 parameters（） 方法来查找所有可训练的参数和 nn。模块将自动从所有子模块收集所有可训练参数。
我们定义了对神经网络进行前向传递计算的前向方法。在我们的例子中，我们从一个参数张量 x 开始，并显式地将其传递到所有层和激活函数，从展平开始，直到最终的线性层输出。当我们通过写出 = net（x） 将神经网络应用于某些输入数据 x 时，调用正向方法。

事实上，顺序网络以非常相似的方式表示，它们只是存储一个层列表并在前向传递期间按顺序应用它们。在这里，我们有机会更明确地表示这个过程，这最终给了我们更大的灵活性。这就是使用类进行神经网络定义是推荐和首选做法的原因之一。

您现在可以尝试使用我们上面定义的完全相同的训练函数来训练此网络：

hist = train(net,train_loader,test_loader,epochs=5)
plot_results(hist)

Epoch  0, Train acc=0.962, Val acc=0.951, Train loss=0.033, Val loss=0.034
Epoch  1, Train acc=0.964, Val acc=0.951, Train loss=0.033, Val loss=0.034
Epoch  2, Train acc=0.964, Val acc=0.954, Train loss=0.033, Val loss=0.033
Epoch  3, Train acc=0.966, Val acc=0.955, Train loss=0.032, Val loss=0.033
Epoch  4, Train acc=0.966, Val acc=0.957, Train loss=0.032, Val loss=0.033

八、小结语

在 PyTorch 中训练神经网络可以通过训练循环进行编程。这似乎是一个复杂的过程，但在现实生活中我们需要编写一次，然后我们可以稍后重用此训练代码而无需更改它。

我们可以看到，单层和多层密集神经网络表现出相对不错的性能，但是如果我们尝试将它们应用于真实世界的图像，精度不会太高。在下一个单元中，我们将介绍卷积的概念，这使我们能够获得更好的图像识别性能。

Diffusion--人工智能领域的革命性技术油泼辣子多加专业名词解释人工智能
在人工智能领域，“diffusion”一词通常指的是“扩散模型”（DiffusionModels），其全称为“DenoisingDiffusionProbabilisticModels”（DDPMs）。扩散模型是一类生成式模型，它通过逐步去噪的方式，从随机噪声中生成高质量的数据，近年来在图像、音频、视频等多个领域取得了显著进展。1.发展历史扩散模型的概念源于物理学中的扩散过程，即粒子在介质中的随机
python中keras_Python深度学习——keras（一） weixin_39534321 python中keras
神经网络的核心组件是层(layer)，它是一种数据处理模块，可以看成是一个数据过滤器。进去一些数据，出来的数据变得更加有用(吃进去的是草，挤出来的是奶)。大多数深度学习，都是将若干个简单的层给链接起来，实现渐进式的数据过滤，也就是数据蒸馏(过滤到一定程度就等同于蒸馏)首先来看一个数字识别的案例(1)读取训练集和测试集fromkeras.datasetsimportmnist#加载keras中的mn
探索2025年的编程新趋势：技术、工具与未来展望桂月二二 wasm 人工智能前端
随着2025年的到来，编程技术领域依旧在高速发展。一些新兴的技术方向、工具和方法正在悄然改变开发者的日常实践。如果您是一名开发者，无论是资深还是初入门道，跟上这些趋势将让您的技能保持前沿，并为职业发展打下坚实基础。本文将从多个维度深入探讨当前最值得关注的编程技术，希望为您的技术提升带来启发。一、AI驱动的编程辅助工具人工智能已成为程序开发的重要组成部分。以下是几款2025年值得关注的AI驱动编程工
基于Hexo的主题Fluid搭建Github博客 qq742234984 计算机 github git npm node.js hexo
公众号：数学建模与人工智能基于Hexo的主题Fluid搭建Github博客一、Github配置1.安装Git2.部署本地Git与Github连接（SSH）二、node.js安装和环境配置1.安装node.js2.查看安装是否成功（版本号）3.配置环境变量三、下载Hexo并配置fluid主题1.下载Hexo2.配置fluid主题1.安装fluid2.配置fluid3.更新部署博客页面4.部署到git
机器学习笔记20241017 tt555555555555 学习笔记深度学习机器学习笔记人工智能
文章目录torchvisiondataloadernn.module卷积非线性激活模型选择训练误差泛化误差正则化权重衰退的基本概念数学表示权重衰退的效果物理解释数值稳定性（GradientVanishing）梯度消失原因解决方法梯度爆炸（GradientExplosion）定义原因解决方法总结继续跟着小土堆学pytorchtorchvision#导入torchvision库，主要用于处理图像数据集
基于BiGRU的预测模型及其Python和MATLAB实现追蜻蜓追累了机器学习深度学习 cnn lstm 神经网络 gru 回归算法
##一、背景在当今快速发展的数据驱动的时代，尤其是在自然语言处理（NLP）、时间序列预测、语音识别等任务中，深度学习技术的应用已经变得越来越普遍。传统的机器学习算法往往无法很好地捕捉数据中的时序信息和上下文关系，因此深度学习中的循环神经网络（RNN）逐渐成为解决这一问题的重要工具。RNN能够处理序列数据，但它们在长序列数据的学习中存在梯度消失和梯度爆炸的问题。为了解决这些问题，长短期记忆网络（LS
关于双塔模型的简单介绍 eso1983 python 算法推荐算法
双塔模型是一种常用于推荐系统和信息检索等领域的深度学习架构，其核心思想是将用户和物品分别映射到不同的向量空间，通过计算两个向量的相似度来预测用户对物品的偏好或相关性。1.python示例使用python语言来简单示例一下实现过程如下：importtensorflowastffromtensorflow.keras.layersimportInput,Dense,Embedding,Concaten
DeepSeek在协同过滤和深度学习技术中的应用场景 python算法(魔法师版) 深度学习人工智能
DeepSeek作为一个集成多种先进技术的平台，利用协同过滤和深度学习技术在多个领域实现了创新应用。以下是一些具体的场景和示例，展示了这些技术如何被应用于实际问题中。一、推荐系统电子商务协同过滤：在电商平台中，协同过滤用于根据用户的历史行为（如购买记录、浏览历史等）推荐相关商品。基于用户的相似性或项目的相似性来生成个性化推荐。Python深色版本fromsurpriseimportDataset,
一篇文章了解AI大神何凯明 Ai知识精灵人工智能
何凯明（KaimingHe）是一位在国际计算机视觉和深度学习领域享有盛誉的科学家。以下是对他的一些详细介绍：个人背景：何凯明出生于中国，后赴美国深造。他分别在2007年和2011年在清华大学获得学士和博士学位，专业是电子工程。职业经历：在完成博士学位后，何凯明加入了微软亚洲研究院（MicrosoftResearchAsia）。2015年，他加入了FacebookAIResearch（FAIR），成
【自我修炼】大疆技术总监对于大学生学习机器人工程师路线建议 ( 大一篇) 2401_89323952 学习机器人
很多朋友私信问我对机器人和人工智能感兴趣，该怎么展开学习。最近稍微有点空，我写写我的看法。两年前，我在知乎回答如何定义「机器人」？YY硕的回答中试图给机器人做出一个比较仔细的定义，我觉得机器人和人工智能最大的区别在于是否要和物理世界进行交互。今年初在另一篇知乎回答里对机器人或人工智能的研究会帮助我们更好的了解人类自己吗？-YY硕的回答我说到传感器是和物理世界交互的基础。后来，我又在知乎回答有哪些与
【C++】C++回调函数基本用法（详细讲解）米码收割机 C/C++c++php 开发语言
博__主：米码收割机技__能：C++/Python语言公众号：测试开发自动化【获取源码+商业合作】荣__誉：阿里云博客专家博主、51CTO技术博主专__注：专注主流机器人、人工智能等相关领域的开发、测试技术。一文详解C++回调函数目录一文详解C++回调函数1.什么是回调函数？2.为什么需要回调函数3.回调函数的应用场合4.举例说明5.高级回调方式1.什么是回调函数？回调函数可以被简单地理解为：A函
DeepSeek 详细使用教程神探阿航计算机产业科普与思考大模型人工智能
1.简介DeepSeek是一款基于人工智能技术的多功能工具，旨在帮助用户高效处理和分析数据、生成内容、解答问题、进行语言翻译等。无论是学术研究、商业分析还是日常使用，DeepSeek都能提供强大的支持。本教程将详细介绍DeepSeek的各项功能及使用方法。2.注册与登录注册：访问DeepSeek官网（https://www.deepseek.com）。点击“注册”按钮。填写邮箱地址、设置密码，并完
基于深度学习的物体分割技术：从理论到实践人工智能_SYBH 深度学习人工智能神经网络机器学习 lstm
1.引言物体分割（ObjectSegmentation）是计算机视觉中的一项核心任务，其目标是将图像中的不同物体或区域分离出来，通常分为语义分割和实例分割两种类型。随着深度学习的迅猛发展，尤其是卷积神经网络（CNN）的应用，物体分割技术已取得了显著的进展。它被广泛应用于医学影像分析、自动驾驶、视频监控、机器人感知等领域。在本篇博客中，我们将深入探讨基于深度学习的物体分割技术，介绍其发展历程、核心原
人工智能第2章-知识点与学习笔记想拿高薪的韭菜人工智能学习笔记
结合教材2.1节，阐述什么是知识、知识的特性,以及知识的表示。人工智能最早应用的两种逻辑是什么？阐述你对这两种逻辑表示的内涵理解。什么谓词，什么是谓词逻辑，什么是谓词公式。谈谈你对谓词逻辑中的量词的理解。阐述谓词公式的解释的含义。介绍谓词公式表示知识的一般步骤，阐述谓词逻辑表示知识的优点与局限性。什么是知识表示的产生式，请详细阐释产生式和谓词逻辑蕴涵式的差异。什么是产生式系统，请详细阐述产生式系统
微软推出GRIN-MoE：开创专家路由新范式 OpenCSG microsoft
前沿科技速递在人工智能领域，模型的性能和可扩展性一直是研究的热点。微软最近推出的GRIN-MoE（Gradient-InformedMixture-of-Experts）模型，以其独特的架构和显著的性能表现，正引领着AI技术的前沿，特别是在编码和数学任务上展现出强大的能力。GRIN-MoE的发布标志着企业级应用中AI技术的又一次飞跃，旨在提升处理复杂任务的效率和准确性。来源：传神社区01模型简介G
动手学PyTorch建模与应用：从深度学习到大模型王国平 pytorch 人工智能数据分析 python 数据挖掘
在人工智能时代，机器学习技术日新月异，深度学习是机器学习领域中一个全新的研究方向和应用热点，它是机器学习的一种，也是实现人工智能的必由之路。深度学习的出现不仅推动了机器学习的发展，而且促进了人工智能技术的革新，已经被成功应用在语音识别、图像分类识别、地球物理、大语言模型等领域，具有巨大的发展潜力和价值。本书是一本带领读者快速学习PyTorch并将其运用于深度学习建模方向的入门指南，重点介绍了基于P
PyTorch数据建模 kaka_R-Py 大数据可视化 pytorch 人工智能 python
回归分析importtorchimportnumpyasnpimportpandasaspdfromtorch.utils.dataimportDataLoader,TensorDatasetimporttimestrat=time.perf_counter()
AI浪潮下程序员的职业转型与技术进阶之路 nbsaas-boot 人工智能
一、引言1.1研究背景与意义在科技飞速发展的当今时代，人工智能（AI）无疑是最为耀眼的技术领域之一。从早期简单的专家系统到如今复杂的深度学习模型，AI技术经历了从理论探索到广泛应用的巨大跨越，正以前所未有的速度改变着我们的生活和工作方式。近年来，AI技术取得了一系列突破性进展。以GPT系列为代表的大型语言模型，展现出强大的自然语言处理能力，能够实现文本生成、对话交互、代码编写等多种任务。根据《20
TensorFlow实现卷积神经网络CNN 红叶骑士之初 Tensorflow
一、卷积神经网络CNN简介卷积神经网络（ConvolutionalNeuralNetwork，CNN）最初是为解决图像识别等问题设计的，CNN现在的应用已经不限于图像和视频，也可用于时间序列信号，比如音频信号和文本数据等。CNN作为一个深度学习架构被提出的最初诉求是降低对图像数据预处理的要求，避免复杂的特征工程。在卷积神经网络中，第一个卷积层会直接接受图像像素级的输入，每一层卷积（滤波器）都会提取
OpenCV图像旋转90度的最简单方法时光荏苒- opencv 计算机视觉人工智能 OpenCV
OpenCV是一个功能强大的计算机视觉库，提供了许多图像处理和计算机视觉算法。在OpenCV中，图像旋转是一项常见的操作。本文将介绍如何使用OpenCV将图像旋转90度的最简单方法。步骤1：导入OpenCV库在Python中使用OpenCV库需要先导入库。可以使用以下代码导入OpenCV库：importcv2步骤2：读取图像使用OpenCV读取图像需要使用cv2.imread()函数。该函数接受一
DeepSeek的出现对全球GPT产业产生的冲击不要em0啦机器学习 gpt
引言近年来，人工智能技术的迅猛发展推动了自然语言处理（NLP）领域的革命性进步。特别是以GPT（GenerativePre-trainedTransformer）系列模型为代表的大规模预训练语言模型，已经在全球范围内引发了广泛关注和应用。然而，随着技术的不断演进，新兴的GPT模型如DeepSeek的出现，正在对全球GPT产业产生深远的影响。本文将从技术、市场、应用场景和产业生态等多个维度，深入探讨
目标检测的超级英雄：YOLO带你识别世界星际编程喵 Python探索之旅目标检测 YOLO 目标跟踪人工智能计算机视觉 python
前言YOLO（YouOnlyLookOnce）是计算机视觉领域一颗璀璨的明星，它以高效、快速著称，成为目标检测算法的代表。今天，我们一起走进YOLO的世界，看看它如何神奇地识别图像中的物体。当然，不用担心，这篇文章会让你轻松理解，并且我会用幽默、通俗的语言给大家展示这项技术。相信我，看完之后，你会觉得YOLO不仅是个算法，更像是个看得懂、说得清的技术伙伴。简介YOLO不仅是一个简单的目标检测模型，
国产AI疯卷！DeepSeek-R1成开源霸主，字节腾讯纷纷放大招？盼达思文体科创经验分享
引言家人们，最近的AI圈简直是“火药味”十足，热闹程度堪比世界杯！在科技飞速发展的当下，人工智能领域已经成为全球科技竞争的焦点，各国科技企业都在这个赛道上你追我赶，试图占据一席之地。AI技术不仅深刻改变了我们的生活方式，像智能语音助手让生活更便捷，智能推荐算法让信息获取更精准，还推动了众多行业的变革，如医疗、交通、金融等。今天咱们要聊的这几件AI大事，每一件都可能会对未来的科技走向产生深远影响。先
打架检测系统：基于YOLOv5的实时人群打架行为识别 2025年数学建模美赛 YOLO 深度学习 ui 计算机视觉视觉检测
1.引言打架检测，作为一个复杂且具有挑战性的任务，已经在多个领域展现出其巨大的应用潜力，尤其是在公共安全监控、安防摄像头、智能城市等应用场景中。通过深度学习技术，尤其是基于YOLOv5的目标检测，我们能够对实时视频流中的人群行为进行实时监控，并有效地检测和识别人群中的打架行为。本博客将详细介绍如何使用YOLOv5模型搭建一个打架检测系统，包含数据集准备、YOLOv5训练、UI界面设计以及优化和部署
深度学习目标检测中的_单目测距原理与实现关键点及改进建议 QQ_767172261 单目测距深度学习目标检测人工智能
深度学习目标检测中的_单目测距原理与实现关键点及改进建议文章目录单目测距的进一步解释1.焦距的确定2.物体宽度$W$的获取3.图像处理技巧4.提高性能的建议5.实现代码中的注释添加一、前言单目视觉测距：网上有很多关于单目测距的文章，主要借鉴的是OpenCV学习笔记（二十一）——简单的单目视觉测距尝试和单目摄像机测距（python+opencv）两篇文章，在这里特别作出说明。工作环境：Ubunt
Python 图像处理进阶：特征提取与图像分类极客代码玩转Python 玩转AI 开发语言 python 图像处理人工智能
特征提取特征提取是计算机视觉中的一个重要环节，它可以从图像中提取出有助于后续处理的特征，比如用于识别和分类的关键点、纹理等。常见的特征提取方法包括SIFT、SURF和ORB等。SIFT（尺度不变特征变换）SIFT是一种用于检测图像中的关键点及其描述符的方法。SIFT特征具有尺度不变性和旋转不变性，适用于图像匹配和识别。原理：SIFT通过在不同尺度的空间内寻找极值点来检测关键点，并利用梯度方向的直方
Qwen2.5-Max 百态老人笔记大数据人工智能
Qwen2.5-Max是阿里巴巴于2024年1月29日发布的一款旗舰级人工智能模型，基于混合专家（MoE）架构开发，拥有超过20万亿tokens的超大规模预训练数据。这一模型在多项权威基准测试中展现了卓越的性能，超越了包括DeepSeekV3、GPT-4和Claude-3.5-Sonnet在内的多款国际顶尖AI模型，标志着中国AI技术在高性能、低成本路线上的重大突破。技术特点与优势超大规模预训练数
神经架构搜索：自动化设计神经网络的方法俊星学长架构自动化神经网络
神经架构搜索：自动化设计神经网络的方法一、引言在深度学习领域，神经网络架构的设计对模型的性能具有至关重要的影响。传统的神经网络设计依赖于专家经验和大量实验，这一过程繁琐且耗时。为了解决这一问题，神经架构搜索（NeuralArchitectureSearch,NAS）应运而生。NAS是一种自动化设计神经网络架构的方法，旨在通过搜索最优的神经网络结构来提高模型性能。本文将详细介绍神经架构搜索的定义、产
ChatGPT-4o和ChatGPT-4o mini的差异点老六哥_AI助理指南人工智能 chatgpt
在人工智能领域，OpenAI再次引领创新潮流，近日正式发布了其最新模型——ChatGPT-4o及其经济实惠的小型版本ChatGPT-4oMini。这两款模型虽同属于ChatGPT系列，但在性能、应用场景及成本上展现出显著的差异。本文将通过图文并茂的方式，深入解析两者之间的不同点。一、性能差异ChatGPT-4o：全能型语言模型多模态处理能力：ChatGPT-4o不仅限于文本处理，更能够实时处理和生
第一章: AIGC概述野老杂谈 AIGC时代的创新与未来 AIGC 大模型人工智能神经网络
1.AIGC的定义与历史1.1什么是AIGC？AIGC，全称为人工智能生成内容（ArtificialIntelligenceGeneratedContent），是一种利用人工智能技术来自动生成各种类型内容的方式。这些内容包括文字、图像、音频和视频等。简单来说，就是让计算机像人一样创作。例如，AI可以生成一篇文章、一幅画、一段音乐，甚至是一部短视频。AIGC是如何运作的？AIGC的核心技术包括机器学
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

使用 PyTorch 的计算机视觉简介 （2/6）