华北小龙虾

[Deep Leaning] [Tutorial] Classification on MNIST Dataset

文章目录

Importing Packages
Data Loading
- Defining Dataloaders
- Sanity Check of the Dataset
Model Definition
Loss Function Definition
Optimization Method
Training and Testing Procedures
Runtime
- Performance before any optimization
- Performance after 1 iteration of optimization
- Performance after 100 iterations of optimization
- Performance after 5 epochs of optimization
Visualize Feature Maps in CNNs

Importing Packages

%matplotlib inline
from __future__ import print_function
import matplotlib.pyplot as plt
import numpy as np
import time
import math
import torch
import torch.nn as nn
import torch.nn.functional as F

from torchvision import datasets, transforms
from sklearn.metrics import confusion_matrix
from datetime import timedelta

torch.__version__

Data Loading

Defining Dataloaders

use_cuda = True if torch.cuda.is_available() else False
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print('We are using GPU.' if use_cuda else 'We are using CPU.')

MNIST数据集大小约为12MB，如果在给定路径下找不到该数据集，它将被自动下载。该数据集包含70,000个图像和相应的标签。

我们需要定义两个数据加载器，一个用于训练，一个用于测试。在训练过程中，批处理大小设置为16。

kwargs = {'num_workers': 1, 'pin_memory': True} if use_cuda else {}
kwargs['batch_size'] = 16
'''
设置num_workers为1和pin_memory为True是为了提高数据加载到GPU的速度。
这两个参数和PyTorch的DataLoader类有关，它负责在训练过程中有效地加载数据。

num_workers：
这个参数决定了用于数据加载的子进程的数量。
将num_workers设置为1意味着使用一个子进程来加载数据。
增加num_workers的值可以进一步提高数据加载速度，但同时也会占用更多的CPU资源。
选择合适数字取决于CPU资源和I/O限制。
为了充分利用GPU，可以尝试逐渐增加num_workers的值，直到达到最佳性能。
请注意，设置num_workers为0将在主进程中进行数据加载，这可能会降低整体性能。

pin_memory：
将此参数设置为True可以将数据存储在固定（或锁定）内存中。
这意味着当数据从CPU传输到GPU时，不会发生内存拷贝，从而减少了数据加载时间。
这在使用GPU训练模型时特别有用。
然而，锁定内存会占用系统的可用RAM，因此需要权衡资源利用率。

综上所述，可以尝试将num_workers设置为其他正整数值以优化数据加载速度，但要注意不要耗尽CPU资源。
同时，pin_memory在使用GPU时通常应设置为True，以提高数据传输效率。
在CPU训练时，将pin_memory设置为False可以节省RAM资源。
'''

# Using torch.utils.data.DataLoader for efficient dataloading during runtime.
train_loader = torch.utils.data.DataLoader(
    datasets.MNIST('../data', train=True, download=True,
                   transform=transforms.Compose([transforms.ToTensor(),
                                                 transforms.Normalize((0.1307,), (0.3081,))])),
                                           shuffle=True, **kwargs)
'''
torch.utils.data.DataLoader：
这是PyTorch提供的一个数据加载器类，用于加载数据并将其分成批次（batches）。

datasets.MNIST()：
这是一个用于加载MNIST手写数字数据集的类。它有以下参数：
    root='../data'：数据集的根目录。在这里，数据集将被下载到当前目录下的"data"文件夹中。
    train=True：表示加载训练数据。如果设置为False，则加载测试数据。
    download=True：表示如果数据集不存在，则自动下载数据集。
    transform=transforms.Compose([...])：这里定义了一个图像预处理的pipeline。在这个例子中，有两个预处理步骤：
        transforms.ToTensor()：将图像转换为PyTorch张量（Tensor）。
        transforms.Normalize((0.1307,), (0.3081,))：对图像进行归一化。这里使用的均值是0.1307，标准差是0.3081。
        
shuffle=True：在每个训练周期（epoch）开始时，随机打乱数据集的顺序。
'''
test_loader = torch.utils.data.DataLoader(
    datasets.MNIST('../data', train=False, 
                   transform=transforms.Compose([transforms.ToTensor(),
                                                 transforms.Normalize((0.1307,), (0.3081,))])),
                                          shuffle=False, **kwargs)
print('Dataloaders initialized.')

Sanity Check of the Dataset

Print some basic information about the dataset.

print('{} examples in the training set.'.format(len(train_loader) * 16))
print('{} examples in the testing set.'.format(len(test_loader) * 16))

b_imgs, b_labels = next(iter(train_loader))
'''
next() 和 iter() 是 Python 中用于处理迭代器（iterator）的内置函数。
通过使用 iter() 函数，train_loader 被转换为一个迭代器对象。
然后，next() 函数被调用，以获取迭代器的下一个元素，即训练数据的批次。
这样，b_imgs 和 b_labels 就分别包含了训练数据批次的图像和标签。
'''
print('A batch of imgs shape:', b_imgs.size())
print('A batch of labels shape:', b_labels.size())
print('label batch:', b_labels)

Show some images and labels to ensure they are paired.

def plot_images(images, cls_true, img_shape=None, cls_pred=None):
    assert len(images) == len(cls_true) == 9

    # Create figure with 3x3 sub-plots.
    fig, axes = plt.subplots(3, 3)
    fig.subplots_adjust(hspace=0.3, wspace=0.3)

    for i, ax in enumerate(axes.flat):
        # Plot image.
        ax.imshow(images[i].reshape((28,28)), cmap='binary')

        # Show true and predicted classes.
        if cls_pred is None:
            xlabel = "True: {0}".format(cls_true[i])
        else:
            xlabel = "True: {0}, Pred: {1}".format(cls_true[i], cls_pred[i])

        # Show the classes as the label on the x-axis.
        ax.set_xlabel(xlabel)

        # Remove ticks from the plot.
        ax.set_xticks([])
        ax.set_yticks([])

    # Ensure the plot is shown correctly with multiple plots
    # in a single Notebook cell.
    plt.show()

# Plot a few images to see if data is correct
images = b_imgs[:9].numpy()
cls_true = b_labels[:9].numpy()

plot_images(images=images, cls_true=cls_true)

Model Definition

Models defined using PyTorch toolkit should be a class inheriting from torch.nn.Module.

在__init__方法中，我们应该实例化在前向传播过程中将使用的子模块（例如nn.Conv2d，nn.Linear）。这些子模块应该作为成员变量通过self引用，例如self.conv1，self.fc1。

nn.Conv2d层应该使用参数（in_channels，out_channels，kernel_size，stride=1，padding=0，dilation=1，groups=1，bias=True，padding_mode=‘zeros’）进行实例化。in_channels表示该层的输入通道数。out_channels表示该层的输出通道数。kernel_size是卷积核的大小。可以在这里找到该模块的详细信息。

nn.Linear层应该使用参数（in_features，out_features，bias=True）进行实例化。可以在这里找到该模块的详细信息。
请注意，在nn.Dropout2d中，参数是元素被置零的概率，而不是保留的概率。

forward方法定义了当输入x被馈送到模型中时，该模型的运行时行为。不包含可学习权重的函数，如ReLU、MaxPooling，可以直接在此forward方法中使用（例如F.relu，F.max_pool2d），而不是在__init__中实例化。

class MnistConvNet(nn.Module):
    def __init__(self, return_fmaps=False):
        super(MnistConvNet, self).__init__()
        '''
        这个操作是PyTorch模型定义的必须操作。
        调用super(MnistConvNet, self).init()相当于调用nn.Module的构造函数__init__()，这样模型就可以拥有nn.Module的基本功能和属性，例如计算图的构建、反向传播、参数优化等。
        调用super()函数时，需要传递当前类的名称和实例对象作为参数。
        这是因为super()函数需要确定当前类的方法解析顺序(MRO, Method Resolution Order)，以便在调用父类方法时正确地查找继承链中的下一个类。
        '''
        self.conv1 = nn.Conv2d(1, 32, 7, stride=1, padding=3)
        '''
        Conv1d（一维卷积）：
        一维卷积主要用于处理序列数据，如时间序列、文本或音频信号。
        在一维卷积中，卷积核沿着输入数据的一个维度（通常是长度）滑动。

        Conv2d（二维卷积）：
        torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True)
        二维卷积主要用于处理图像数据。
        在二维卷积中，卷积核沿着输入数据的两个维度（通常是高度和宽度）滑动。

        Conv3d（三维卷积）：
        三维卷积主要用于处理体数据（volumetric data）和视频数据。
        在三维卷积中，卷积核沿着输入数据的三个维度（通常是深度、高度和宽度）滑动。
        '''
        self.conv2 = nn.Conv2d(32, 64, 5, stride=1, padding=2)
        self.dropout1 = nn.Dropout2d(0.25)
        self.dropout2 = nn.Dropout(0.5)
        '''
        nn.Dropout2d()通常用于二维特征图，主要用在卷积神经网络的卷积层。其作用是随机将整个通道的值置为0。

        nn.Dropout()则是在所有的输入特征上独立地工作，将每个元素以一定的概率置为0。这种方法通常用于全连接层或者一维的特征向量。
        '''
        self.fc1 = nn.Linear(7*7*64, 128) # 64是通道数，7x7是高度和宽度
        self.fc2 = nn.Linear(128, 10)
        self.return_fmaps = return_fmaps

    def set_return_fmaps(self, v=True):
        self.return_fmaps = v

    def forward(self, x):
        fmaps = []
        x = self.conv1(x)
        fmaps.append(x)
        print('after conv1, x.size:', x.size())
        x = F.relu(x)  # Functions like ReLU, MaxPooling can be used in forward method as there is no weights in them to store.
        x = F.max_pool2d(x, 2)
        '''
        torch.nn.functional.max_pool2d(input, kernel_size, stride=None, padding=0, dilation=1, ceil_mode=False, return_indices=False)
        如果输入特征图的宽度和高度都是偶数，池化后的特征图尺寸将减半，即宽度和高度都除以2。
        如果输入特征图的宽度和高度有一个是奇数，池化后的特征图尺寸将向下取整，即宽度和高度除以2，并且最后一行或最后一列的像素将被舍弃。
        '''
        print('after pool1, x.size:', x.size())
        x = self.conv2(x)
        fmaps.append(x)
        print('after conv2, x.size:', x.size())
        x = F.relu(x)
        x = F.max_pool2d(x, 2)
        print('after pool2, x.size:', x.size())
        x = self.dropout1(x) # 并不会改变特征图的尺寸
        x = torch.flatten(x, 1)
        print('after flatten, x.size:', x.size())
        x = self.fc1(x)
        print('after fc1, x.size:', x.size())
        x = F.relu(x)
        '''
        在神经网络中，通常先计算线性变换（如全连接层或卷积层），然后应用激活函数。
        这种顺序使得模型能够学习非线性特征，并有助于神经网络的训练和收敛。
        '''
        x = self.dropout2(x)
        logits = self.fc2(x)
        '''
        logits = self.fc2(x)表示将经过第一个全连接层和ReLU激活函数处理后的输出特征x，输入到第二个全连接层中进行线性变换，得到模型的输出logits。
        在这个网络中，self.fc2(x)表示将第一个全连接层的输出特征x输入到第二个全连接层中，得到模型的输出logits。
        此时，logits是一个二维张量，其中的每一行代表了一个输入样本对应的预测概率分布，每个元素代表了该样本属于相应类别的概率。
        模型的输出logits将会被用于计算模型的损失函数和进行模型的预测。
        需要注意的是，在这个网络中，模型的输出层并没有经过激活函数处理。
        这是因为在使用交叉熵损失函数进行多类别分类时，通常会将模型的输出层视作未归一化的对数概率(logits)输出，而不是使用softmax等激活函数对输出进行归一化处理。
        这种做法可以提高数值稳定性和训练效率，同时避免了softmax中的数值溢出问题。
        '''
        print('logits.size:', logits.size())
        if self.return_fmaps:
            return logits, fmaps
        else:
            return logits

通过指定适当的 start_dim 参数，你可以控制从哪个维度开始展平，以便根据需要重新组织张量的形状。

如果不提供 start_dim 参数，则默认从第一个维度（索引为 0）开始展平。

# 输入张量的形状是 (2, 3, 4)
a = torch.tensor([[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]],
                [[13, 14, 15, 16], [17, 18, 19, 20], [21, 22, 23, 24]]])

print(a)
# 输出:
# tensor([[[ 1,  2,  3,  4],
#          [ 5,  6,  7,  8],
#          [ 9, 10, 11, 12]],
#
#         [[13, 14, 15, 16],
#          [17, 18, 19, 20],
#          [21, 22, 23, 24]]])

flattened = torch.flatten(a, start_dim=1)
'''
通过指定适当的 start_dim 参数，你可以控制从哪个维度开始展平，以便根据需要重新组织张量的形状。
如果不提供 start_dim 参数，则默认从第一个维度（索引为 0）开始展平。
'''
print(flattened)
# 输出:
# tensor([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12],
#         [13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24]])

print(flattened.shape)
# 输出:
# torch.Size([2, 12])

通过 torch.flatten(a, start_dim=1)，我们从索引为 1 的维度开始展平。

展平后，输出张量 flattened 的形状为 (2, 12)，其中第一个维度保持不变，而第二个维度将 3 和 4 这两个维度展平为一维，形成了长度为 12 的新维度。

Now we can instantiate our CNN model.

model = MnistConvNet().to(device)
print('Model initialized.')

Loss Function Definition

We define the cross-entropy loss for this task.

交叉熵是分类任务中使用的一种损失函数。该损失函数是一个可微的函数，始终为正，并在模型的预测完全匹配目标值时达到最小值。在训练过程中，我们的模型权重会被更新以最小化该损失函数。

PyTorch内置了一个用于计算交叉熵损失的函数。需要注意的是，该函数在内部将softmax函数和交叉熵损失结合为单个操作，以提高效率，因此在模型定义中我们不需要手动使用softmax函数。

cross_entropy = nn.CrossEntropyLoss()

Optimization Method

We define the Adam optimization method in this task.

现在我们有一个需要最小化的损失函数，我们可以创建一个优化器。在这种情况下，我们使用Adam优化器，它是梯度下降的一种高级变体。

lr = 0.001
optimizer = torch.optim.Adam(model.parameters(), lr=lr)

Training and Testing Procedures

We now define training and testing procedures which handles the runtime of the optimization.

首先，我们定义了训练的单个迭代过程，它使用一批数据来训练模型。数据批次被输入到模型中，根据模型的输出计算损失函数。然后，通过将损失函数进行反向传播（loss.backward）计算参数的梯度，并更新参数（optimizer.step）。

然后，我们定义了一个训练的周期（epoch），它将整个数据集正向和反向地通过模型一次。

def train_iter(log_interval, model, device, optimizer, loss_func, data, target):
    '''
    Train the model for a single iteration.
    An iteration is when a single batch of data is passed forward and 
    backward through the neural network.
    '''
    data, target = data.to(device), target.to(device)  # Move this batch of data to the specified device.
    optimizer.zero_grad()  # Zero out the old gradients (so we only use new gradients for a new update iteration).
    output = model(data)  # Forward the data through the model.
    loss = loss_func(output, target)  # Calculate the loss
    loss.backward()  # Backward the loss and calculate gradients for parameters.
    optimizer.step()  # Update the parameters.
    return loss

def train_epoch(log_interval, model, device, train_loader, optimizer, epoch, loss_func):
    '''
    Train the model for an epoch.
    An epoch is when the entire dataset is passed forward and 
    backward through the neural network for once.
    The number of batches in a dataset is equal to number of iterations for one epoch.
    '''
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):  # Iterate through the entire dataset to form an epoch.
        loss = train_iter(log_interval, model, device, optimizer, loss_func, data, target)  # Train for an iteration.
        if batch_idx % log_interval == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))

The testing procedure is by taking the predictions of our model on the test set and calculate the accuracy.

def test(model, device, test_loader, loss_func):
    '''
    Testing the model on the entire test set.
    '''
    model.eval()  # Switch the model to evaluation mode, which prevents the dropout behavior.
    test_loss = 0
    correct = 0
    with torch.no_grad():  # Because this is testing and no optimization is required, the gradients are not needed.
        for data, target in test_loader:  # Iterate through the entire test set.
            data, target = data.to(device), target.to(device)  # Move this batch of data to the specified device.
            output = model(data)  # Forward the data through the model.
            test_loss += target.size(0)*loss_func(output, target).item()  # Sum up batch loss
            pred = output.argmax(dim=1, keepdim=True)  # Get the index of the max log-probability
            correct += pred.eq(target.view_as(pred)).sum().item()  # Count the correct predictions.

    test_loss /= len(test_loader.dataset)  # Average the loss on the entire testing set.

    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.2f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),
        100. * correct / len(test_loader.dataset)))

Runtime

Performance before any optimization

We first show the accuracy of a randomly initialized model on test set. The accuracy is around 10% as it is just a random guess.

test(model, device, test_loader, cross_entropy)

Performance after 1 iteration of optimization

log_interval = 1
train_data_iter = iter(train_loader)

model.train()
data, target = next(train_data_iter)
train_iter(log_interval, model, device, optimizer, cross_entropy, data, target)
test(model, device, test_loader, cross_entropy)

Performance after 100 iterations of optimization

log_interval = 10
model.train()
for batch_idx in range(100):
    data, target = next(train_data_iter)
    loss = train_iter(log_interval, model, device, optimizer, cross_entropy, data, target)
    if batch_idx % log_interval == 0:
        print('Train iter: {}\tLoss: {:.6f}'.format(
            batch_idx, loss.item()))
test(model, device, test_loader, cross_entropy)

Performance after 5 epochs of optimization

log_interval = 200
for epoch in range(5):
    train_epoch(log_interval, model, device, train_loader, optimizer, epoch, cross_entropy)
    test(model, device, test_loader, cross_entropy)

Visualize Feature Maps in CNNs

def plot_feature_maps(fmaps):
    assert len(fmaps) == 25

    # Create figure with 5x5 sub-plots.
    fig, axes = plt.subplots(5, 5, figsize=(7,7))
    fig.subplots_adjust(hspace=0.1, wspace=0.1)

    for i, ax in enumerate(axes.flat):
        # Normalize the feature maps for plotting.
        f_min, f_max = fmaps[i].min(), fmaps[i].max()
        normed_fmap = (fmaps[i] - f_min) / (f_max - f_min)

        # Plot image.
        ax.imshow(normed_fmap, cmap='binary')

        # Remove ticks from the plot.
        ax.set_xticks([])
        ax.set_yticks([])

    # Ensure the plot is shown correctly with multiple plots
    # in a single Notebook cell.
    plt.show()

model.set_return_fmaps(True)  # Set return feature maps.
b_imgs, _ = next(iter(train_loader))
_, b_fmaps = model(b_imgs.to(device))

# For Conv1 feature maps:
fmaps_conv1 = b_fmaps[0][0, :25].detach().cpu().numpy()  # Convert the pytorch variable to a numpy array.
plot_feature_maps(fmaps_conv1)

# For Conv2 feature maps:
fmaps_conv2 = b_fmaps[1][0, :25].detach().cpu().numpy()  # Convert the pytorch variable to a numpy array.
plot_feature_maps(fmaps_conv2)

正如我们所预期的，较低层的特征图具有更高的分辨率，而较深层的特征图具有较低的分辨率。对于特征图的不同通道（例如，25个小图像的第一个网格），它们看起来像是模糊版本的输入图像，并突出显示了不同的特征。

YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架（原创创新算法）
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架项目背景随着深度学习技术的快速发展，目标检测在各个领域都取得了显著的进展。然而，现有的监督学习方法在实际应用中面临着标注数据稀缺、泛化能力不足等挑战。特别是在火灾烟雾检测、工业质检等特定场景中，获取大量高质量标注数据的成本极高。为了解决这一问题，本项目基于最新发布的YOLOv13架构，结合EfficientTeacher半监督学习框架，
USB串口通信、握手协议、深度学习等技术要点深度学习教程, 深度学习人工智能网络协议
基于OpenMV的智能车牌识别系统：从硬件到算法的完整实现前言本文将详细介绍一个基于OpenMV微控制器的智能车牌识别系统的设计与实现。该系统集成了嵌入式视觉处理、串口通信协议、深度学习OCR识别等多种技术，实现了从图像采集到车牌识别的完整流程。系统架构概述整体设计思路该车牌识别系统采用分布式架构设计，将计算密集型任务与嵌入式控制分离：┌─────────────┐USB串口通信┌────────
语音识别开源项目推荐：GitHub热门仓库盘点 AGI大模型与大数据研究院 AI大模型应用开发实战语音识别开源 github ai
2024年必看！GitHub热门语音识别开源项目全解析：从入门到实战关键词语音识别(ASR)、开源项目、GitHub、Whisper、FunASR、PaddleSpeech、深度学习摘要想象一下：开车时只需说一句话就能自动发消息，听英文演讲时实时获得中文翻译，给视障人士读文本时精准转换——这些场景的背后，语音识别（AutomaticSpeechRecognition,ASR）技术正在改变我们与机器
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
DL00478-涡轮叶片缺陷检测数据集yolo格式1300张左右
涡轮叶片缺陷检测数据集yolo格式1300张左右涡轮叶片缺陷检测数据集YOLO格式解析：提升研究与论文写作的关键要点在研究涡轮叶片缺陷检测的过程中，数据集的选择和格式处理是一个至关重要的环节。特别是当你打算通过卷积神经网络（CNN）等深度学习模型进行缺陷检测时，数据集的标注和格式化直接影响到模型的训练效果和论文的质量。本文将重点探讨涡轮叶片缺陷检测数据集的YOLO格式，并分析如何利用这一格式为研究
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
深度强化学习 | 图文详细推导深度确定性策略梯度DDPG算法 Mr.Winter` 机器人人工智能数据挖掘深度学习神经网络强化学习具身智能
目录0专栏介绍1演员-评论家架构1.1Critic网络优化1.2Actor网络优化2深度确定性策略梯度算法0专栏介绍本专栏以贝尔曼最优方程等数学原理为根基，结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景，深入探讨如何将DRL与路径规划、动态避障等任务结合，包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节，旨在帮助读者掌握深度强化学
GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
边缘计算与量子模型优化驱动医疗诊断新突破
内容概要在医疗人工智能领域，边缘计算与量子模型优化的协同演进正重构诊断系统的技术范式。通过将计算节点前置至医疗设备端，边缘架构有效解决了传统云端模型面临的实时性瓶颈，配合量子优化算法对复杂特征空间的快速寻优能力，使得CT、MRI等高维影像数据的解析效率提升显著。值得关注的是，框架选型直接影响着模型部署的可行性——TensorFlow在移动端推理优化方面的工具链完备性，与PyTorch动态图机制对迭
精通 triton 使用 MLIR 的源码逻辑 - 第001节：triton 的应用简介
项目使用到MLIR，通过了解triton对MLIR的使用，体会到MLIR在较大项目中的使用方式，汇总一下。1.Triton概述OpenAITriton是一个开源的编程语言和编译器，旨在简化GPU高性能计算（HPC）的开发，特别是针对深度学习、科学计算等需要高效并行计算的领域。既允许开发者编写高度优化的代码，又不必过度关注底层硬件细节。这样，通过简化高性能计算，可以加速新算法的实现和实验。传统GPU
pytorch图像分类全流程（二）前人栽树,后人乘凉 datawhale pytorch pytorch 分类 python
本次使用的是ImageNet1000类别信息，resnet18预训练模型。记录一些一坑和知识点。在传入图片或视频之前我们都会对其进行预处理，归纳下来为四个字母RCTN：缩放、裁剪、转Tensor、归一化，可以使用transforms.Compose()函数打包对应四个函数进行预处理，当然这里有个小坑，transforms.Compose()只接受pillow格式的图像，不能拿opencv传入图片。
PyTorch图像分类系列——流程概览 VAMOT PyTorch图像分类系列 pytorch 深度学习分类计算机视觉
一、加载数据1.使用torchvision.datasets的方法加载经典数据集在此网址查看支持哪些经典数据集：Datasets—Torchvision0.18documentation(pytorch.org)data_train=torchvision.datasets.CIFAR10(root="CIFAR10",train=True,transform=ToTensor(),target_
tensorflow sigmoid_cross_entropy_with_logits 函数解释及公式推导 CrazyWolf_081c
tensorflowsigmoid_cross_entropy_with_logits函数解释及公式推导tensorflow官方文档解释参考pytorch--BCELosspytorch--BCELoss解释参考定义在tensorflow/python/ops/nn_impl.py.功能：计算在给定logits和label之间的sigmoidcrossentropy。测量离散分类任务中的概率误差，
ai绘画生成软件哪个好？几款好用的AI绘画软件分享! 呼酱小宝箱
随着人工智能技术的不断发展，越来越多的AI绘画生成软件被开发出来。这些软件利用深度学习技术，可以将普通照片或图像转化成具备艺术效果的画作。那么，ai绘画生成软件哪个好？首先，让我们来看一下几个常见的AI绘画生成软件，它们分别是：1、DeepDreamDeepDream是由Google开发的一款AI绘画生成软件。它通过卷积神经网络对输入的图片进行处理，从而生成出具有艺术风格的画作。DeepDream
Pytorch图像二分类代码 AlexNet 望舒向晚 Pytorch pytorch 深度学习机器学习
importtorchimporttorch.nnasnnimporttorch.optimasoptimimporttorch.utils.dataimporttorch.nn.functionalasFimporttorchvisionfromtorchvisionimporttransformsfromPILimportImagedefcheck_image(path):try:im=Ima
基于逻辑回归的图像二分类算法实现（Pytorch版）哎呦哥哥、图像分类 pytorch 逻辑回归分类
基于逻辑回归的图像二分类算法实现（Pytorch版）数据集模型代码数据集链接：FastFoodClassificationDataset我们只使用Burger和Pizza这两类。模型代码importtorchimporttorch.nnasnnfromtorchvision.models.utilsimportload_state_dict_from_urlmodel_urls={'resnet5
DeepSeek部署指南：从入门到精通 wujj_whut 热门应用 c++DeepSeek 嵌入式实时数据库
DeepSeek部署指南：从入门到精通引言在人工智能和深度学习领域，模型的部署是一个至关重要的环节。DeepSeek作为一款强大的深度学习框架，其部署过程不仅关系到模型的性能表现，还直接影响到实际应用的效果。本文将详细介绍DeepSeek的部署流程，涵盖从环境配置到实际应用的各个方面，旨在帮助读者全面掌握DeepSeek的部署技巧。一、DeepSeek简介DeepSeek是一款开源的深度学习框架，
【人工智能之深度学习】1. 深度学习基石：神经元模型与感知机的数学本质（附代码实现与收敛性证明） AI_DL_CODE 人工智能之深度学习人工智能深度学习神经元模型感知机赫布法则深度学习基础线性可分
摘要：作为深度学习的基础单元，神经元模型与感知机承载着从生物智能到人工神经网络的桥梁作用。本文从生物神经元的工作机制出发，系统剖析数学建模过程：详解赫布法则的权重更新原理（Δwi=η·xi·y），推导McCulloch-Pitts神经元模型的数学表达（y=Θ(∑wixi−b)），重点证明感知机在linear可分情况下的收敛性——通过Novikoff定理严格推导迭代次数上界，揭示间隔γ对收敛速度的影
深度学习在环境感知中的应用：案例与代码实现
让机器学会“看”世界：深度学习如何赋能环境感知？关键词深度学习|环境感知|计算机视觉|传感器融合|语义分割|目标检测|自动驾驶摘要环境感知是机器与外界互动的“眼睛和耳朵”——从自动驾驶汽车识别行人，到智能机器人避开障碍物，再到城市监控系统检测异常，所有智能系统都需要先“理解”环境，才能做出决策。传统环境感知方法依赖手工特征提取，难以应对复杂场景；而深度学习通过数据驱动的方式，让机器从大量数据中自动
自编码器表征学习：重构误差与隐空间拓扑结构的深度解析码字的字节机器学习自编码器重构误差隐空间
自编码器基础与工作原理自编码器（Autoencoder）作为深度学习领域的重要无监督学习模型，其核心思想是通过模拟人类认知过程中的"压缩-解压"机制实现数据的表征学习。这种由GeoffreyHinton团队在2006年复兴的神经网络结构，本质上是一个试图通过编码-解码过程来复制其输入的系统，却在实现这一看似简单目标的过程中，意外地获得了强大的特征提取能力。基本架构与工作流程典型自编码器由对称的两部
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin