Remoa

CNN之手写数字识别（Handwriting Recognition）

1、常用的包

2、常见概念

3、手写数字识别器实现

3.1 数据准备

3.2 构建网络

3.3 运行模型

3.4 测试模型

3.5 查看卷积核与特征图

参考文献

1、常用的包

torchvision.datasets：数据集，对整个数据的封装，统一处理图像或张量等原始数据
torch.utils.data.DataLoader：数据加载器，负责在程序中对数据集的使用，可实现自动化批量输出数据
torch.utils.data.sampler：采样器，为加载器提供一个每一批抽取数据集中样本的方法，可实现顺序抽取，随机抽取或按概率分布抽取

2、常见概念

卷积（Convolution）：在原始图像中搜索与卷积核相似的区域，即用卷积核从左到右、从上到下地进行逐个像素的扫描和匹配，并最终将匹配的结果表示成一张新的图像，通常被称为特征图（Feature Map）
- 输出特征图有多少层，这一层卷积就有多少个卷积核，每一个卷积核会完全独立地进行运算
- 锐化图像（强调细节）、模糊图像（减少细节）都可以看作某种特定权重的卷积核在原始图像上的卷积操作
- 一般情况下，底层卷积操作的特征核数量少，越往后越多
- 特征图中，一个像素就是一个神经元
- 卷积计算的两个阶段：
  - 前馈运算阶段（从输入图像到输出概率分布）：所有连接的权重值都不改变，系统根据输入图像计算输出分类，并根据网络的分类与数据中标签进行比较，计算出交叉熵作为损失函数
  - 反馈学习阶段：根据前馈阶段的损失函数调整所有连接上的权重值，从而完成神经网络的学习过程
补齐（Padding）：将原始图扩大，用0来填充补充的区域
池化（Pooling）：将原始图变小，获取粗粒度信息、提炼大尺度图像信息的过程，是对原始图像的缩略和抽象
超参数：人为设定的参数值，决定整个网络的架构，如网络层数、神经元数量、卷积核窗口尺寸、卷积核数量、填充格点大小、池化窗口尺寸等
参数：不需要人为设定，在网络的训练过程中网络自动学习得到的数值
激活函数：提供网络的非线性建模能力
损失函数：度量神经网络的输出的预测值与实际值之间的差距
dropout技术：在深度学习网络的训练过程中，根据一定的概率随机将其中的一些神经元暂时丢弃，这样在每个批的训练过程中，都是在训练不同的神经网络，最后在测试时再使用全部的神经元，这样可以增强模型的泛化能力

3、手写数字识别器实现

3.1 数据准备

import torch
import torch.nn as nn
from torch.autograd import Variable
import torch.optim as optim
import torch.nn.functional as F

import torchvision.datasets as dsets
import torchvision.transforms as transforms

import matplotlib.pyplot as plt
import numpy as np

%matplotlib inline

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
torch.backends.cudnn.enabled = True

# 超参数
image_size = 28 # 图像分辨率28*28
num_classes = 10
num_epochs = 60
num_workers = 2
batch_size = 128

train_dataset = dsets.MNIST(root='./data', 
                            train=True, 
                            transform=transforms.Compose([transforms.ToTensor(),
                                                          transforms.RandomHorizontalFlip(), # 图像的一半概率翻转，一半不翻
                                                          transforms.Normalize(mean=0.5, std=0.5)
                                                         ]), 
                            download=True)
test_dataset = dsets.MNIST(root='./data',
                           train=False, 
                           transform=transforms.Compose([transforms.ToTensor(),
                                                          transforms.Normalize(mean=0.5, std=0.5)
                                                         ]),
                          download=True)
train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=True, num_workers=num_workers)

# 测试数据分成两部分，一部分作为校验数据，一部分作为测试数据
indices = range(len(test_dataset))
indices_val = indices[:4000] # 校验集
indices_test = indices[4000:] # 测试集

# 采样器随机从原始数据集中抽样数据，生成任意一个下标重排，从而利用下标来提取数据集中数据
sampler_val = torch.utils.data.sampler.SubsetRandomSampler(indices_val)
sampler_test = torch.utils.data.sampler.SubsetRandomSampler(indices_test)
val_loader = torch.utils.data.DataLoader(dataset=test_dataset, batch_size=batch_size, shuffle=False, sampler=sampler_val, num_workers=num_workers)
test_loader = torch.utils.data.DataLoader(dataset=test_dataset, batch_size=batch_size, shuffle=False, sampler=sampler_test, num_workers=num_workers)

测试其中任意批次中的数据的图像打印及标签

idx = 26
mnist_img = test_dataset[idx][0].numpy() # dataset支持下标索引，提取出来的元素为features、target格式，第25个批次，[0]表示索引features
plt.imshow(mnist_img[0,...])
print('标签是：', test_dataset[idx][1])

CNN之手写数字识别（Handwriting Recognition）_第1张图片

任意批次中的数据的图像打印及标签

3.2 构建网络

class ConvNet(nn.Module):
    # 构造函数，每当类ConvNet被具体化一个实例时就会被调用
    def __init__(self):
        super(ConvNet, self).__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=4, kernel_size=3, padding=1, stride=1, bias=True)
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2)
        self.conv2 = nn.Conv2d(in_channels=4, out_channels=8, kernel_size=3, padding=1, stride=1, bias=True)
        self.fc1 = nn.Linear(image_size // 4 * image_size // 4 * 8, 512)
        self.fc2 = nn.Linear(512, num_classes)
        
    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = F.relu(self.conv2(self.pool(x)))
        x = self.pool(x)
        x = x.view(-1, image_size // 4 * image_size // 4 * 8)
        x = F.relu(self.fc1(x))
        x = F.dropout(x, training=self.training, p=0.4) # 40%的比例随机失活神经元，减少过拟合
        x = F.log_softmax(self.fc2(x), dim=1)
        return x
    
    # 提取特征图，返回前两层卷积层的特征图
    def retrieve_features(self, x):
        feature_map1 = F.relu(self.conv1(x))
        x = self.pool(feature_map1)
        feature_map2 = F.relu(self.conv2(x))
        return (feature_map1, feature_map2)

3.3 运行模型

net = ConvNet()
# 采用多GPU训练
if torch.cuda.device_count() > 1:
    net = nn.DataParallel(net, device_ids=[0, 1])
net.to(device)
print(net)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(params=net.parameters(), lr=0.0001)

record = [] # 记录准确率等数值
weights = [] # 每若干步就记录一次卷积核

def rightness(output, target):
    # torch.max函数返回输入张量给定维度上每行的最大值，并同时返回每个最大值的位置索引
    preds = output.data.max(dim=1, keepdim=True)[1] # keepdim保持输出的维度
    return preds.eq(target.data.view_as(preds)).sum(), len(target) # 返回数值为：（正确样例数，总样本数）

best_acc = 0.0 # 最优准确率
best_epoch = 0 # 最优轮次
save_path = './ConvNet.pth'
for epoch in range(num_epochs):
    # 训练
    train_rights = [] # 每轮次训练得到的准确数量
    net.train() # 把所有的dropout层打开
    # enumerate起到枚举器的作用，在train_loader循环时，枚举器会自动输出一个数字指示循环的次数，并记录在batch_idx中
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = Variable(data), Variable(target) # data：手写数字图像，target：该图像对应标签
        output = net(data.to(device))
        loss = criterion(output, target.to(device))
        optimizer.zero_grad() # 清空所有被优化变量的梯度信息
        loss.backward()
        optimizer.step() # 进行单次优化，更新所有的参数
        train_rights.append(rightness(output, target.to(device)))
        
    # 校验
    net.eval() # 把所有的dropout层关闭
    val_rights = [] # 每轮次校验得到的准确数量
    with torch.no_grad():
        for (data, target) in val_loader:
            data, target = Variable(data), Variable(target)
            output = net(data.to(device))
            val_rights.append(rightness(output, target.to(device)))

    train_r = (sum([tup[0] for tup in train_rights]), sum([tup[1] for tup in train_rights]))
    val_r = (sum([tup[0] for tup in val_rights]), sum([tup[1] for tup in val_rights]))
    train_acc = 1.0 * train_r[0] / train_r[1]
    val_acc = 1.0 * val_r[0] / val_r[1]
    if val_acc > best_acc:
        best_acc = val_acc
        best_epoch = epoch + 1
        torch.save(net.state_dict(), save_path)
    print("[epoch {}] loss:{:.6f}，train_acc：{:.2f}%，val_acc：{:.2f}%".format(
        epoch + 1, loss.item(),
        100 * train_acc, 100 * val_acc
    ))
    record.append((1 - train_acc, 1- val_acc))
    weights.append([net.module.conv1.weight.data.clone(), net.module.conv1.bias.data.clone(), 
                    net.module.conv2.weight.data.clone(), net.module.conv2.bias.data.clone()])
print("best epoch: %d，best val_acc: %.2f" %(best_epoch, best_acc * 100))

输出结果为：

DataParallel(
  (module): ConvNet(
    (conv1): Conv2d(1, 4, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (pool): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (conv2): Conv2d(4, 8, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (fc1): Linear(in_features=392, out_features=512, bias=True)
    (fc2): Linear(in_features=512, out_features=10, bias=True)
  )
)
[epoch 1] loss:0.732432，train_acc：61.29%，val_acc：73.60%
[epoch 2] loss:0.699121，train_acc：79.38%，val_acc：78.98%
[epoch 3] loss:0.430334，train_acc：83.38%，val_acc：82.08%
[epoch 4] loss:0.310445，train_acc：85.96%，val_acc：84.68%
[epoch 5] loss:0.424920，train_acc：88.09%，val_acc：87.00%
[epoch 6] loss:0.297486，train_acc：89.76%，val_acc：88.73%
[epoch 7] loss:0.328308，train_acc：90.91%，val_acc：90.00%
[epoch 8] loss:0.198407，train_acc：92.00%，val_acc：90.85%
[epoch 9] loss:0.150639，train_acc：92.74%，val_acc：91.80%
[epoch 10] loss:0.186586，train_acc：93.15%，val_acc：92.58%
[epoch 11] loss:0.148867，train_acc：93.81%，val_acc：93.38%
[epoch 12] loss:0.161239，train_acc：94.33%，val_acc：93.50%
[epoch 13] loss:0.190747，train_acc：94.63%，val_acc：94.18%
[epoch 14] loss:0.141780，train_acc：94.93%，val_acc：94.33%
[epoch 15] loss:0.137817，train_acc：95.16%，val_acc：94.70%
[epoch 16] loss:0.092569，train_acc：95.43%，val_acc：95.00%
[epoch 17] loss:0.115552，train_acc：95.61%，val_acc：95.12%
[epoch 18] loss:0.155165，train_acc：95.85%，val_acc：95.53%
[epoch 19] loss:0.127627，train_acc：96.06%，val_acc：95.28%
[epoch 20] loss:0.053196，train_acc：96.17%，val_acc：95.85%
[epoch 21] loss:0.152282，train_acc：96.34%，val_acc：95.80%
[epoch 22] loss:0.047420，train_acc：96.44%，val_acc：95.90%
[epoch 23] loss:0.097075，train_acc：96.61%，val_acc：96.03%
[epoch 24] loss:0.209956，train_acc：96.66%，val_acc：96.25%
[epoch 25] loss:0.034327，train_acc：96.83%，val_acc：96.13%
[epoch 26] loss:0.238308，train_acc：96.90%，val_acc：96.40%
[epoch 27] loss:0.023966，train_acc：96.95%，val_acc：96.60%
[epoch 28] loss:0.161187，train_acc：97.05%，val_acc：96.18%
[epoch 29] loss:0.019604，train_acc：97.08%，val_acc：96.65%
[epoch 30] loss:0.041736，train_acc：97.20%，val_acc：96.70%
[epoch 31] loss:0.075512，train_acc：97.29%，val_acc：96.48%
[epoch 32] loss:0.103057，train_acc：97.38%，val_acc：96.45%
[epoch 33] loss:0.136958，train_acc：97.49%，val_acc：96.68%
[epoch 34] loss:0.143319，train_acc：97.41%，val_acc：96.78%
[epoch 35] loss:0.060183，train_acc：97.49%，val_acc：96.88%
[epoch 36] loss:0.032935，train_acc：97.58%，val_acc：96.93%
[epoch 37] loss:0.076284，train_acc：97.60%，val_acc：96.95%
[epoch 38] loss:0.040283，train_acc：97.65%，val_acc：96.95%
[epoch 39] loss:0.064808，train_acc：97.70%，val_acc：97.03%
[epoch 40] loss:0.231935，train_acc：97.83%，val_acc：96.85%
[epoch 41] loss:0.049855，train_acc：97.80%，val_acc：96.95%
[epoch 42] loss:0.042273，train_acc：97.84%，val_acc：97.13%
[epoch 43] loss:0.065264，train_acc：97.86%，val_acc：97.25%
[epoch 44] loss:0.147135，train_acc：97.84%，val_acc：97.23%
[epoch 45] loss:0.052399，train_acc：97.95%，val_acc：97.05%
[epoch 46] loss:0.053043，train_acc：97.90%，val_acc：97.13%
[epoch 47] loss:0.104675，train_acc：98.08%，val_acc：97.18%
[epoch 48] loss:0.042580，train_acc：98.06%，val_acc：97.20%
[epoch 49] loss:0.127764，train_acc：98.01%，val_acc：97.43%
[epoch 50] loss:0.038456，train_acc：98.10%，val_acc：97.50%
[epoch 51] loss:0.077706，train_acc：98.20%，val_acc：97.33%
[epoch 52] loss:0.072369，train_acc：98.17%，val_acc：97.40%
[epoch 53] loss:0.072277，train_acc：98.16%，val_acc：97.23%
[epoch 54] loss:0.036564，train_acc：98.22%，val_acc：97.30%
[epoch 55] loss:0.053939，train_acc：98.33%，val_acc：97.38%
[epoch 56] loss:0.103391，train_acc：98.31%，val_acc：97.38%
[epoch 57] loss:0.105614，train_acc：98.26%，val_acc：97.40%
[epoch 58] loss:0.059945，train_acc：98.26%，val_acc：97.38%
[epoch 59] loss:0.037717，train_acc：98.30%，val_acc：97.43%
[epoch 60] loss:0.024253，train_acc：98.37%，val_acc：97.45%
best epoch: 50，best val_acc: 97.50

3.4 测试模型

# 测试模型
net= ConvNet()
net.load_state_dict({k.replace('module.',''):v for k,v in torch.load(save_path).items()})
net.to(device)
net.eval()
test_rights = []
for data, target in test_loader:
    data, target = Variable(data, requires_grad=False), Variable(target)
    output = net(data.to(device))
    test_rights.append(rightness(output, target.to(device)))

test_r = (sum(tup[0] for tup in test_rights), sum(tup[1] for tup in test_rights))
test_acc = 1.0 * test_r[0] / test_r[1]
print("test_acc:%.2f%%" %(test_acc * 100))

输出结果为：

test_acc:98.75%

绘制训练过程中对于训练数据和校验数据的误差曲线：

# 输出误差曲线
train_err_y = [y[0] for y in record]
val_err_y = [y[1] for y in record]
def Show_ErrorRate():
    plt.figure(figsize = (10, 7))
    x=range(1, num_epochs + 1)
    plt.title("Change in Error Rate")
    plt.plot(x, train_err_y, color='red', label='train_acc')
    plt.plot(x, val_err_y, color='blue', label='val_acc')
    plt.legend() # 显示图例
    plt.xlabel('epochs')
    plt.ylabel('Error rate')
    
Show_ErrorRate()

CNN之手写数字识别（Handwriting Recognition）_第2张图片

误差曲线

3.5 查看卷积核与特征图

（1）查看第一层4个卷积核：

# 第一层卷积核
plt.figure(figsize = (10,3))
print(net.conv1.weight.data.cpu().shape) # 4,1,3,3
for i in range(4):
    plt.subplot(1, 4, i + 1) # 展示为1行4列四个子图
    plt.imshow(net.conv1.weight.data.cpu().numpy()[i, 0, ...])

CNN之手写数字识别（Handwriting Recognition）_第3张图片

第一层中4个卷积核

（2）打印4个卷积核对应的4张特征图：

# 打印出第一层的四个特征图
input_x = test_dataset[idx][0].unsqueeze(0).to(device) # 让input_x是四维的，才能输入给net，补充的一维表示batch
feature_maps = net.retrieve_features(Variable(input_x))
plt.figure(figsize = (10,3))
for i in range(4):
    plt.subplot(1, 4, i + 1) # 展示为1行4列四个子图
    plt.imshow(feature_maps[0][0, i, ...].data.cpu().numpy())

CNN之手写数字识别（Handwriting Recognition）_第4张图片

第一层中4张特征图

（3）查看第一层8个卷积核：

# 第二层卷积核，每一列对应一个卷积核，共8个
plt.figure(figsize = (10*2,3*4))
print(net.conv2.weight.data.cpu().shape) # 8,4,3,3
for i in range(4):
    for j in range(8):
        plt.subplot(4, 8, i * 8 + j + 1) # 展示为1行4列四个子图
        plt.imshow(net.conv2.weight.data.cpu().numpy()[j, i, ...])

CNN之手写数字识别（Handwriting Recognition）_第5张图片

第二层中8个卷积核

（4）打印8个卷积核对应的8张特征图：

# 打印出第二层的8个特征图，可看出图像的抽象程度更高
input_x = test_dataset[idx][0].unsqueeze(0).to(device) # 让input_x是四维的，才能输入给net，补充的一维表示batch
feature_maps = net.retrieve_features(Variable(input_x))
plt.figure(figsize = (10*2,3*4))
for i in range(8):
    plt.subplot(2, 4, i + 1) # 展示为2行4列，8个子图
    plt.imshow(feature_maps[1][0, i, ...].data.cpu().numpy())

CNN之手写数字识别（Handwriting Recognition）_第6张图片

第二层中8张特征图

参考文献

[1]集智俱乐部：深度学习原理与PyTorch实战. [M]北京：人民邮电出版社，2019.08；

图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
TCP 通信流程图 U_p_ 计算机网络知识网络服务器 windows
下面给出一个详细的TCP通信流程图，演示客户端（Client）与服务器（Server）之间通过TCP协议进行通信时的各个步骤。这里假设：服务器IP：192.168.1.100，监听80端口客户端IP：192.168.1.200，使用随机分配的端口（示例中为50000）下面的流程图按三次握手、数据交互、四次挥手的顺序展示。为便于阅读，采用ASCII画出大致示意。┌──────────────────
机器视觉中图像的腐蚀和膨胀是什么意思？它能用来做什么？ yuanpan 机器学习人工智能计算机视觉图像处理
腐蚀（Erosion）和膨胀（Dilation）是两种基本的形态学操作，通常用于二值图像（黑白图像）的处理。它们是形态学图像处理的基础，广泛应用于图像分割、边缘检测、噪声去除等任务。1.腐蚀（Erosion）腐蚀操作通过对图像中的前景区域（通常为白色像素）进行“收缩”来去除边界上的像素。具体来说，腐蚀操作使用一个结构元素（通常是一个小的矩阵或核）在图像上滑动，只有当结构元素完全覆盖前景区域时，中心
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
EmbodiedSAM：在线实时3D实例分割,利用视觉基础模型实现高效场景理解数据猎手小k 3D 实例分割在线实时感知视觉基础模型（VFM）应用
2025-02-12，由清华大学和南洋理工大学的研究团队开发一种名为EmbodiedSAM（ESAM）的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解，解决了高质量3D数据稀缺的难题，为机器人导航、操作等任务提供了高效、准确的视觉感知能力。一、研究背景随着机器人技术和人工智能的发展，机器人在复杂环境中执行任务（如导航、操作和交互）的能力越来越依赖于对三维（3D）场景的实时、准
国产信创AI IDE：开启智能编程新时代 InsCode AI IDE
国产信创AIIDE：开启智能编程新时代随着信息技术的迅猛发展，软件开发工具也在不断演进。近年来，人工智能（AI）技术的应用为编程工具带来了革命性的变化。其中，国产信创AIIDE——InsCodeAIIDE，作为一款由CSDN、GitCode和华为云CodeArtsIDE联合开发的新一代集成开发环境（IDE），以其智能化、高效化的特点，正在引领智能编程的新时代。最新接入DeepSeek-V3模型，点
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
python ansys workbench联动_【干货】如何在ANSYS WORKBENCH中关联几何模型和有限元模型... weixin_39644377 python ansys workbench联动
原标题：【干货】如何在ANSYSWORKBENCH中关联几何模型和有限元模型我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应
python ansys workbench联动_如何在ANSYS WORKBENCH中关联几何模型和有限元模型 YUNYA麻麻 python ansys workbench联动
我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应的几何模型进行关联，再一起导入到MECHANICAL中进行分析，则既能够既享
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
【算法学习之路】12.DFS 零零时算法学习之路深度优先算法学习 c++开发语言数据结构全排列
DFS前言一.DFS简介二.思路三.缺点四.三种类型五.题目1.2前言我会将一些常用的算法以及对应的题单给写完，形成一套完整的算法体系，以及大量的各个难度的题目，目前算法也写了几篇，题单正在更新，其他的也会陆陆续续的更新，希望大家点赞收藏我会尽快更新的！！！一.DFS简介1.深度优先搜索，是一种用于遍历或搜索树或图的算法。所谓深度优先，就是说每次搜尝试向更深的节点走。2.在搜索算法中，该DFS常常
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
列出0 racle Forms配置文件？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
OracleForms配置文件OracleForms应用程序的配置涉及到多个文件，这些文件用于定义运行时环境、数据库连接、安全设置等。以下是与OracleForms相关的常见配置文件：1.formsweb.cfg位置：通常位于/forms/server/formsweb.cfg或WebLogic域中的指定目录。用途：此文件包含启动Forms应用所需的各种参数和属性，如表单模块名称、数据库连接字符串
Java集合之HashSet集合小白的编程日记 java java
文章目录前言一、HashSet集合特点二、HashSet集合的初始化三、HashSet集合中的成员方法1.添加集合元素2.删除集合元素3.查询集合元素4.修改集合元素5、其他成员方法四、集合的遍历总结前言HashSet集合继承了AbstractSet类，实现了Set接口。其框架图如下：一、HashSet集合特点存放单列元素，无序而且不重复。线程不安全，效率高。集合元素可以为null。没有下标，不可
Neo4j GDS-02-graph-data-science 简单聊一聊图数据科学插件库后端java
neo4japoc系列Neo4jAPOC-01-图数据库apoc插件介绍Neo4jAPOC-01-图数据库apoc插件安装neo4jonwindows10Neo4jAPOC-03-图数据库apoc实战使用使用Neo4jAPOC-04-图数据库apoc实战使用使用apoc.path.spanningTree最小生成树Neo4jAPOC-05-图数据库apoc实战使用使用labelFilter是什么？
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注数据集
2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据模态的融合，多模态3D感知因其与物理世界的连接而受到越来越多的关注，并取得了快速进展。然而，现有的数据集
游戏成瘾与学习动力激发策略研究——了解“情感解离”“创伤理论” *TQK* 知也思维认知心理学研究
一、情感解离（EmotionalDissociation）定义：情感解离是一种心理防御机制，指个体在经历无法承受的情绪压力或创伤时，通过切断情感体验与认知、记忆或现实感知的联系来保护自我。它不是简单的“麻木”，而是大脑为应对极端刺激而启动的“紧急逃生通道”。核心特征1、意识分裂现实解离：感到身体或环境“不真实”（如玩游戏时出现“灵魂出窍”般的视角抽离）情感隔离：能描述事件但无法体验对应情绪（如你通
PDCA循环：从目标设定到持续改进的流程图数据可视化
通过图形天下的关系数据可视化，PDCA循环关系清晰地展现了从目标设定到改进措施的动态流程。通过计划制定、任务分解与资源配置，再到执行控制、监控调整，直至评估反馈，每个阶段紧密相连，形成持续优化的闭环。通过这种可视化方式，用户可以更容易地理解PDCA循环的本质，并应用到实际工作中去。 PDCA循环图 PDCA循环，即计划（Plan）、执行（Do）、检查（C
【AI大模型】RAG如何让生成AI更智能？最新方法与优劣深度解析健忘的派大星人工智能语言模型 ai AI大模型 agi RAG 程序员
前言近年来，人工智能技术突飞猛进，尤其是生成式AI，简直像是开了挂一样，各种惊艳的表现让人直呼“未来已来”。根据IDC的研究，生成式AI的市场规模在2022年已经达到了107亿美元，而到2026年，这个数字预计会飙升至326亿美元！不过，尽管生成式AI很强大，但它也并非完美无缺——比如生成内容的质量、准确性和可靠性，依然有提升的空间。这时候，检索增强生成（RAG）技术登场了！RAG的核心思路很简单
03.建造者模式设计思想 java
03.建造者模式设计思想目录介绍01.建造者模式介绍1.1建造者模式由来1.2建造者模式定义1.3建造者模式场景1.4建造者模式思考02.建造者模式实现2.1罗列一个场景2.2创造对象弊端场景2.3案例演变分析2.4用例子理解建造者03.建造者模式分析3.1建造者模式结构图3.2建造者模式时序图3.3基本代码实现04.建造者案例实践4.1盖房子案例开发4.2普通盖房子开发4.3构造者优化盖房子05
项目管理软件的十大核心功能，一文解读！项目管理
一、项目管理软件必备的十大功能任务管理任务管理是项目管理的基石。以一个新产品发布项目为例，你可以为每个阶段创建独立任务，如市场调研、产品设计、开发和测试，并为团队成员分配责任。甘特图甘特图是在视觉上查看项目进度的最佳工具之一。通过条形图的方式来显示项目时间安排，使项目经理可以清晰地看到任务的起始和结束日期。例如，当计划一个产品发布周期时，甘特图可以帮助确定各项任务的进展，并有助于提前识别和解决潜在
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

CNN之手写数字识别（Handwriting Recognition）

CNN之手写数字识别（Handwriting Recognition）

1、常用的包

2、常见概念

3、手写数字识别器实现

3.1 数据准备

3.2 构建网络

3.3 运行模型

3.4 测试模型

3.5 查看卷积核与特征图

参考文献

你可能感兴趣的:(人工智能,深度学习,pytorch,CNN,卷积核,特征图)