takedachia

【Pytorch学习笔记】5.总结一下一个深度学习模型的实现过程（以Softmax回归从零实现为例）

文章目录

- 首先考虑解决什么问题
- 1 获取和读取数据
- - 获取数据
  - 读取数据
- 2 构建模型
- - 初始化模型参数
  - 定义模型、损失函数
- 3 定义优化算法
- 4 训练模型
- - 定义训练函数注意的要素
  - 定义步骤
- 5 评估模型
- 完整版代码（不用装d2l）

一些简单的深度学习模型从零实现看着教程看似简单，敲着代码就过去了，但还是做一下自己的初步总结。里面的思维过程无论放在今后什么问题里都是适用的，包括实现的基本步骤、模型的构思如何反映到代码，定义训练的过程需要哪些参数等等。

本文以Softmax回归从零实现为例，总结一下一个深度学习模型的实现过程，每个步骤都附上自己的总结思考。

首先考虑解决什么问题

比如我们想要用Softmax回归模型，去实现一个图片分类的问题。
后面是目的，前面是手段。
然后脑子里需要浮现出解决问题的几个基本步骤：

获取和读取数据
定义模型：①根据模型初始化模型参数，②定义模型、损失函数
定义优化算法（如SGD）用于学习参数
训练模型
评估模型

1 获取和读取数据

获取数据

我们首先需要创建一个数据集对象Dataset()

对于获取数据来说，一般初学者都是从一些公开数据集获取数据的，获取数据一般会用到pytorch相关库的一些方法。
比如我们想要读取 FashionMNIST 数据集，用于通过Softmax模型解决该数据集的分类问题（或者评估Softmax模型的分类性能，Whatever，不同表述而已）。

我们通常使用torchvision.datasets下的类创建数据集，这个类下有许多公开数据集可以直接下载获取，如我们需要FashionMNIST数据集：

# 对于机器学习问题，一般都会生成一个训练集，一个测试集
mnist_train = torchvision.datasets.FashionMNIST(
    root='~/Datasets/FashionMNIST', train=True, download=True, 
    transform=transforms.ToTensor())
mnist_test = torchvision.datasets.FashionMNIST(
    root='~/Datasets/FashionMNIST', train=False, download=True, 
    transform=transforms.ToTensor())

注意其中的transform参数，需要传入一个数据转换器（位于torchvision.transforms下），常用的有ToTensor()方法，将图片数据转换为尺寸为(C x H x W)且大小位于[0.0, 1.0]的float32数据类型的Tensor。
创建的数据集对象属于torch.utils.data.Dataset的子类。

读取数据

然后将创建的数据集对象Dataset()传入数据加载器Dataloader()

我们创建一个Dataset后，一般直接传入torch.utils.data.Dataloader() 生成一个Dataloader对象。

batch_size = 256
train_iter = torch.utils.data.DataLoader(
    mnist_train, batch_size=batch_size, shuffle=True, num_workers=0)
test_iter = torch.utils.data.DataLoader(
    mnist_test, batch_size=batch_size, shuffle=False, num_workers=0)
# 这里的num_workers表示数据读取的线程数，Windows系统一般默认设0，这里更多信息可以自行搜索学习。

生成Dataloader后，就可以使用for循环读取批量数据了，一次循环是一个batch_size数量的数据。
batch_size是一个重要的超参数，横贯机器学习过程的始终，不仅方便计算机按批次读取数据减少内存开销，并且在计算梯度时，使用一个batch_size的数据进行迭代更新，大大减少计算量。

我们也可以使用next(iter(dataloader))手工读取一个批次的数据。

Dataloader是一个可迭代对象，它通过生成迭代器，来读取批量数据。
对于一些数据，我们还可以构建生成器来读取批量数据，这部分扩展阅读可以参考我这篇文章。

2 构建模型

将模型的数学表达转换成代码表达

我们选择Softmax回归模型时，心中需要构思好这个模型的数学表达，见下。
需要注意的是，softmax回归本身是一个单层神经网络，并且和线性回归一样是全连接的：
这里提示我们要有一个思维：把一个数学模型用深度神经网络去构建解释。

我们的Softmax回归数学模型是（以4像素图片，3分类标签为例）：
$\begin{aligned} \boldsymbol{o}^{(i)} &=\boldsymbol{x}^{(i)} \boldsymbol{W}+\boldsymbol{b} \\ \hat{\boldsymbol{y}}^{(i)} &=\operatorname{softmax}\left(\boldsymbol{o}^{(i)}\right) \end{aligned} \\ p = \underset{p}{\argmax } \hat{y}_{p}$
$\boldsymbol{x}^{(i)}=\left[x_{1}^{(i)} \quad x_{2}^{(i)} \quad x_{3}^{(i)} \quad x_{4}^{(i)}\right], \boldsymbol{o}^{(i)}=\left[\begin{array}{lll} o_{1}^{(i)} & o_{2}^{(i)} & o_{3}^{(i)} \end{array}\right], \\ \hat{\boldsymbol{y}}^{(i)}=\left[\begin{array}{lll} \hat{y}_{1}^{(i)} & \hat{y}_{2}^{(i)} & \hat{y}_{3}^{(i)} \end{array}\right]$
参数：
$\boldsymbol{W}=\left[\begin{array}{lll}w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \\ w_{31} & w_{32} & w_{33} \\ w_{41} & w_{42} & w_{43}\end{array}\right], \quad \boldsymbol{b}=\left[\begin{array}{lll}b_{1} & b_{2} & b_{3}\end{array}\right]$

初始化模型参数

本例中，我们需要学习的模型系数是矩阵W和偏倚项b。
我们将28281大小的图片拉伸为28×28=784长度的向量（输入的是一个batch的X，即X形状为256×784），输出的是10分类，因此W的形状为：784×10
偏倚项b的形状为10×1

然后，我们一般使用(0,0.01)的正态分布去初始化参数的数值：

num_inputs = 784
num_outputs = 10
W = torch.tensor(
    np.random.normal(loc=0, scale=0.01, size=(num_inputs, num_outputs)), 
    dtype=torch.float)
b = torch.zeros(num_outputs , dtype=torch.float)

最后，最重要的一步，W和b设上梯度，因为我们需要学习这个参数！

# 设上梯度
W.requires_grad_(requires_grad=True)
b.requires_grad_(requires_grad=True)

定义模型、损失函数

先定义softmax：

def softmax(X):
    X_exp = X.exp()
    partition = X_exp.sum(dim=1, keepdim=True)
    return X_exp / partition  # 这里使用了广播机制

定义模型：

def net(X):
    return softmax(torch.mm(X.view((-1, num_inputs)), W) + b)

定义交叉熵损失函数：

def cross_entropy(y_hat, y):
    return -torch.log(y_hat.gather(dim=1, index=y.view(-1,1)))
# y就是待传入的那个批量的label数据

（定义交叉熵损失函数的细节可以参考我这篇文章）

我们在定义模型和损失函数时，在心中对模型的计算图最好有个大致的把握。
我们可以先看看本模型损失函数的梯度节点可视化：
（可视化可参考我的这篇文章）

可以看到在这个损失函数的计算图里，我们要求的是顶端的两个参数W,b，整个损失函数是关于参数的函数。DivBackward0节点及以上部分是模型计算结果y_hat，节点以下部分流向损失函数的计算。

3 定义优化算法

定义优化器以优化参数

本例中我们依然可使用随机梯度下降法（SGD）作为Optimizer，届时在训练时每个batch数据计算完后梯度后，利用当前梯度迭代更新一次参数。
优化器除了需要传入的待学习参数（本例为W,b）外，还需要传入一些超参数。

# lr是学习率。作为超参数。
def sgd(params, lr, batch_size):
    for param in params:
        param.data -= lr * param.grad / batch_size

4 训练模型

接下去就是重头戏的训练环节了，我们一般定义一个训练函数train()作为一套训练的过程的打包。

定义训练函数注意的要素

超参数：lr（学习率），num_epochs（训练轮数），batch_size
超参数一般根据经验设置，比如本例设lr=0.1，num_epochs=5
在深度学习模型中，一般需要训练多轮epoch才有比较好的效果
常规参数：
训练集的Dataloader：train_iter
测试集的Dataloader：test_iter（视情况非必须）
模型名net：net
损失函数loss：cross_entropy
训练参数params：[W, b]
优化器Optimizer：None（我们直接在函数中封入SGD作为默认优化器，就可以不用再手动传）

定义步骤

从训练集Dataloader获得一个X，y批次；
通过模型net算出预测值y_hat；
通过损失函数loss算出损失值l。

记得回顾上面那张计算图，只有待学习的参数W，b带梯度，是届时需要传入优化器更新的。
同时注意损失函数定义时一般返回的是一个batch_size长度的向量，对齐求sum()转换成标量以方便求导（见下方代码）。

对参数W，b梯度清零
l.backward()针对这一批量的数据结果，反向传播，求出当前梯度
之后W,b中就带有了梯度信息，这时传入优化器sgd对参数进行一次迭代更新：

$W . d a t a = W . d a t a - l r * W . g r a d / b a t c h s i z e$
$b . d a t a = b . d a t a - l r * b . g r a d / b a t c h s i z e$

以上完成一个批次，参数就迭代更新一次。
完成所有批次，一轮训练就完成了。
完成设定的训练轮次（num_epochs），训练结束。

下面附上代码：

num_epochs, lr = 5, 0.1

def train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size,
    params = None, lr = None, optimizer = None):

    for epoch in range(num_epochs):
        train_l_sum, train_acc_sum, n = 0.0, 0.0, 0  # 显示总体损失值、准确率用
        for X, y in train_iter:
            print(X.shape)
            y_hat = net(X)
            print(y_hat.shape)
            l = loss(y_hat, y).sum()

            # 梯度清零
            if optimizer is not None:
                # 在这个例子中，optimizer没传入，用默认的sgd，这里不会被执行
                optimizer.zero_grad()
            elif params is not None and params[0].grad is not None:
                for param in params:
                    param.grad.data.zero_()  # 参数的梯度数据清零

            l.backward()   # 小批量的损失对模型参数求梯度

            if optimizer is None:
                sgd(params, lr, batch_size)
                # 传入优化器sgd对参数进行一次迭代更新
            else:
                optimizer.step()
                # 在这个例子中，optimizer没传入，用默认的sgd，这里不会被执行

            train_l_sum += l.item()
            train_acc_sum += (y_hat.argmax(dim=1) == y).sum().item()  # 计算训练准确率
            n += y.shape[0]
        print('epoch %d, loss %.4f, train acc %0.3f' % (epoch +1, train_l_sum / n, train_acc_sum / n))

5 评估模型

可以定义一个函数评估测试集上的准确率，这里就不详述了。
具体直接参考下一节的完整版代码，并对train_ch3训练函数补充了测试集评估的内容。

完整版代码（不用装d2l）

代码是自己修订的个人笔记版，可配合我的博文食用。
不需要安装 d2l、d2lzh_pytorch库。

Github版：
3.6Softmax从零实现笔记.ipynb

直接运行版：

# %%
# 导包
import torch
import torchvision
import torchvision.transforms as transforms
import numpy as np
import sys

# %% [markdown]
# ### 获取和读取数据

# %%
mnist_train = torchvision.datasets.FashionMNIST(
    root='~/Datasets/FashionMNIST', train=True, download=True, transform=transforms.ToTensor())
mnist_test = torchvision.datasets.FashionMNIST(
    root='~/Datasets/FashionMNIST', train=False, download=True, transform=transforms.ToTensor())

batch_size = 256

if sys.platform.startswith('win'):
    num_workers = 0  # 0表示不用额外的进程来加速读取数据
else:
    num_workers = 4

train_iter = torch.utils.data.DataLoader(
    mnist_train, batch_size=batch_size, shuffle=True, num_workers=num_workers)
test_iter = torch.utils.data.DataLoader(
    mnist_test, batch_size=batch_size, shuffle=False, num_workers=num_workers)

# %% [markdown]
# ### 初始化模型参数
# 我们使用向量表示每个样本，已知每个样本输入是高和宽均为28像素的图像，向量长度：28*28=784

# 图像有10个类别，单层神经网络输出层的输出个数为10，so，softmax回归的权重w和偏差b参数的矩阵形状为：784×10和1×10（还是个线性模型）

# %%
num_inputs = 784
num_outputs = 10
W = torch.tensor(
    np.random.normal(loc=0, scale=0.01, size=(num_inputs, num_outputs)), 
    dtype=torch.float)
b = torch.zeros(num_outputs , dtype=torch.float)  # 这里直接定义为了 shape 为 10 的矩阵，利用后面的广播原则可扩展维度
print(W.shape, b.shape)

# %%
# 设上梯度
W.requires_grad_(requires_grad=True)
b.requires_grad_(requires_grad=True)

# %% [markdown]
# ### 构建模型
# 实现softmax运算

# 首先描述一下，如何对多维Tensor按维度操作。

# 比如，给定一个矩阵X，可以对其中同一列（dim=0）或同一行（dim=1）的元素求和，并在结果中保留行和列这两个维度（keepdim=True）

# %% [markdown]
# #### 定义softmax运算
# 设矩阵X为一个批次的数据，行数是样本数，列数是特征数。

# 先对每个元素进行exp运算，再对运算好的矩阵进行同行元素求和，最后令矩阵每行各元素与该行元素之和相除。得到每行的概率分布。

# 即，softmax运算的输出矩阵中，任意一行元素代表了一个样本在各个输出类别上的预测概率。

# %%
def softmax(X):
    X_exp = X.exp()
    partition = X_exp.sum(dim=1, keepdim=True)
    return X_exp / partition  # 这里使用了广播机制

# %% [markdown]
# #### 定义模型
# 通过view函数将每张原始图像改成长度为num_inputs的向量。

# %%
def net(X):
    return softmax(torch.mm(X.view((-1, num_inputs)), W) + b)

# %% [markdown]
# #### 定义损失函数

# %%
# 定义交叉熵损失函数
def cross_entropy(y_hat, y):
    return -torch.log(y_hat.gather(dim=1, index=y.view(-1,1)))
# y就是待传入的那个批量的label数据

# %% [markdown]
# ### 计算分类准确率
# 给定一个类别的概率分布y_hat，如果它与真实类别（索引矩阵）y一致，说明预测正确。

# 准确率：正确预测数量 / 总预测数量

# 我们定义accuracy函数。使用argmax()方法，y_hat.argmax(dim=1)返回y_hat每行中最大元素的索引，其与（索引矩阵）y形状相同。


# 在pytorch中，相等条件判断式 (y_hat.argmax(dim=1) == y) 是一个类型为 ByteTensor 的Tensor，里面元素为布尔变量，可用float()将其转换为值为0或1(相等为真) 的浮点型Tensor

# %%
# # 定义准确率函数
# y_hat = torch.tensor([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]])
# y = torch.LongTensor([0, 2])

# def accuracy(y_hat, y):
#     return (y_hat.argmax(dim=1) == y).float().mean().item()

# print(accuracy(y_hat, y))

# %% [markdown]
# #### 评价模型net在数据集 data_iter 上的准确率

# %%
# net即上面定义的模型。即每张转换成长向量后，赋予线性参数W,b，然后softmax，得到一个batch的y_hat
def evaluate_accuracy(data_iter, net):
    acc_sum, n = 0.0, 0
    for X, y in data_iter:
        acc_sum += (net(X).argmax(dim=1) == y).float().sum().item()
        n += y.shape[0]
    return acc_sum / n

# %%
# 因为随机初始化了参数 W,b ，模型net也初始化了，现在已经可以这个求未训练过的随机模型的准确率了。
# 随机模型的准确率应该与10分类的自然概率0.1相近
print(evaluate_accuracy(test_iter, net))

# %% [markdown]
# ### 训练模型
# **我们同样使用小批量随机梯度下降来优化模型的损失函数。**

# 训练模型时，迭代周期数 num_epochs 和学习率 lr 都是可调超参数。

# %%
num_epochs, lr = 5, 0.1

def sgd(params, lr, batch_size):
    for param in params:
        param.data -= lr * param.grad / batch_size

def train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size,
    params = None, lr = None, optimizer = None):

    for epoch in range(num_epochs):
        train_l_sum, train_acc_sum, n = 0.0, 0.0, 0
        for X, y in train_iter:
            # print(X.shape)
            y_hat = net(X)
            # print(y_hat.shape)
            l = loss(y_hat, y).sum()

            # 梯度清零
            if optimizer is not None:
                # 在这个例子中，optimizer没传入，所以用默认的sgd，这里不会被执行
                optimizer.zero_grad()
            elif params is not None and params[0].grad is not None:
                for param in params:
                    param.grad.data.zero_()    # 参数的梯度数据清零

            l.backward()   # 小批量的损失对模型参数求梯度

            if optimizer is None:
                sgd(params, lr, batch_size)
            else:
                optimizer.step()
                # 在这个例子中，optimizer没传入，所以就用默认的sgd，这里不会被执行

            train_l_sum += l.item()
            train_acc_sum += (y_hat.argmax(dim=1) == y).sum().item()
            n += y.shape[0]
        test_acc = evaluate_accuracy(test_iter, net)
        print('epoch %d, loss %.4f, train acc %0.3f, test acc %.3f' % (epoch +1, train_l_sum / n, train_acc_sum / n, test_acc))

# %%
train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, batch_size, [W, b], lr)

# %% [markdown]
# ### 评估模型

# %%
from matplotlib import pyplot as plt

def get_fashion_mnist_labels(labels):
    text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat',
                   'sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
    return [text_labels[int(i)] for i in labels]

def show_fashion_mnist(images, labels):
    _, figs = plt.subplots(1, len(images), figsize=(12, 12))
    for f, img, lbl in zip(figs, images, labels):
        f.imshow(img.view((28, 28)).numpy())
        f.set_title(lbl)
        f.axes.get_xaxis().set_visible(False)
        f.axes.get_yaxis().set_visible(False)
    plt.show()

X, y = iter(test_iter).next()

true_labels = get_fashion_mnist_labels(y.numpy())
pred_labels = get_fashion_mnist_labels(net(X).argmax(dim=1).numpy())
titles = [true + '\n' + pred for true, pred in zip(true_labels, pred_labels)]

show_fashion_mnist(X[0:9], titles[0:9])

Gradio全解13——MCP详解（3）——TypeScript介绍：特点与适用领域
Gradio全解13——MCP详解（3）——TypeScript介绍：特点与适用领域第13章MCP详解13.3TypeScript介绍13.3.1TypeScript的诞生与发展1.TypeScript的诞生与特点分析2.TypeScript为什么流行？13.3.2TypeScript与Python适用领域对比1.数据科学领域2.AI应用程序领域参考文献本章目录如下：《Gradio全解13——MC
python+unity实现数字人跟随运动雨轩智能 python智能算法 python Unity 数字人
效果如下设计思路1python通过摄像头提取人物肢体关键点信息2通过UDP将获取到人体信息发送给Unity3unity将获取的的人物信息进行解析4将解析的数据赋值给模型骨架代码获取
对话式AI助手的巅峰对决：ChatGPT与文心一言的实用价值探讨酷钉 chatgpt 人工智能
随着人工智能技术的发展，对话式AI助手逐渐成为了人们生活中的一部分。其中，ChatGPT和文心一言更是备受关注的两款对话式AI助手。本文将探讨这两款AI助手的实用价值，并通过案例和数据的方式进行分析。一、ChatGPT的实用价值跨语言交流ChatGPT是一款能够进行跨语言交流的对话式AI助手。据统计，ChatGPT支持的语言数量超过100种，用户可以通过它轻松地与不同国家和地区的人进行交流。例如，
PyPI仓库 loggutils 组件内嵌恶意代码
【高危】PyPI仓库loggutils组件内嵌恶意代码漏洞描述当用户安装受影响版本的loggutilsPython组件包时会窃取用户主机浏览器、剪贴板、系统文件等信息，并窃取键盘记录和摄像头截图，并对用户主机进行远控。MPS编号MPS-tzsc-gm4v处置建议强烈建议修复发现时间2025-06-30投毒仓库pip投毒类型恶意代码利用成本低利用可能性中影响范围影响组件受影响的版本最小修复版本log
微信小程序｜流浪动物救助小程序的设计与实现 qq_469603589 微信小程序小程序微信小程序
作者主页：编程指南针作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、腾讯课堂常驻讲师主要内容：Java项目、Python项目、前端项目、人工智能与大数据、简历模板、学习资料、面试题库、技术互助收藏点赞不迷路关注作者有好处文末获取源码项目编号：L-BS-XZBS-30一，环境介绍语言环境：Java:jdk1
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
基于uniapp微信小程+SpringBoot+Vue的流浪动物救助领养系统设计和实现(源码+论文+部署讲解等)
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
软件工程中Selenium的关键字驱动测试软件工程实践软件工程最佳实践 AI软件构建大数据系统架构软件工程 selenium 测试工具 ai
软件工程中Selenium的关键字驱动测试关键词：Selenium、关键字驱动测试、自动化测试、测试框架、Web测试、测试脚本、测试维护摘要：本文深入探讨了在软件工程中使用Selenium实现关键字驱动测试的方法论和实践。文章从基本概念入手，详细解析了关键字驱动测试的核心原理和架构设计，通过Python代码示例展示了具体实现方式，并提供了数学模型分析测试覆盖率。此外，文章还包含了实际项目案例、工具
Halcon 初步了解科学的发展-只不过是读大自然写的代码图形编程 c#视觉处理 Halcon
1.Halcon概述Halcon是德国MVTec公司开发的一套完善的机器视觉算法包，也是一款功能强大的视觉处理软件，为工业自动化领域提供了全面的解决方案。它拥有应用广泛的机器视觉集成开发环境，提供了一套丰富的图像处理和机器视觉算法，可以在各种工业应用中进行图像分析、目标检测、测量、定位、识别等任务。Halcon的核心功能包括图像处理、特征提取与匹配、3D视觉、深度学习、条码识别、OCR识别以及视觉
Python高效移除列表中符合条件的元素：5种方法详解 Ven% python python 算法开发语言
文章目录1.列表推导式（推荐首选）2.filter()函数（函数式编程）3.倒序删除法（原地修改）4.while循环（正向删除）5.切片赋值（原地高效修改）方法对比与选择指南注意事项总结在Python开发中，经常需要对列表进行过滤操作，移除不符合条件的元素。本文将全面介绍5种常用方法，并分析各自的适用场景和性能特点。1.列表推导式（推荐首选）最简洁高效的方式，特别适合中小型列表numbers=[1
由浅入深：Python异步函数调用的艺术 - 从脚本到API架构设计 Ven% python python 网络开发语言
文章目录引言：异步编程的新范式一、基础篇：事件循环中的直接调用1.1理解异步执行模型1.2简单调用示例1.3关键注意事项二、进阶篇：API接口中的异步调用2.1为什么需要API封装？2.2FastAPI实现示例2.3调用对比分析三、架构篇：分层设计的最佳实践3.1问题：紧耦合的陷阱3.2解决方案：三层架构设计3.2.1核心业务层(core/retrieval.py)3.2.2API接口层(api/
如何在pytorch中使用tqdm：优雅实现训练进度监控 Ven% 简单入门pytorch pytorch 人工智能 python
文章目录为什么需要进度条？tqdm简介基础用法示例深度学习中的实战应用1.数据加载进度监控2.训练循环增强版3.验证阶段集成高级技巧与最佳实践1.自定义进度条样式2.嵌套进度条（多任务）3.分布式训练支持4.与日志系统集成性能优化建议完整训练流程示例常见问题解决方案总结掌握训练进度监控是深度学习工程师的基本功。本文将带你从零开始，深入探索如何用tqdm为深度学习训练添加专业级进度条。为什么需要进度
Python中字符串isalpha()函数详解
在Python中，isalpha()是字符串（string）类型的内置方法，用于检查字符串中的所有字符是否都是字母字符（alphabeticcharacter）。以下是详细说明：一、基本功能返回值：布尔值（True或False）判断规则：如果字符串中所有字符都是字母（包括Unicode字母，如中文、日文等），且至少有一个字符→返回True如果字符串中包含任何非字母字符（如数字、空格、标点、特殊符号
python内置哪些装饰器_Python内置装饰器 weixin_39968820 python内置哪些装饰器
1、staticmethod()a）描述原文：staticmethod(function)->methodConvertafunctiontobeastaticmethod.Astaticmethoddoesnotreceiveanimplicitfirstargument.Todeclareastaticmethod,usethisidiom:classC:@staticmethoddeff(a
python爬虫爬百度云盘的资源 oaa608868 百度云爬虫 python
最近百度云盘不知道为啥不提供资源检索，正好最近看了一下python，正好来练练手，写歌爬虫爬一下百度云盘的资源。分析了一下百度云盘的网友源码和js文件，里面有大量ajax的东西，利用json传输数据，前端显示。话说，这样数据爬去就方便多了，也不要用scrapy啥的，直接解析json数据就好。分析js文件提炼了下面三个链接：URL_SHARE='http://yun.baidu.com/pclo
Python通过字符串调用函数_python 面向对象根据字符串调动对应函数(1) m0_61418142 python 数据库 linux
textprocess(file,language)但是textprocess(file=‘data.txt’,language=‘english’)language(text)TypeError:‘str’objectisnotcallable百度谷歌一番，我查到以下几种方式####1-字典最简单，易上手的方式，使用字典配对。defchinese(text):print(‘jieba分词’)de
python-内置装饰器大风起于云兮测试开发学习 python
类方法classMethodsdemo:param_a=0#定义类方法必须要加classmethod装饰器@classmethoddefclass_method_demo(cls):"""这是一个类方法，类方法的第一个参数必须为cls，以区别实例方法的self参数:return:"""print('这是一个类方法',cls.param_a)if__name__=='__main__':Method
【python第三方库】Hydra库在AI项目中使用简介
文章目录一、前言1.omegaconf与Hydra库的关系2.Hydra优势二、实际用法展示1.项目结构2.配置文件3.Python代码4.运行示例4.1默认配置运行4.2从命令行覆盖配置4.3多运行模式5.超参数优化5.1安装Optuna插件5.2修改config.yaml5.3运行超参数优化一、前言Hydra是一个开源Python框架，可简化研究和其他复杂应用程序的开发。关键特性是能够通过组合
大学专业科普 | 计算机应用、视觉与算法鸭鸭鸭进京赶烤计算机应用
一、专业概述计算机应用专业是一门实践性很强的学科，专注于将计算机技术转化为实际应用，服务于各个行业和领域，为社会的数字化转型提供人才支撑。二、课程设置专业基础课程：包括计算机组成原理、操作系统、数据结构、计算机网络等，为学生构建坚实的理论基础。专业核心课程：聚焦于程序设计语言（如C、C++、Java、Python等）、数据库原理与应用、软件工程、Web前端开发等，使学生具备开发各类软件系统的能力。
字符串篇(python)—如何统计字符串中连续的重复字符个数_python随机给出字符串,统计连续且相同个数 2401_84141337 程序员 python 开发语言
"""递归实现一个求字符串中连续出现相同字符的最大值例如字符串"aaabbcc"最大值为a3解题思路遍历字符串的时候定义两个变量curMaxLen记录当前遍历字符重复的连续字符个数maxLen遍历到目前为止找到最长的连续重复字符的个数"""defgetMaxDupChar(s,startIndex,curMaxLen,maxLen):ifstartIndex==len(s)-1:returnmax
【Python】Hydra 用法详解行码棋 #Python python 开发语言
Hydra官方文档Hydra（Python配置管理工具）1.引言在机器学习、深度学习和软件开发中，管理复杂的配置是一个常见的挑战。Hydra是一个强大的Python库，允许开发者轻松地管理和组织配置文件，支持动态参数覆盖、多层次配置和可组合配置等特性。2.安装HydraHydra可以通过pip直接安装：pipinstallhydra-core安装完成后，你可以使用hydra进行配置管理。3.基础用
Python 时间处理实战：4 个 datetime 模块的高效应用场景李智 - 重庆 Python 精讲精练 -从入门到实战 python 案例学习编程技巧经验分享经典范例
Python时间处理实战：4个datetime模块的高效应用场景Python的datetime模块是标准库中用于处理日期和时间的核心模块。它提供了多种类和工具，方便开发者操作日期、时间、时间间隔以及时区信息。以下是其主要功能及组件：一、基础速递1.主要类及用途1.1datetime.date功能：处理日期（年、月、日）。示例：fromdatetimeimportdatetoday=date.tod
Python实战案例，requests模块，Python实现获取动态图表小雁子学Python Python技术分享 python 实战案例 requests模块动态图表
前言利用Python实现获取动态图表，废话不多说~让我们愉快地开始吧~开发工具Python版本：3.6.4相关模块：re模块；requests模块；urllib模块；pandas模块；以及一些Python自带的模块。环境搭建安装Python并添加到环境变量，pip安装需要的相关模块即可。看一下B站2019年「数据可视化」版块的情况，第一个视频超2百万的播放量，4万+的弹幕百度指数获取百度指数，首先
onnx模型部署 python_深度学习模型转换与部署那些事(含ONNX格式详细分析) weixin_39759270 onnx模型部署 python
背景深度学习模型在训练完成之后，部署并应用在生产环境的这一步至关重要，毕竟训练出来的模型不能只接受一些公开数据集和榜单的检验，还需要在真正的业务场景下创造价值，不能只是为了PR而躺在实验机器上在现有条件下，一般涉及到模型的部署就要涉及到模型的转换，而转换的过程也是随着对应平台的不同而不同，一般工程师接触到的平台分为GPU云平台、手机和其他嵌入式设备对于GPU云平台来说，在上面部署本应该是最轻松的事
如何禁止GPTBot等爬虫爬取网站内容：保护数据安全的实用指南淮橘√ 人工智能
引言随着人工智能技术的快速发展，网络爬虫（如OpenAI的GPTBot、GoogleBot、Anthropic的ClaudeBot等）被广泛用于抓取网站数据以训练AI模型或索引内容。然而，部分网站管理员可能不希望自己的内容被爬虫抓取，原因包括保护原创内容、降低服务器负载或防止数据被滥用。一、为什么需要禁止爬虫？网络爬虫可能带来以下问题：内容盗用风险：原创内容可能被AI模型或其他服务未经授权使用。服
Java 与 AI 携手，掀起多领域智能变革浪潮 WangRK_ 人工智能 java 开发语言
在数字化转型的时代浪潮下，技术更新迭代速度超乎想象。当Java这门历经二十余年沉淀的编程语言，遇上风头正劲的人工智能（AI），一场席卷多领域的智能变革正悄然发生。尤其是在金融与零售两大行业，这场技术融合带来的改变，正重塑着整个行业的生态。一、Java在金融与零售行业的“前世今生”（一）曾经的行业基石在金融领域，Java堪称“代码钢铁侠”，是金融基础设施的坚实支柱。全球顶级交易所依靠Java强大的性
Python - 爬虫；Scrapy框架之插件Extensions（四） MinggeQingchun Python Python 爬虫 Scrapy extensions
阅读本文前先参考https://blog.csdn.net/MinggeQingchun/article/details/145904572在Scrapy中，扩展（Extensions）是一种插件，允许你添加额外的功能到你的爬虫项目中。这些扩展可以在项目的不同阶段执行，比如启动、关闭、处理请求、处理响应等。Extensions官网文档：Extensions—Scrapy2.12.0document
python中的高级变量V hbwhmama python学习 python
定义一个元组(常规)info_tuple=("Tom",18,1.85)print(type(info_tuple))#查看info_tuple的类型print(info_tuple)#输出元祖中的所有元素('Tom',18,1.85)print(info_tuple[0])#指定索引直输出指定数据Tom定义一个空元组info_tuple_01=()print(type(info_tuple_01
Python应用指南：利用高德地图API获取公交+地铁可达圈（二）图说交通高德API系列 python 开发语言信息可视化 shp 高德地图api
副标题：利用Python自动化调用高德API并批量处理可达圈在上一篇文章中，我们详细探讨了如何利用高德地图API获取单一位置的公交可达圈数据。通过构建请求URL、发送HTTP请求、解析返回的JSON数据，并对其中的坐标进行从GCJ-02（高德火星坐标系）到WGS84（通用地理坐标系）的转换，最终将结果整理为CSV格式输出，实现了对单个出发点在指定时间范围内可到达区域的精确描绘。这一过程不仅帮助我们
从零开始理解Transformer模型：架构与应用淮橘√ transformer 深度学习人工智能
引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。从Google提出的《AttentionisAllYouNeed》论文到ChatGPT、BERT等模型的广泛应用，Transformer以其强大的性能和灵活性改变了我们对序列建模的认知。本文将从零开始，深入浅出地解析Transformer的架构原理、核心组件以及实际应用场景，并提供一个简单的代码示例
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul