QomolangmaH

【深度学习实验】网络优化与正则化（四）：参数初始化及其Pytorch实现——基于固定方差的初始化（高斯、均匀分布），基于方差缩放的初始化（Xavier、He），正交初始化

文章目录

一、实验介绍
二、实验环境
- 1. 配置虚拟环境
- 2. 库版本介绍
三、优化算法
- 0. 导入必要的库
- 1. 随机梯度下降SGD算法
- - a. PyTorch中的SGD优化器
  - b. 使用SGD优化器的前馈神经网络
- 2.随机梯度下降的改进方法
- - a. 学习率调整
  - b. 梯度估计修正
- 3. 梯度估计修正：动量法Momentum
- 4. 自适应学习率
- 5. Adam算法
四、参数初始化
- 1. 基于固定方差的参数初始化
- - a. 高斯分布初始化
  - b. 均匀分布初始化
- 2. 基于方差缩放的参数初始化
- - a. Xavier初始化（也称为Glorot初始化）
  - b. He初始化
- 3. 正交初始化
- 4. 代码整合

好的初始值会使得网络收敛到一个泛化能力高的局部最优解！

一、实验介绍

深度神经网络在机器学习中应用时面临两类主要问题：优化问题和泛化问题。

优化问题：深度神经网络的优化具有挑战性。
- 神经网络的损失函数通常是非凸函数，因此找到全局最优解往往困难。
- 深度神经网络的参数通常非常多，而训练数据也很大，因此使用计算代价较高的二阶优化方法不太可行，而一阶优化方法的训练效率通常较低。
- 深度神经网络存在梯度消失或梯度爆炸问题，导致基于梯度的优化方法经常失效。
泛化问题：由于深度神经网络的复杂度较高且具有强大的拟合能力，很容易在训练集上产生过拟合现象。因此，在训练深度神经网络时需要采用一定的正则化方法来提高网络的泛化能力。

目前，研究人员通过大量实践总结了一些经验方法，以在神经网络的表示能力、复杂度、学习效率和泛化能力之间取得良好的平衡，从而得到良好的网络模型。本系列文章将从网络优化和网络正则化两个方面来介绍如下方法：

在网络优化方面，常用的方法包括优化算法的选择、参数初始化方法、数据预处理方法、逐层归一化方法和超参数优化方法。
在网络正则化方面，一些提高网络泛化能力的方法包括ℓ1和ℓ2正则化、权重衰减、提前停止、丢弃法、数据增强和标签平滑等。

本文将介绍基于自适应学习率的优化算法：Adam算法详解（Adam≈梯度方向优化Momentum+自适应学习率RMSprop）

二、实验环境

本系列实验使用了PyTorch深度学习框架，相关操作如下：

1. 配置虚拟环境

conda create -n DL python=3.7

conda activate DL

pip install torch==1.8.1+cu102 torchvision==0.9.1+cu102 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html

conda install matplotlib

 conda install scikit-learn

2. 库版本介绍

软件包	本实验版本	目前最新版
matplotlib	3.5.3	3.8.0
numpy	1.21.6	1.26.0
python	3.7.16
scikit-learn	0.22.1	1.3.0
torch	1.8.1+cu102	2.0.1
torchaudio	0.8.1	2.0.2
torchvision	0.9.1+cu102	0.15.2

三、优化算法

神经网络的参数学习是一个非凸优化问题．当使用梯度下降法来进行优化网络参数时，参数初始值的选取十分关键，关系到网络的优化效率和泛化能力．参数初始化的方式通常有以下三种：

0. 导入必要的库

from torch import nn

1. 随机梯度下降SGD算法

随机梯度下降（Stochastic Gradient Descent，SGD）是一种常用的优化算法，用于训练深度神经网络。在每次迭代中，SGD通过随机均匀采样一个数据样本的索引，并计算该样本的梯度来更新网络参数。具体而言，SGD的更新步骤如下：

从训练数据中随机选择一个样本的索引。
使用选择的样本计算损失函数对于网络参数的梯度。
根据计算得到的梯度更新网络参数。
重复以上步骤，直到达到停止条件（如达到固定的迭代次数或损失函数收敛）。

a. PyTorch中的SGD优化器

Pytorch官方教程

optimizer = torch.optim.SGD(model.parameters(), lr=0.2)

b. 使用SGD优化器的前馈神经网络

【深度学习实验】前馈神经网络（final）：自定义鸢尾花分类前馈神经网络模型并进行训练及评价

2.随机梯度下降的改进方法

传统的SGD在某些情况下可能存在一些问题，例如学习率选择困难和梯度的不稳定性。为了改进这些问题，提出了一些随机梯度下降的改进方法，其中包括学习率的调整和梯度的优化。

a. 学习率调整

学习率衰减（Learning Rate Decay）：随着训练的进行，逐渐降低学习率。常见的学习率衰减方法有固定衰减、按照指数衰减、按照时间表衰减等。
Adagrad：自适应地调整学习率。Adagrad根据参数在训练过程中的历史梯度进行调整，对于稀疏梯度较大的参数，降低学习率；对于稀疏梯度较小的参数，增加学习率。这样可以在不同参数上采用不同的学习率，提高收敛速度。
Adadelta：与Adagrad类似，但进一步解决了Adagrad学习率递减过快的问题。Adadelta不仅考虑了历史梯度，还引入了一个累积的平方梯度的衰减平均，以动态调整学习率。
RMSprop：也是一种自适应学习率的方法，通过使用梯度的指数加权移动平均来调整学习率。RMSprop结合了Adagrad的思想，但使用了衰减平均来减缓学习率的累积效果，从而更加稳定。

b. 梯度估计修正

Momentum：使用梯度的“加权移动平均”作为参数的更新方向。Momentum方法引入了一个动量项，用于加速梯度下降的过程。通过积累之前的梯度信息，可以在更新参数时保持一定的惯性，有助于跳出局部最优解、加快收敛速度。
Nesterov accelerated gradient：Nesterov加速梯度（NAG）是Momentum的一种变体。与Momentum不同的是，NAG会先根据当前的梯度估计出一个未来位置，然后在该位置计算梯度。这样可以更准确地估计当前位置的梯度，并且在参数更新时更加稳定。
梯度截断（Gradient Clipping）：为了应对梯度爆炸或梯度消失的问题，梯度截断的方法被提出。梯度截断通过限制梯度的范围，将梯度控制在一个合理的范围内。常见的梯度截断方法有阈值截断和梯度缩放。

3. 梯度估计修正：动量法Momentum

【深度学习实验】网络优化与正则化（一）：优化算法：使用动量优化的随机梯度下降算法（Stochastic Gradient Descent with Momentum）

4. 自适应学习率

【深度学习实验】网络优化与正则化（二）：基于自适应学习率的优化算法详解：Adagrad、Adadelta、RMSprop

5. Adam算法

Adam算法（Adaptive Moment Estimation Algorithm）[Kingma et al., 2015]可以看作动量法和 RMSprop 算法的结合，不但使用动量作为参数更新方向，而且可以自适应调整学习率。
【深度学习实验】网络优化与正则化（三）：随机梯度下降的改进——Adam算法详解（Adam≈梯度方向优化Momentum+自适应学习率RMSprop）

四、参数初始化

在神经网络中，参数学习是通过最小化损失函数来进行的，而这通常涉及到解决一个非凸优化问题。非凸优化问题的特点是存在多个局部最小值，而全局最小值不容易找到。梯度下降法是一种常用的优化算法，但容易陷入局部最小值。参数的初始值选择对训练的效果有显著影响，以下是常见的参数初始化方式：

预训练初始化（Pretraining Initialization）：
- 这种方法通常应用于深度神经网络，特别是在训练深度自编码器或生成对抗网络（GAN）等情况下。
- 预训练阶段使用无监督学习，然后将学到的权重作为神经网络的初始权重。
- 这种方法在一些场景下可以帮助避免陷入局部最小值，尤其是在数据集较小或任务较为复杂时。
随机初始化（Random Initialization）：
- 这是最常用的初始化方法之一。
- 参数的初始值通过从一个均匀或高斯分布中随机选择得到。
- 随机初始化有助于打破对称性，避免所有的神经元学到相同的特征。
固定值初始化（Fixed Value Initialization）：
- 将所有的权重初始化为一个固定的常数。
- 这种初始化方法在某些情况下可能有效，但通常不如随机初始化灵活。
- 例如，将所有权重初始化为零可能会导致网络对称性问题，因此通常不建议使用。

在实践中，通常结合使用不同的技术来初始化网络参数。此外，一些高级的初始化方法，如He初始化、Xavier初始化等，针对不同的激活函数和网络结构进行了优化，以提高训练的效果。选择合适的初始化方法往往需要根据具体的任务和网络结构进行实验和调整。

1. 基于固定方差的参数初始化

a. 高斯分布初始化

它假设参数的分布服从高斯分布（也称为正态分布），其中均值为0，方差为^2。通过从这个分布中随机采样，可以得到参数的初始值。高斯分布初始化在实践中表现良好，尤其适用于深度神经网络的参数初始化。

def init_gaussian(m, mean=0, std=0.01):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, mean=mean, std=std)
        nn.init.zeros_(m.bias)

b. 均匀分布初始化

它假设参数的分布服从均匀分布，范围为[-, ]，其中是根据方差2计算得到的适当的范围。通过从这个范围内均匀采样，可以得到参数的初始值。均匀分布初始化在某些情况下可能比高斯分布初始化更适用，例如在某些激活函数（如ReLU）和某些网络架构中。

def init_uniform(m, a=0, b=1):
    if type(m) == nn.Linear:
        nn.init.uniform_(m.weight, a=a, b=b)
        nn.init.zeros_(m.bias)

2. 基于方差缩放的参数初始化

基于方差缩放的参数初始化方法旨在根据神经网络的结构和激活函数的特性来选择合适的方差，以更好地初始化参数。两种常见的方差缩放初始化方法是Xavier初始化和He初始化。

a. Xavier初始化（也称为Glorot初始化）

Xavier初始化是一种广泛使用的参数初始化方法，适用于使用双曲正切（tanh）或S型（sigmoid）激活函数的神经网络。它的目标是使每个神经元的输出具有相同的方差。对于具有n个输入和m个输出的全连接层，Xavier初始化将参数从均值为0的高斯分布中随机采样，并使用方差^2 = 1/(n+m)进行缩放。对于具有ReLU激活函数的网络，Xavier初始化可能不是最佳选择。

def init_xavier(m):
    if type(m) == nn.Linear:
        nn.init.xavier_uniform_(m.weight)
        nn.init.zeros_(m.bias)

b. He初始化

He初始化是专为使用ReLU（修正线性单元）激活函数的神经网络设计的参数初始化方法。与Xavier初始化类似，He初始化也从均值为0的高斯分布中随机采样，但是使用方差^2 = 2/n进行缩放，其中n是输入的数量。He初始化通过适当增加方差来解决ReLU激活函数的梯度消失问题，从而更好地初始化参数。

def init_he(m):
    if type(m) == nn.Linear:
        nn.init.kaiming_uniform_(m.weight, nonlinearity='relu')
        nn.init.zeros_(m.bias)

3. 正交初始化

正交初始化旨在使神经网络的权重矩阵具有正交性。正交初始化的目标是减少权重之间的冗余性，促进梯度的有效传播，从而改善网络的训练效果。
在正交初始化中，权重矩阵被初始化为一个正交矩阵或其变体。一种常见的方法是使用QR分解或SVD分解来生成正交矩阵。具体步骤如下：

对于具有输入维度为n和输出维度为m的权重矩阵W，从均值为0、方差较小的高斯分布中随机初始化W。
对W进行QR分解或SVD分解，得到正交矩阵Q和对角矩阵D。
将Q作为初始化后的权重矩阵，即W = Q。

正交初始化的优点之一是它可以减少参数量，因为正交矩阵具有特殊的结构，其中元素之间存在较强的相关性。这对于具有大量参数的神经网络来说尤为重要，可以减少过拟合的风险，特别是在循环神经网络（RNN）和卷积神经网络（CNN）中。它有助于缓解梯度消失和梯度爆炸问题，促进梯度的传播，从而改善网络的训练稳定性和收敛速度。

def init_orthogonal(m):
    if type(m) == nn.RNN:
        for name, param in m.named_parameters():
            if 'weight' in name:
                nn.init.orthogonal_(param)
            elif 'bias' in name:
                nn.init.zeros_(param)

4. 代码整合

from torch import nn


class FeedForward(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(FeedForward, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden_size)
        self.fc2 = nn.Linear(hidden_size, output_size)
        self.act = nn.Sigmoid()

    def forward(self, inputs):
        outputs = self.fc1(inputs)
        outputs = self.act(outputs)
        outputs = self.fc2(outputs)
        return outputs


def init_constant(m):
    if type(m) == nn.Linear:
        nn.init.constant_(m.weight, 1)
        nn.init.zeros_(m.bias)


def init_normal(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, mean=0, std=0.01)
        nn.init.zeros_(m.bias)


def init_gaussian(m, mean=0, std=0.01):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, mean=mean, std=std)
        nn.init.zeros_(m.bias)


def init_uniform(m, a=0, b=1):
    if type(m) == nn.Linear:
        nn.init.uniform_(m.weight, a=a, b=b)
        nn.init.zeros_(m.bias)


def init_xavier(m):
    if type(m) == nn.Linear:
        nn.init.xavier_uniform_(m.weight)
        nn.init.zeros_(m.bias)


def init_he(m):
    if type(m) == nn.Linear:
        nn.init.kaiming_uniform_(m.weight, nonlinearity='relu')
        nn.init.zeros_(m.bias)


def init_orthogonal(m):
    if type(m) == nn.RNN:
        for name, param in m.named_parameters():
            if 'weight' in name:
                nn.init.orthogonal_(param)
            elif 'bias' in name:
                nn.init.zeros_(param)


net = FeedForward(4, 6, 3)
net.apply(init_constant)
print(net.fc1.weight.data)
print(net.fc2.weight.data)

用Pytorch训练手写签名模型并进行签名识别 TBM矩阵 #AI体系学习 pytorch 人工智能 python
整体思路收集至少两个人的手写签名图片，每个人至少20张使用Pytorch进行模型训练使用Flask搭建Web服务使用Html/JavaScript实现前端调用进行签名识别项目结构signature-systemdatatrainuser001001.png...user002001.png...templatesindex.htmlapp.pymodel.pytrain.py建模：model.py
Java 多线程并发编程面试笔录一览 weixin_34318272 面试 python java
2019独角兽企业重金招聘Python工程师标准>>>知识体系图：1、线程是什么？线程是进程中独立运行的子任务。2、创建线程的方式方式一：将类声明为Thread的子类。该子类应重写Thread类的run方法方式二：声明实现Runnable接口的类。该类然后实现run方法推荐方式二，因为接口方式比继承方式更灵活，也减少程序间的耦合。3、获取当前线程信息？Thread.currentThread()4
python为指定目录下的文件名批量加前缀 jghhh01 python java 前端
功能描述：批量重命名指定目录下的文件，文件名加前缀，默认格式为“目录名_原文件名”。代码importargparseimportosimportsysimportloggingdefgen_args():"""说明-----解析命令行参数"""parser=argparse.ArgumentParser(prog="批量文件重命名工具",description="批量重命名目录中的文件名,新文件名
学而思编程周赛语言普及奠基组 | 2025年春第15周T1 新二进制热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
学而思编程周赛语言普及奠基组 | 2025年春第15周T2 散步热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
MySQL5.7评估数据库层binlog过滤写入颖妍--唯爱数据库 mysql
binlog-do-db参数的影响本次测试均为binlog_format=row格式,因为binlog_format=statement格式在复制场景下，对函数和存储过程使用不友好，很容易导致主从数据不一致，生产环境很少有使用statement格式。使用use指定库在test库进行ddl操作和dml操作[root@localhost]15:17:10[test]>flushbinarylogs;Q
AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
Python商务数据分析——Matplotlib 数据可视化学习笔记爱吃代码的小皇冠 python numpy matplotlib pandas 学习笔记数据分析
一、Matplotlib基础认知1.1库功能与定位核心作用：将数据可视化展示，提升数据直观性与说服力应用场景：绘制折线图、饼图、柱状图等2D/3D图表双接口模式：MATLAB风格：通过pyplot函数快速绘图（自动管理图形对象）面向对象：显式创建Figure和Axes对象（适合复杂绘图）1.2核心对象架构容器类：图(Figure)、坐标系(Axes)、坐标轴(Axis)、刻度(Tick)基础类：线
Python爬虫：Requests与Beautiful Soup库详解 Pu_Nine_9 Python爬虫的学习 python 爬虫 requests beautifulsoup
前言在当今数据驱动的时代，网络爬虫成为了获取网络信息的重要工具。Python作为最流行的爬虫语言之一，拥有丰富的库支持。今天我们就来介绍两个最基础也最强大的爬虫库：Requests和BeautifulSoup，并补充关于lxml解析器和RequestsSession的内容。一、Requests库：让HTTP请求变得简单Requests是一个优雅而简单的HTTP库，它让发送HTTP请求变得非常简单，
Tomcat性能调优指南
文章目录一、Tomcat性能调优概述为什么需要调优Tomcat？二、Tomcat架构与性能关键点三、JVM调优1.内存配置优化2.垃圾回收优化3.其他JVM优化参数四、连接器(Connector)调优1.NIOvsAPR/Native2.高级NIO配置五、线程池优化六、会话管理优化1.会话超时配置2.会话持久化选择七、静态资源处理优化1.启用Sendfile2.配置静态资源缓存八、其他优化措施1.
Spring注解驱动开发之BeanPostProcessor后置处理器桐花思雨 spring #应用 spring
目录1.前言2.`BeanPostProcessor`接口2.1.`BeanPostProcessor`的源码2.2.自定义`BeanPostProcessor`后置处理器2.2.1.实现`BeanPostProcessor`接口2.2.2.创建实体类2.2.3.创建配置类2.2.4.测试结果1.前言BeanPostProcessor后置处理器可用于bean初始化前后进行逻辑增强。Spring提供
equine在神经网络中建立量化不确定性 struggle2025 神经网络人工智能深度学习
一、软件介绍文末提供程序和源码下载众所周知，用于监督标记问题的深度神经网络（DNN）可以在各种学习任务中产生准确的结果。但是，当准确性是唯一目标时，DNN经常会做出过于自信的预测，并且无论测试数据是否属于任何已知标签，它们也总是进行标签预测。EQUINEwascreatedtosimplifytwokindsofuncertaintyquantificationforsupervisedlabel
CARLsim开源程序是一个高效、易用、GPU 加速的软件框架，用于模拟具有高度生物细节的大规模脉冲神经网络（SNN）模型。 struggle2025 神经网络人工智能深度学习
一、软件介绍文末提供程序和源码下载CARLsim是一个高效、易用的GPU加速库，用于模拟具有高度生物学细节的大规模脉冲神经网络（SNN）模型。CARLsim允许在通用x86CPU和标准现成GPU上以逼真的突触动力学执行Izhikevich脉冲神经元网络。该模拟器在C/C++中提供了一个类似PyNN的编程接口，允许在突触、神经元和网络级别指定详细信息和参数。二、CARLsim6的新功能包括：CUDA
质量管理重要理论知识和质量管理工具
一、质量管理核心理论1.戴明循环（PDCA）理论：通过“计划（Plan）→执行（Do）→检查（Check）→改进（Act）”实现持续改进。例子：问题：某电子厂PCBA焊接不良率高达5%。Plan：分析发现回流焊温度曲线不稳定；Do：调整炉温参数，设定梯度升温；Check：一周后不良率降至1.2%；Act：将新参数写入标准作业指导书（SOP）。2.朱兰三部曲理论：质量策划→质量控制→质量改进。例子：
centos 7+hadoop 2.7.3 mozhw c/c++linu/unix java
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2016g-
Linux学习笔记：PCIe内核篇（1）：初始化与枚举流程 ZH_2025 嵌入式协议篇 PCIE
根据system.map查看内核中PCIe加载流程：root@zh-vm:~#cat/boot/System.map-5.15.0-130-generic|greppci|grepinitcallffffffff8350ff68d__initcall__kmod_pci__453_6907_pci_realloc_setup_params0ffffffff83510098d__initcall__
UBOOT学习笔记（六）：UBOOT启动--CPU架构及板级初始化阶段 ZH_2025 uboot &linux启动篇 linux arm
3.1、_mainENTRY(_main)#ifdefined(CONFIG_TPL_BUILD)&&defined(CONFIG_TPL_NEEDS_SEPARATE_STACK)ldrr0,=(CONFIG_TPL_STACK)/*TPL（三级引导）使用独立栈*/#elifdefined(CONFIG_SPL_BUILD)&&defined(CONFIG_SPL_STACK)ldrr0,=(C
nnv开源神经网络验证软件工具
一、软件介绍文末提供程序和源码下载用于神经网络验证的Matlab工具箱，该工具箱实现了可访问性方法，用于分析自主信息物理系统（CPS）领域中带有神经网络控制器的神经网络和控制系统。二、相关工具和软件该工具箱利用神经网络模型转换工具（nnmt）和闭环系统分析、混合系统模型转换和转换工具（HyST）以及CONTINUOUSReachabilityAnalyzer（CORA）三、无需安装即可执行NNV可
让你彻底了解 JavaScript 解构赋值前端贾公子前端基础 javascript 前端开发语言
JavaScript解构赋值详解1.解构赋值简介解构赋值（Destructuringassignment）是JavaScriptES6引入的一种语法特性，它使得我们可以从数组和对象中提取值，并以一种更便捷的方式赋值给变量。这种语法可以大大减少代码量，提高代码的可读性和维护性。1.1为什么使用解构赋值？代码更简洁，减少重复的赋值语句提高代码可读性，使变量的来源更清晰方便地处理嵌套数据结构在函数参数中
es6 -- 解构赋值可心abc javascript es6 es6 javascript 前端
文章目录1.数组的解构赋值，按次序排列，位置决定2.对象的解构赋值，没有次序，变量与属性同名即可取值,默认undefined3.字符串的解构赋值4.数值和布尔值的结构赋值5.函数结构赋值,被解构的参数`是`传入的参数`，还是`函数参数默认值6.不能使用圆括号场景,区别声明语句与赋值语句6.1可以使用圆括号7.用途：ES6允许按照一定的模式，从数组或对象中提取值，给变量进行赋值，称为解构赋值1.数组
[pytorch] pytorch_model.bin 和 training_args.bin 的区别心心喵 pytorch 深度学习 pytorch 神经网络
pytorch_model.bin和training_args.bin是与PyTorch框架和训练过程相关的两个文件。pytorch_model.bin:这是保存了PyTorch模型的二进制文件。在使用PyTorch进行深度学习训练时，经过训练的模型会被保存为这个文件，其中包含了模型的权重参数。这个文件可以被加载到PyTorch中，以便进行推理、评估或继续训练。training_args.bin:
【2025最新】AI大模型项目实战教程大揭秘！超详细攻略，手把手带你飞，记得收藏！大模型教程人工智能产品经理大模型大模型教程大数据大模型学习程序员
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
高性价比二手服务器CPU你知多少? 专注VB编程开发20年 CPU 二手
以前E33220这些都不太好的吧,现在不知有哪种二手服务器CPU核心多,主频高,性价比更高,闲鱼二手上哪些值的买,多少钱根据2025年二手服务器CPU市场现状，结合核心数、主频、价格及兼容性，以下推荐四款高性价比型号（价格参考2025年5-6月闲鱼行情）：⚡‌一、性能怪兽：IntelXeonE5-2696v3（18核36线程）‌‌核心参数‌：18核36线程｜基础2.3GHz/睿频3.8GHz｜L3
linux学习第五周运维小杨 linux 学习运维
目录1、总结rocky系统的启动流程，grub工作流程1.1系统启动整体流程（基于BIOS/UEFI）1.2硬件初始化阶段1.2.1BIOS（传统模式）1.2.2UEFI（新模式）1.3引导加载程序（GRUB2）阶段1.4内核加载与初始化阶段1.5用户空间初始化（systemd阶段）2、总结内核设计流派及特点。3、总结systemd服务配置文件4、总结DNS域名三级结构，DNS服务工作原理，涉及递
Python 数据分析：numpy，抽提，基本索引。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy python 数据分析 numpy 开发语言数据挖掘人工智能机器学习
目录1示例代码2欢迎纠错3免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导
Python 数据分析：pandas 的 DataFrame，抽行、抽列、抽行列。df[] / df.loc[] / df.iloc[]，位置索引 / 标签索引，切片 / 不切片好开心啊没烦恼 Python数据分析 python 数据分析 pandas 开发语言数据挖掘
目录1预备知识：Series1.1生成1.2抽提（1）单条（2）多条不连（3）多条连1.3取值2正文：DataFrame2.1生成df2.2抽提2.2.1抽列（1）单列df[]df.loc[]df.iloc[]（2）多列不连df[]df.loc[]df.iloc[]（3）多列连df[]←不存在这种抽提法！df.loc[]df.iloc[]2.2.2抽行（1）单行df[]df.loc[]df.ilo
Python 数据分析：numpy.transpose() ，转换维度。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy numpy python 开发语言数据分析数据挖掘人工智能机器学习
目录1一维数组2二维数组3三维数组4欢迎纠错5免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowch
Python 编辑器：Geany，不是内部或外部命令，系统找不到指定路径
目录1找到设置选项2开始设置2.1complie2.2execute3欢迎纠错4免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，
深入理解AI技术与实践：如何贡献代码 Wurenyu957 人工智能
在现代AI技术的开发过程中，贡献代码是推动项目发展、提升技术能力的重要方式。在这篇文章中，我们将结合AI技术实践，深入探讨如何有效地为开源项目贡献代码，尤其是那些使用AI模型的项目。技术背景介绍AI技术的迅猛发展得益于开源社区的共享和协作。诸如TensorFlow、PyTorch等开源框架，极大地降低了AI模型开发的门槛。与此同时，越来越多的项目通过GitHub等平台开放源码，接受来自全球开发者的
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地