Jayden yang

深度学习笔记（五）---损失函数与优化器

以下笔记来源：

[1] . 《pytorch深度学习实战》

[2] .pytorch 损失函数总结（https://blog.csdn.net/jacke121/article/details/82812218）

[3] .PyTorch学习之十种优化函数(https://blog.csdn.net/shanglianlm/article/details/85019633)

如有侵权，请联系删除！

pytorch框架中损失函数与优化器介绍：

1. 损失函数：

1.1　nn.L1Loss

1.2　nn.SmoothL1Loss

1.3　nn.MSELoss

1.4　nn.BCELoss

1.5　nn.CrossEntropyLoss

1.6　nn.NLLLoss

1.7　nn.NLLLoss2d

2.优化器Optim

2.1 使用

2.2 基类 Optimizer

2.3 方法

3. 优化算法

3.1 随机梯度下降算法 SGD算法

3-2 平均随机梯度下降算法 ASGD算法

3-3 Adagrad算法

3-4 自适应学习率调整 Adadelta算法

3-5 RMSprop算法

3-6 自适应矩估计 Adam算法

3-7 Adamax算法（Adamd的无穷范数变种）

3-8 SparseAdam算法

3-9 L-BFGS算法

3-10 弹性反向传播算法 Rprop算法

1. 损失函数：

损失函数，又叫目标函数，是编译一个神经网络模型必须的两个参数之一。另一个必不可少的参数是优化器。

损失函数是指用于计算标签值和预测值之间差异的函数，在机器学习过程中，有多种损失函数可供选择，典型的有距离向量，绝对值向量等。

上图是一个用来模拟线性方程自动学习的示意图。粗线是真实的线性方程，虚线是迭代过程的示意，w1 是第一次迭代的权重，w2 是第二次迭代的权重，w3 是第三次迭代的权重。随着迭代次数的增加，我们的目标是使得 wn 无限接近真实值。

那么怎么让 w 无限接近真实值呢？其实这就是损失函数和优化器的作用了。图中 1/2/3 这三个标签分别是 3 次迭代过程中预测 Y 值和真实 Y 值之间的差值（这里差值就是损失函数的意思了，当然了，实际应用中存在多种差值计算的公式），这里的差值示意图上是用绝对差来表示的，那么在多维空间时还有平方差，均方差等多种不同的距离计算公式，也就是损失函数了，这么一说是不是容易理解了呢？

这里示意的是一维度方程的情况，那么发挥一下想象力，扩展到多维度，是不是就是深度学习的本质了？

下面介绍几种常见的损失函数的计算方法，pytorch 中定义了很多类型的预定义损失函数，需要用到的时候再学习其公式也不迟。

我们先定义两个二维数组，然后用不同的损失函数计算其损失值。

import torch
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F
sample = Variable(torch.ones(2,2))
a=torch.Tensor(2,2)
a[0,0]=0
a[0,1]=1
a[1,0]=2
a[1,1]=3
target = Variable (a)

sample 的值为：[[1,1],[1,1]]。

target 的值为：[[0,1],[2,3]]。

1.1　nn.L1Loss

L1Loss 计算方法很简单，取预测值和真实值的绝对误差的平均数即可。

criterion = nn.L1Loss()
loss = criterion(sample, target)
print(loss)

最后结果是：1。

它的计算逻辑是这样的：

先计算绝对差总和：|0-1|+|1-1|+|2-1|+|3-1|=4；
然后再平均：4/4=1。

1.2　nn.SmoothL1Loss

SmoothL1Loss 也叫作 Huber Loss，误差在 (-1,1) 上是平方损失，其他情况是 L1 损失。

criterion = nn.SmoothL1Loss()
loss = criterion(sample, target)
print(loss)

最后结果是：0.625。

1.3　nn.MSELoss

平方损失函数。其计算公式是预测值和真实值之间的平方和的平均数。

criterion = nn.MSELoss()
loss = criterion(sample, target)
print(loss)

最后结果是：1.5。

1.4　nn.BCELoss

二分类用的交叉熵，其计算公式较复杂，这里主要是有个概念即可，一般情况下不会用到。

criterion = nn.BCELoss()
loss = criterion(sample, target)
print(loss)

最后结果是：-13.8155。

1.5　nn.CrossEntropyLoss

交叉熵损失函数

该公式用的也较多，比如在图像分类神经网络模型中就常常用到该公式。

criterion = nn.CrossEntropyLoss()
loss = criterion(sample, target)
print(loss)

最后结果是：报错，看来不能直接这么用！

看文档我们知道 nn.CrossEntropyLoss 损失函数是用于图像识别验证的，对输入参数有各式要求，这里有这个概念就可以了，在图像识别一文中会有正确的使用方法。

1.6　nn.NLLLoss

负对数似然损失函数（Negative Log Likelihood）

在前面接上一个 LogSoftMax 层就等价于交叉熵损失了。注意这里的 xlabel 和上个交叉熵损失里的不一样，这里是经过 log 运算后的数值。这个损失函数一般也是用在图像识别模型上。

criterion = F.nll_loss()
loss = criterion(sample, target)
print(loss)
loss=F.nll_loss(sample,target)

最后结果会报错！

Nn.NLLLoss 和 nn.CrossEntropyLoss 的功能是非常相似的！通常都是用在多分类模型中，实际应用中我们一般用 NLLLoss 比较多。

1.7　nn.NLLLoss2d

和上面类似，但是多了几个维度，一般用在图片上。

input, (N, C, H, W)

target, (N, H, W)

比如用全卷积网络做分类时，最后图片的每个点都会预测一个类别标签。

criterion = nn.NLLLoss2d()
loss = criterion(sample, target)
print(loss)

同样结果报错！

2.优化器Optim

所有的优化函数都位于torch.optim包下，常用的优化器有：SGD,Adam,Adadelta,Adagrad,Adamax等，下面就各优化器分析。

2.1 使用

optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum=0.9)
optimizer = optim.Adam([var1, var2], lr = 0.0001)

lr：学习率，大于0的浮点数
momentum:动量参数，大于0的浮点数
parameters：Variable参数，要优化的对象

2.2 基类 Optimizer

torch.optim.Optimizer(params, defaults)

params (iterable) —— Variable 或者 dict的iterable。指定了什么参数应当被优化。
defaults —— (dict)：包含了优化选项默认值的字典（一个参数组没有指定的参数选项将会使用默认值）。

2.3 方法：

load_state_dict(state_dict)：加载optimizer状态。
state_dict()：以dict返回optimizer的状态。包含两项：state - 一个保存了当前优化状态的dict，param_groups - 一个包含了全部参数组的dict。
add_param_group(param_group)：给 optimizer 管理的参数组中增加一组参数，可为该组参数定制 lr,momentum, weight_decay 等，在 finetune 中常用。
step(closure) ：进行单次优化 (参数更新)。
zero_grad() ：清空所有被优化过的Variable的梯度。

3. 优化算法

3.1 随机梯度下降算法 SGD算法

SGD就是每一次迭代计算mini-batch的梯度，然后对参数进行更新，是最常见的优化方法了。即：

torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=False)

params (iterable) ：待优化参数的iterable或者是定义了参数组的dict
lr (float) ：学习率
momentum (float, 可选) ：动量因子（默认：0）
weight_decay (float, 可选) ：权重衰减（L2惩罚）（默认：0）
dampening (float, 可选) :动量的抑制因子（默认：0）
nesterov (bool, 可选) :使用Nesterov动量（默认：False）

可实现 SGD 优化算法，带动量 SGD 优化算法，带 NAG(Nesterov accelerated gradient)动量 SGD 优化算法,并且均可拥有 weight_decay 项。

对于训练数据集，我们首先将其分成n个batch，每个batch包含m个样本。我们每次更新都利用一个batch的数据，而非整个数据集。这样做使得训练数据太大时，利用整个数据集更新往往时间上不现实。batch的方法可以减少机器的压力，并且可以快速收敛。
当训练集有冗余时，batch方法收敛更快。

优缺点：
SGD完全依赖于当前batch的梯度，所以η可理解为允许当前batch的梯度多大程度影响参数更新。对所有的参数更新使用同样的learning rate，选择合适的learning rate比较困难，容易收敛到局部最优。

3-2 平均随机梯度下降算法 ASGD算法

ASGD 就是用空间换时间的一种 SGD。

torch.optim.ASGD(params, lr=0.01, lambd=0.0001, alpha=0.75, t0=1000000.0, weight_decay=0)

params (iterable) ：待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) ：学习率（默认：1e-2）
lambd (float, 可选) ：衰减项（默认：1e-4）
alpha (float, 可选) ：eta更新的指数（默认：0.75）
t0 (float, 可选) ：指明在哪一次开始平均化（默认：1e6）
weight_decay (float, 可选) ：权重衰减（L2惩罚）（默认: 0）

3-3 Adagrad算法

AdaGrad算法就是将每一个参数的每一次迭代的梯度取平方累加后在开方，用全局学习率除以这个数，作为学习率的动态更新。

其中，r为梯度累积变量，r的初始值为0。ε为全局学习率，需要自己设置。δ为小常数，为了数值稳定大约设置为10^-7 。

torch.optim.Adagrad(params, lr=0.01, lr_decay=0, weight_decay=0)

params (iterable) ：待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) ：学习率（默认: 1e-2）
lr_decay (float, 可选) ：学习率衰减（默认: 0）
weight_decay (float, 可选) ：权重衰减（L2惩罚）（默认: 0）

优缺点：
Adagrad 是一种自适应优化方法，是自适应的为各个参数分配不同的学习率。这个学习率的变化，会受到梯度的大小和迭代次数的影响。梯度越大，学习率越小；梯度越小，学习率越大。缺点是训练后期，学习率过小，因为 Adagrad 累加之前所有的梯度平方作为分母。随着算法不断迭代，r会越来越大，整体的学习率会越来越小。所以，一般来说AdaGrad算法一开始是激励收敛，到了后面就慢慢变成惩罚收敛，速度越来越慢。在深度学习算法中，深度过深会造成训练提早结束。

3-4 自适应学习率调整 Adadelta算法

Adadelta是对Adagrad的扩展，主要针对三个问题：

学习率后期非常小的问题；
手工设置初始学习率；
更新xt时，两边单位不统一

针对以上的三个问题，Adadelta提出新的Adag解决方法。Adagrad会累加之前所有的梯度平方，而Adadelta只累加固定大小的项，并且也不直接存储这些项，仅仅是近似计算对应的平均值。

torch.optim.Adadelta(params, lr=1.0, rho=0.9, eps=1e-06, weight_decay=0)

params (iterable) ：待优化参数的iterable或者是定义了参数组的dict
rho (float, 可选) ：用于计算平方梯度的运行平均值的系数（默认：0.9）
eps (float, 可选)：为了增加数值计算的稳定性而加到分母里的项（默认：1e-6）
lr (float, 可选)：在delta被应用到参数更新之前对它缩放的系数（默认：1.0）
weight_decay (float, 可选) ：权重衰减（L2惩罚）（默认: 0）

优缺点：
Adadelta已经不依赖于全局学习率。训练初中期，加速效果不错，很快，训练后期，反复在局部最小值附近抖动。

3-5 RMSprop算法

RMSprop 和 Adadelta 一样，也是对 Adagrad 的一种改进。 RMSprop 采用均方根作为分
母，可缓解 Adagrad 学习率下降较快的问题，并且引入均方根，可以减少摆动。

torch.optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0, centered=False)

params (iterable) ：待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) ：学习率（默认：1e-2）
momentum (float, 可选) : 动量因子（默认：0）
alpha (float, 可选) : 平滑常数（默认：0.99）
eps (float, 可选) : 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）
centered (bool, 可选):如果为True，计算中心化的RMSProp，并且用它的方差预测值对梯度进行归一化
weight_decay (float, 可选)：权重衰减（L2惩罚）（默认: 0）

3-6 自适应矩估计 Adam算法

torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) – 学习率（默认：1e-3）
betas (Tuple[float, float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数（默认：0.9，0.999）
eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）
weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）

优缺点：
Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。
Adam结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点。

3-7 Adamax算法（Adamd的无穷范数变种）

Adamax 是对 Adam 增加了一个学习率上限的概念，所以也称之为 Adamax。

torch.optim.Adamax(params, lr=0.002, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) – 学习率（默认：2e-3）
betas (Tuple[float, float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数
eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）
weight_decay (float, 可选) – 权重衰减（L2惩罚）（默认: 0）

优缺点：

Adamax是Adam的一种变体，此方法对学习率的上限提供了一个更简单的范围。
Adamax学习率的边界范围更简单。

3-8 SparseAdam算法

针对稀疏张量的一种“阉割版”Adam 优化方法。

torch.optim.SparseAdam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08)

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) – 学习率（默认：2e-3）
betas (Tuple[float, float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数
eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项（默认：1e-8）

3-9 L-BFGS算法

L-BFGS 属于拟牛顿算法。 L-BFGS 是对 BFGS 的改进，特点就是节省内存。

torch.optim.LBFGS(params, lr=1, max_iter=20, max_eval=None, 
tolerance_grad=1e-05, tolerance_change=1e-09, 
history_size=100, line_search_fn=None)

lr (float) – 学习率（默认：1）
max_iter (int) – 每一步优化的最大迭代次数（默认：20）)
max_eval (int) – 每一步优化的最大函数评价次数（默认：max * 1.25）
tolerance_grad (float) – 一阶最优的终止容忍度（默认：1e-5）
tolerance_change (float) – 在函数值/参数变化量上的终止容忍度（默认：1e-9）
history_size (int) – 更新历史的大小（默认：100）

3-10 弹性反向传播算法 Rprop算法

该优化方法适用于 full-batch，不适用于 mini-batch。不推荐。

torch.optim.Rprop(params, lr=0.01, etas=(0.5, 1.2), step_sizes=(1e-06, 50))

params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
lr (float, 可选) – 学习率（默认：1e-2）
etas (Tuple[float, float], 可选) – 一对（etaminus，etaplis）, 它们分别是乘法的增加和减小的因子（默认：0.5，1.2）
step_sizes (Tuple[float, float], 可选) – 允许的一对最小和最大的步长（默认：1e-6，50）

优缺点：
该优化方法适用于 full-batch，不适用于 mini-batch。

LangGraph 深度学习笔记：构建真实世界的智能代理成都犀牛人工智能大模型 Agent 深度学习笔记人工智能 pytorch python
LangGraph不仅仅是一个图框架，它是构建具有长期记忆、决策能力和复杂交互的智能代理（IntelligentAgents）的强大引擎。它通过将应用程序解构为可控的状态机，让你的LLM应用从简单的问答升级为能够自主思考、行动和适应的复杂系统。借用官方给的说法，其中重要点已经做了单独标注，下面的内容地址在文章最后有做说明LangGraphisalibraryforbuildingstateful,
深度学习笔记16-VGG-16算法-Pytorch实现人脸识别 boooo_hhh 深度学习机器学习 pytorch
目录前言一、前期准备1.设置GPU2.导入数据3.划分数据集二、调用官方的VGG-16模型三、训练模型1.编写训练函数2.编写测试函数3.设置动态学习率4.正式训练四、结果可视化1.Loss与Accuracy图2.指定图片进行预测3.模型评估五、总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、前期准备1.设置GPU如果设备上支持GPU就使用GPU,否则使用CPUimport
深度学习笔记疯狂成瘾者深度学习笔记人工智能
文章目录聚类导入模块生成模拟数据建立并训练K-Means聚类模型创建图形绘制散点图（聚类结果）获取聚类中心可视化聚类中心设置图形标题和标签输出效果数据降维一、常见的数据降维方法二、Python降维示例（用PCA将3D数据降至2D）✅第1部分：导入模块✅第2部分：生成模拟数据✅第3部分：PCA降维处理✅第4部分：开始绘图✅第5部分：绘制散点图✅第6部分：完善图像细节并显示✨最终效果数据降维的作用✅一
【深度学习】嘿马深度学习笔记第1篇：深度学习基本概要【附代码文档】某miao 深度学习笔记人工智能
图片无法加载本教程的知识点为：深度学习介绍1.1深度学习与机器学习的区别TensorFlow介绍2.4张量2.4.1张量(Tensor)2.4.1.1张量的类型TensorFlow介绍1.2神经网络基础1.2.1Logistic回归1.2.1.1Logistic回归TensorFlow介绍总结每日作业神经网络与tf.keras1.3神经网络基础神经网络与tf.keras1.3Tensorflow实
动手学深度学习笔记1 a3040218 深度学习深度学习笔记人工智能
介绍定义：深度学习是一类基于人工神经网络的机器学习技术，通过构建具有多个层次的神经网络模型，让计算机自动从大量数据中学习特征和模式。它模拟人类大脑的神经元结构，通过大量神经元之间的相互连接和信息传递，实现对复杂数据的学习和理解。Tips:与传统机器学习的区别：传统机器学习通常需要人工手动设计特征，这依赖于领域专家的经验和知识，且设计的特征往往具有局限性。而深度学习能够自动从数据中学习到复杂的特征表
深度学习笔记（一）：卷积变种（分组卷积、空洞卷积、深度可分离卷积、可形变卷积）卷积中的不一样的操作生活需要深度深度学习笔记人工智能
文章目录常规卷积（Convolution）分组卷积（GroupConvolution）原理用途空洞（扩张）卷积（Dilated/AtrousConvolution）深度可分离卷积（depthwiseseparableconvolution）标准卷积与深度可分离卷积的不同深度可分离卷积的过程深度可分离卷积的优点可变形卷积网络背景想法评价卷积神经网络中十大拍案叫绝的操作一、卷积只能在同一组进行吗？--
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 深度学习人工智能计算机视觉机器学习 transformer 论文阅读
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
Meta的AIGC视频生成模型——Emu Video 好评笔记 AIGC 深度学习人工智能机器学习 transformer 校招面试八股
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
深度学习笔记12-mnist手写数字识别(Pytorch) m0_67869333 深度学习深度学习笔记 pytorch
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊目录一、前期准备1.导入数据2.数据可视化二、构建简单的CNN网络三、训练模型1.设置超参数2.编写训练函数3.编写测试函数4.正式训练编辑四、结果可视化编辑五、总结1.Pytorch自带数据库：torchvision.dataset2.Pytorch自带数据加载器：torch.utils.data.DataLoader3.Pytorch
动手深度学习笔记（二十九）5.5. 读写文件落花逐流水 pytorch实践 pytorch pytorch
动手深度学习笔记（二十九）5.5.读写文件5.深度学习计算5.5.读写文件5.5.1.加载和保存张量5.5.2.加载和保存模型参数5.5.3.小结5.5.4.练习5.深度学习计算5.5.读写文件到目前为止，我们讨论了如何处理数据，以及如何构建、训练和测试深度学习模型。然而，有时我们希望保存训练的模型，以备将来在各种环境中使用（比如在部署中进行预测）。此外，当运行一个耗时较长的训练过程时，最佳的做法
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 音视频机器学习人工智能深度学习计算机视觉 transformer
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
深度学习笔记——Resnet和迁移学习肆—— 深度学习深度学习笔记迁移学习
1.ResNet的提出深度学习与网络深度的挑战：在深度学习中，网络的“深度”(即层数)通常与模型的能力成正比。然而，随着网络深度的增加，一些问题也随之出现，最突出的是梯度消失/爆炸问题。这使得深层网络难以训练。梯度消失：梯度消失是指在训练深度神经网络时，通过多层传递的梯度(误差)变得非常小，接近于零。这导致网络中较早层的权重更新非常缓慢，甚至几乎不更新。梯度爆炸：梯度爆炸是指在训练深度神经网络时，
深度学习笔记——神经网络肆—— 深度学习深度学习笔记神经网络人工智能 python
本文为在拓尔思智能举办的训练营中学习内容的总结，部分内容摘自百度百科个人在这里推荐一个好用的软件，Trae，主要是免费。人工神经元是人工神经网络的基本单元。模拟生物神经元，人工神经元有1个或者多个输入（模拟多个树突或者多个神经元向该神经元传递神经冲动）；对输入进行加权求和（模拟细胞体将神经信号进行积累和树突强度不同）；对输入之和使用激活函数计算活性值（模拟细胞体产生兴奋或者抑制）；输出活性值并传递
深度学习笔记——基础部分肆—— 深度学习深度学习笔记人工智能 python pytorch
深度学习是一种机器学习的方式，通过模仿人脑吃力信息的方式，使用多层神经网络来学习数据的复杂模式和特征。深度学习和机器学习的区别：在机器学习中，特征提取通常需要人工设计和选择，依赖于领域专家的知识来确定哪些特征对模型最为重要;而在深度学习中，特征提取是自动进行的，通过多层神经网络结构直接从原始数据(也可能需要初步处理)中学习复杂特征，减少了对人工干预的依赖，使得模型能够处理更加复杂的数据和任务。计算
深度学习笔记线性代数方面，记录一些每日学习到的知识肆—— 人工智能深度学习 python
记录一些每日学习到的新知识：torch：Torch是一个有大量机器学习算法支持的科学计算框架，是一个与Numpy类似的张量(Tensor)操作库jupyter：JupyterNotebook的本质是一个Web应用程序，便于创建和共享程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。只有一个轴的张量，形状只有一个元素torch.a
深度学习笔记——循环神经网络RNN 好评笔记补档深度学习 rnn 人工智能机器学习计算机视觉神经网络 AIGC
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍面试过程中可能遇到的循环神经网络RNN知识点。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集文章目录热门专栏机器学习深度学习文本特征提取的方法1.基础方法1.1词袋模型（BagofWords,BOW）工作原理举例优点缺点1.2TF-IDF（TermFrequency-InverseDocumentFr
机器学习笔记——特征工程好评笔记补档机器学习笔记人工智能 AIGC 深度学习计算机视觉面试八股
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集文章目录热门专栏机器学习深度学习特征工程（FzeatureEngineering）1.特征提取（FeatureExtraction）手工特征提取（ManualFeatureExtraction）：自
深度学习笔记——常见的Transformer位置编码好评笔记深度学习笔记深度学习 transformer 人工智能
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍3种常见的Transformer位置编码——正弦/余弦位置编码（sin/cos）、基于频率的二维位置编码（2DFrequencyEmbeddings）、旋转式位置编码（RoPE）文章目录Transformer中常见的编码方式正弦/余弦位置编码（SinusoidalPositionalEncoding）基于频率的
深度学习面试八股文——决战金三银四 Good Note 补档深度学习面试人工智能机器学习 AIGC 校招春招
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记的任务是解读深度学习实践/面试过程中可能会用到的知识点，内容通俗易懂，入门、实习和校招轻松搞定。公主号合集地址点击进入优惠地址：深度学习笔记合集笔记介绍本笔记的任务是解读深度学习实践/面试过程中可能会用到的知识点，内容通俗易懂，入门、实习和校招轻松搞定。涵盖深度学习八股文和常用算法、模型，包括深度学习基础知识，前向传
SD模型微调之LoRA 好评笔记补档深度学习计算机视觉人工智能面试 AIGC SD stable diffusion
大家好，这里是Goodnote（好评笔记），关注公主号Goodnote，专栏文章私信限时Free。本文是SD模型微调方法LoRA的详细介绍，包括数据集准备，模型微调过程，推理过程，优缺点等。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集文章目录热门专栏机器学习深度学习论文概念核心原理优点训练过程预训练模型加载选择微调的层LoRA优化的层Cross-Attention（跨注意力）层Self
深度学习笔记之自然语言处理(NLP) 电棍233 深度学习笔记自然语言处理
深度学习笔记之自然语言处理(NLP)在行将开学之时，我将开始我的深度学习笔记的自然语言处理部分，这部分内容是在前面基础上开展学习的，且目前我的学习更加倾向于通识。自然语言处理部分将包含《动手学深度学习》这本书的第十四章，自然语言处理预训练和第十五章，自然语言处理应用。并且参考原书提供的jupyternotebook资源。自然语言处理，预训练自然语言处理（NaturalLanguageProcess
动手学深度学习笔记|3.2线性回归的从零开始实现（附课后习题答案） lusterku 动手学深度学习深度学习笔记线性回归
动手学深度学习笔记|3.2线性回归的从零开始实现（附课后习题答案）线性回归的从零开始实现生成数据集读取数据集初始化模型参数定义模型定义损失函数定义优化算法训练练习1.如果我们将权重初始化为零，会发生什么。算法仍然有效吗？2.计算二阶导数时可能会遇到什么问题？这些问题可以如何解决？3.为什么在`squared_loss`函数中需要使用`reshape`函数？4.尝试使用不同的学习率，观察损失函数值下
深度学习笔记——pytorch构造数据集 Dataset and Dataloader 旺仔喔喔糖机器学习笔记 pytorch 人工智能深度学习
系列文章目录机器学习笔记——梯度下降、反向传播机器学习笔记——用pytorch实现线性回归机器学习笔记——pytorch实现逻辑斯蒂回归Logisticregression机器学习笔记——多层线性（回归）模型Multilevel(LinearRegression)Model深度学习笔记——pytorch构造数据集DatasetandDataloader深度学习笔记——pytorch解决多分类问题M
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
AIGC视频生成模型：Meta的Emu Video模型好评笔记 #Meta AIGC-视频 AIGC 机器学习人工智能 transformer 论文阅读深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
AIGC视频生成国产之光：ByteDance的PixelDance模型好评笔记 AIGC-视频补档 AIGC 计算机视觉人工智能深度学习机器学习论文阅读面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言输入训练和推理时的数据处理总结相关工作视频生成长视频生成方法模型架构
深度学习笔记——模型部署好评笔记深度学习笔记深度学习笔记人工智能 transformer 模型部署大模型部署大模型
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文简要概括模型部署的知识点，包括步骤和部署方式。文章目录模型部署模型部署的关键步骤常见的模型部署方式优势与挑战总结边缘端部署方案总结历史文章机器学习深度学习模型部署模型部署是指将训练好的机器学习或深度学习模型集成到生产环境中，使其能够在实际应用中处理实时数据和提供预测服务。模型部署的流程涉及模型的封装、部署环境的选择、部
深度学习笔记——前向传播与反向传播、神经网络（前馈神经网络与反馈神经网络）、常见算法概要汇总好评笔记深度学习笔记深度学习笔记神经网络人工智能
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文简要介绍深度学习的前向传播与反向传播，以及前馈神经网络与反馈神经网络。文章目录前向传播与反向传播前向传播（ForwardPropagation）反向传播（BackPropagation）总结神经网络简介结构类型前馈神经网络（FeedforwardNeuralNetwork,FFNN）特点常见变体反馈神经网络（Feedb
深度学习笔记——生成对抗网络GAN 好评笔记深度学习笔记深度学习生成对抗网络人工智能神经网络 aigc gan 机器学习
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍早期生成式AI的代表性模型：生成对抗网络GAN。文章目录一、基本结构生成器判别器二、损失函数判别器生成器交替优化目标函数三、GAN的训练过程训练流程概述训练流程步骤1.初始化参数和超参数2.定义损失函数3.训练过程的迭代判别器训练步骤生成器训练步骤4.交替优化5.收敛判别GAN训练过程的挑战四、GAN的常见变体
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

深度学习笔记（五）---损失函数与优化器

1. 损失函数：

1.1 nn.L1Loss

1.2 nn.SmoothL1Loss

1.3 nn.MSELoss

1.4 nn.BCELoss

1.5 nn.CrossEntropyLoss

1.6 nn.NLLLoss

1.7 nn.NLLLoss2d

2.优化器Optim

2.1 使用

2.2 基类 Optimizer

2.3 方法：

3. 优化算法

3.1 随机梯度下降算法 SGD算法

3-2 平均随机梯度下降算法 ASGD算法

3-3 Adagrad算法

3-4 自适应学习率调整 Adadelta算法

3-5 RMSprop算法

3-6 自适应矩估计 Adam算法

3-7 Adamax算法（Adamd的无穷范数变种）

3-8 SparseAdam算法

3-9 L-BFGS算法

3-10 弹性反向传播算法 Rprop算法

你可能感兴趣的:(深度学习笔记)

1.1　nn.L1Loss

1.2　nn.SmoothL1Loss

1.3　nn.MSELoss

1.4　nn.BCELoss

1.5　nn.CrossEntropyLoss

1.6　nn.NLLLoss

1.7　nn.NLLLoss2d