梯度归一化第12页

Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification

现有的verbalizer大多由人工构建或者基于梯度下降进行搜索得到，不足在于标签词的覆盖范围小、存在

Navajo_c·2024-01-22 12:23

深度学习记录--学习率衰减(learning rate decay)

学习率衰减mini-batch梯度下降最终会在最小值附近的区间摆动(噪声很大)，不会精确收敛为了更加近似最小值，采用学习率衰减的方法随着学习率的衰减，步长会逐渐变小，因此最终摆动的区间会很小，更加近似最小值如下图

蹲家宅宅·2024-01-22 10:12

深度学习记录--RMSprop均方根

RMSprop(rootmeansquareprop)减缓纵轴方向学习速度，加快横轴方向学习速度，从而加速梯度下降方法：原理：不妨以b为纵轴，w为横轴(横纵轴可能会不同，因为是多维量)为了让w梯度下降更快

蹲家宅宅·2024-01-22 10:42

深度学习记录--Momentum gradient descent

Momentumgradientdescent正常的梯度下降无法使用更大的学习率，因为学习率过大可能导致偏离函数范围，这种上下波动导致学习率无法得到提高，速度因此减慢(下图蓝色曲线)为了减小波动，同时加快速率

蹲家宅宅·2024-01-22 10:11

Transformer and Pretrain Language Models3-3

注意力机制的出发点首先就是为了解决信息瓶颈问题而存在的，这样我们通过注意力机制decoder端在每次生成的时候，都可以直接关注到encoder端所有位置的信息，信息瓶颈的问题就可以有效地解决了2、注意力机制同样很有效地缓解了RNN中的梯度消失的问题

ringthebell·2024-01-22 10:33

【Deepspeed-DeepSpeedZeroOptimizer-01】ZeRO源码精读01：DeepSpeedZeroOptimizer（ZeRO-1，ZeRO-2）

ZeRO-1，分区优化器状态ZeRO-2，在1的基础上分区梯度至于为什么没有把ZeRO-3一起写，暂时不清楚Deepspeed团队的设计，ZeRO3是在一个单独的文件中的，我们将

陈超帅·2024-01-22 10:30

《机器学习》客户流失判断-python实现

实现读取数据并初步了解导入宏包读取数据查看数据类型检查缺失值描述性统计分析可视化分析用户流失分析特征分析任期年数与客户流失的关系：服务类属性分析特征相关性分析数据预处理类别编码转换划分训练数据与测试数据归一化处理模型建立逻辑回归支持向量机

汐ya~·2024-01-22 09:44

机器学习_正则化、欠拟合和过拟合

normalization和standardization：标准化、规范化，以及归一化，是调整数据，特征缩放;regularization：而

you_are_my_sunshine*·2024-01-22 09:14

基于双向长短期神经网络的客流量预测，基于bilstm的客流量预测

download/abc991835105/88768314效果图结果分析展望参考论文背影碳排放越来越受到重视，预测是一种比较难的预测，随机性比较大，长短期神经网络是一种改进党的RNN神经网络，克服了梯度爆炸的问

神经网络机器学习智能算法画图绘图·2024-01-22 07:59

深度强化学习Task2：策略梯度算法

本篇博客是本人参加Datawhale组队学习第二次任务的笔记【教程地址】文章目录基于价值算法和基于策略算法的比较策略梯度算法策略梯度算法的直观理解策略梯度算法REINFORCE算法基于平稳分布的策略梯度算法

卡拉比丘流形·2024-01-22 07:16

JoyRL策略梯度

与基于价值的算法（包括DQN等算法）不同，这类算法直接对策略本身进行近似优化。在这种情况下，我们可以将策略描述成一个带有参数θ的连续函数，该函数将某个状态作为输入，输出的不再是某个确定性的离散动作，而是对应的动作概率分布，通常用表示，称作随机性策略9.1基于价值算法的缺点无法表示连续动作。由于DQN等算法是通过学习状态和动作的价值函数来间接指导策略的，因此它们只能处理离散动作空间的问题，无法表示连

__如果·2024-01-22 05:00

【Andrew Ng机器学习】单变量线性回归-梯度下降

课程：吴恩达机器学习此篇我们将学习梯度下降算法，我们之前已经定义了代价函数J，梯度下降法可以将代价函数J最小化。梯度下降是很常用的算法，他不仅被用在线性回归上，还被广泛应用与机器学习的众多领域。

jenye_·2024-01-21 22:01

计算机图像处理之空域滤波增强（图像平滑+图像锐化）

文章目录空间滤波基础模板卷积计算二维离散卷积图像平滑加权平均模板操作注意并行处理特点串行处理特点中值滤波法多图像平均法图像锐化一阶微分和二阶微分的区别图像细节的灰度变化特性图像细节的灰度变化微分特性拉普拉斯锐化锐化模板设计特点空域图像线性滤波技术综合实例常见的梯度算子例题后期处理水平浮雕效果水平边缘的提取效果几种一阶锐化方法的效果比较非锐化滤波高频增强滤波

空LA·2024-01-21 20:26

Improving Deep Neural Network学习笔记

参数调整、正则化、优化1超参数2方差、偏差3正则化4归一化输入5Mini-batch梯度下降算法6Adam优化算法本周学习了深度学习（吴恩达老师的课程）中，提升深度神经网络的一些方法，包括超参数的调整、

佳雨初林·2024-01-21 17:42

Batch Normalisation

在隐藏层将数据进行标准化，能够加快收敛速度，更解决了深层网络中“梯度弥散”的问题，使得深层网络模型更加容易和稳定。

Mr_Stark的小提莫·2024-01-21 17:27

6、梯度提升XGBoost（eXtreme Gradient Boosting）

XGBoost梯度提升结构化数据最精确的建模技术。在本节课中，我们将学习如何使用梯度增强来构建和优化模型。这种方法在Kaggle的许多竞争中占据主导地位，并在各种数据集上获得了最先进的结果。

AI算法蒋同学·2024-01-21 15:33

深度学习中的优化算法

第t时刻的梯度为g_t,一阶动量为m_t,二阶动量为v_t,更新步长为n_t，则有：SGD首先看看SGD，在SGD中没有动量，即m_t=g_t,v_t=I。

小蛋子·2024-01-21 14:27

循环神经网络的变体模型-LSTM、GRU

下面是LSTM的内部结构图LSTM为了改善梯度消失，引入了一种特殊的存储单元，该存储

Algorithm_Engineer_·2024-01-21 13:52

数字图像处理期末速成笔记

、图像平滑5、邻域平均法（线性）6、中值滤波法（分线性）7、中值滤波与领域平均的异同8、4-邻域平滑法9、超限像素平滑法10、灰度最相近的K个邻点平均法11、3*3模板中值滤波四、图像锐化1、微分法（梯度算子

我先去打把游戏先·2024-01-21 13:43

Batch Normalization（BN）批量归一化

[1502.03167]BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShift(arxiv.org)1.研究背景深度神经网络的训练过程中，每一层输入数据的分布可能会随着网络参数的更新而发生变化，这种现象被称为内部协变量偏移（InternalCovariateShift）。这会使得每一层网络

搁浅丶.·2024-01-21 12:54

深度学习引领信息检索革新：从传统方法到神经网络信息检索的探索

1.1信息检索基本任务1.2信息检索是NLU典型应用2信息检索任务定义2.1检索阶段2.2排序阶段2.3关键技术和算法3评价指标3.1MRR（平均倒数排名）3.2MAP（平均精度均值）3.3NDCG（归一化的损失增益

cooldream2009·2024-01-21 12:10

MATLAB神经网络工具箱输入输出预处理相关参数设置

nntoolbox默认会对输入输出进行映射变换，将输入和输出映射到[-1,1]的区间中，也就是我们常说的“归一化”。这本身是一件好事，因为如果

liujunhaozuishuai·2024-01-21 10:44

leetcode 49 字母异位词分组及思考：toString() 方法

那么key呢，把所有的字符串都归一化成一种样式，比如从小到大排序，或者从大到小排序，只要大家都遵守一样的规则就欧克了。

AnillegalName·2024-01-21 10:13

GRU门控循环单元神经网络的MATLAB实现（含源代码）

GRU神经网络简介GRU由Cho等人于2014年提出，旨在解决标准RNN在处理长序列时的梯度消失或梯度爆炸问题。与传

沅_Yuan·2024-01-21 10:42

pytorch（二）梯度下降算法

文章目录优化问题梯度下降随机梯度下降在线性模型训练的时候，一开始并不知道w的最优值是什么，可以使用一个随机值来作为w的初始值，使用一定的算法来对w进行更新优化问题寻找使得目标函数最优的权重组合的问题就是优化问题梯度下降通俗的讲

@@老胡·2024-01-21 08:02

机器学习_通过梯度下降找到最佳参数

文章目录训练机器要有正确的方向凸函数确保有最小损失点梯度下降的实现学习速率也很重要训练机器要有正确的方向所谓训练机器，也称拟合的过程，也就是确定模型内部参数的过程。

you_are_my_sunshine*·2024-01-21 06:17

cs231n assignment1——SVM

整体思路加载CIFAR-10数据集并展示部分数据数据图像归一化，减去均值（也可以再除以方差）svm_loss_naive和svm_loss_vectorized计算hinge损失，用拉格朗日法列hinge

柠檬山楂荷叶茶·2024-01-21 06:15

【机器学习300问】13、学习率曲线有什么作用？

学习率是优化算法中的一个重要超参数，它决定了模型在梯度下降过程中权重更新的步伐大小。如果学习率设置得过高，可能会导致训练过程跳过最优解，甚至发散

小oo呆·2024-01-21 06:45

机器学习第十八周周报

机器学习第十八周周报摘要Abstract一、导数二、计算图三、使用计算图求导数四、逻辑回归中的梯度下降五、m个样本的梯度下降六、总结摘要本周开始学习吴恩达的梯度下降法，梯度下降法在机器学习中常常用来优化损失函数

JerryC1999·2024-01-20 22:17

(202401)深度强化学习基础2：策略梯度

文章目录前言策略梯度1基于价值算法的缺点2策略梯度算法3REINFORCE算法本章小结前言感谢Datawhale成员的开源本次学习内容的文档地址为第九章策略梯度策略梯度这个章节会开始介绍基于策略梯度的算法

早上真好·2024-01-20 22:27

速卖通平台自营销活动

并且还要设置活动的梯度，满多少才能够达到店铺的活动，梯度可以不止一个。店铺cod

深度链夏天·2024-01-20 21:58

Halcon基于形状的模板匹配

Halcon基于形状的模板匹配基于形状的模板匹配，也称为基于边缘方向梯度的匹配，是一种最常用也最前沿的模板匹配算法。

electrical1024·2024-01-20 17:18

Halcon基于相关性的模板匹配

electrical1024·2024-01-20 17:47

Datawhale 强化学习笔记(二）马尔可夫过程，DQN 算法

文章目录参考马尔可夫过程DQN算法（DeepQ-Network）如何用神经网络来近似Q函数如何用梯度下降的方式更新网络参数强化学习vs深度学习提高训练稳定性的技巧经验回放目标网络代码实战DQN算法进阶DoubleDQNDuelingDQN

RessCris·2024-01-20 17:54

CT与核磁科普

MRI是把人体放置在一个强大的磁场中，通过射频脉冲激发人体内氢质子，发生核磁共振，然后接受质子发出的核磁共振信号，经过梯度场三个方向的定位，再经过计算机的运算，构成各方位的图像。CT由于X线

笑笑2018·2024-01-20 16:04

数字图像处理

表示色调，s饱和度，l表示亮度，色调和饱和度2.RGB彩色模型：r红色，g绿色，b蓝色，对应的是xyz轴，每个为8比特，用24比特表示全彩色图像3.边缘检测中抗噪性能应该为：Canny算子>一阶算子（梯度算子

爱学习的机器小冉·2024-01-20 12:45

大模型学习笔记06——模型训练

计算单向上下文embedding，一次生成一个tokenencoder-only（BERT）：计算双向上下文embeddingencoder-decoder（T5）：编码输入，解码输出2、优化算法随机梯度下降

等风来随风飘·2024-01-20 11:34

记录：：关键点检测数据转化和可视化LSP、FLIC转yolov8-pose的txt

最近想试一下关键点检测的效果，先从yolov8-pose开始，不想跑coco那么大的数据集，就找了两个比较小的yolov8-pose的txt数据格式如下：类别、box、节点，数据做了归一化可视化只显示了点

小飞侠。·2024-01-20 10:51

PyTorch月学习计划 - 第一周；第6-7天: 自动梯度（Autograd）

PyTorch月学习计划-第6-7天:自动梯度（Autograd）学习目标：掌握自动微分的基本原理，特别是在深度学习中的应用。学会如何在PyTorch中使用autograd模块进行自动梯度计算。

M.D·2024-01-20 06:56

Pytorch学习第二周Day 10-11: 损失函数和优化器

优化器探讨了随机梯度下降（SGD）、Adam、R

M.D·2024-01-20 06:56

动手学深度学习5 矩阵计算

矩阵计算--矩阵怎么求导数1.导数和微分2.偏导数3.梯度1.向量-标量求导2.向量-向量求导3.拓展到矩阵4.链式法则5.小结QA练习课程安排：视频：https://www.bilibili.com/

陌上阳光·2024-01-20 04:49

动手学深度学习6 自动求导

2.非标量变量的反向传播3.分离计算4.Python控制流的梯度计算QA1.ppt上隐式构造和显示构造为什么看起来差不多？

陌上阳光·2024-01-20 04:47

Tensorflow2.0笔记 - 不使用layer方式，简单的MNIST训练

前向传播和梯度更新都使用最基础的tensorflowAPI来做。

亦枫Leonlew·2024-01-20 03:20

loss函数之NLLLoss，CrossEntropyLoss

对于包含个样本的batch数据，是神经网络的输出，并进行归一化和对数化处理。是样本对应的类别标签，每个样本可能是种类别中的一个。

ltochange·2024-01-20 00:18

数学建模学习笔记||TOPSIS&&熵权法

解法是：权重*归一化后的值归一化后的值：好得到权

展信佳：）·2024-01-20 00:11

深度学习记录--mini-batch gradient descent

batchvsmini-batchgradientdescentbatch：段，块与传统的batch梯度下降不同，mini-batchgradientdescent将数据分成多个子集，分别进行处理，在数据量非常巨大的情况下

蹲家宅宅·2024-01-19 22:14

对抗样本之FGSM原理&实战

FGSM（fastgradientsignmethod）是一种基于梯度生成对

liuyishou·2024-01-19 22:47

AI 内容分享(七)：加速计算，为何会成为 AI 时代的计算力“新宠”

目录什么是加速计算加速计算解决方案硬件GPU应用型专用集成电路ASIC现场可编程逻辑门阵列FPGA软件CUDAOpenCL网络加速计算应用场景生成式AI加快训练时间处理大型数据集创建复杂模型实时功能高效的计算梯度

之乎者也··2024-01-19 17:51

【挑战全网最易懂】深度强化学习 --- 零基础指南

行为价值方法强化学习六要素设计奖励函数设计评论家策略学习与优化算法路径深度Q网络DQN演员-评论家算法：多智能体强化学习核心框架PPO近端策略优化算法演员-评论家的改进算法：近端策略优化算法PPO、优势演员-评论家算法A2C、异步优势演员-评论家算法A3C、深度确定性策略梯度

Debroon·2024-01-19 14:17

大模型关键技术：上下文学习、思维链、RLHF、参数微调、并行训练、旋转位置编码、模型加速、大模型注意力机制优化、永久记忆、LangChain、知识图谱、多模态

大模型关键技术大模型综述上下文学习思维链CoT奖励建模参数微调并行训练模型加速永久记忆：大模型遗忘LangChain知识图谱多模态大模型系统优化AI绘图幻觉问题从GPT1-GPT4拆解GPTs对比主流大模型技术点旋转位置编码层归一化激活函数注意力机制优化大模型综述你知道嘛

Debroon·2024-01-19 14:14

推荐频道

梯度归一化