梯度冻结

快速了解Transformer与循环神经网络（LSTM/RNN）的区别

长序列处理：Transformer通过自注意力直接关联任意位置，避免梯度问题；RNN/LSTM在长序列中性能下降。

Panesle·2025-03-25 23:30

WGAN对抗生成数据（matlab）代码

该模型引入了梯度惩罚（GradientPen

九亿AI算法优化工作室&·2025-03-25 13:46

如何在多个GPU中训练非常大的模型？

一、并行训练策略1.数据并行原理：每个GPU保存完整的模型副本，处理不同的数据批次，通过同步梯度更新参数。在每个小批处理结束时，需要同步梯度或权重以免陈旧。

Mr终游·2025-03-25 07:00

Momentum优化器的超参数调优方法

Momentum优化器是一种常用的优化算法，它通过引入动量的概念来加速梯度下降过程，特别是在处理高维数据和复杂模型时表现尤为出色。然而，Momentum优化器的性能高度依赖于其超参数的设置。

AI天才研究院·2025-03-25 03:34

Python 学习第五册深度学习第1章什么是深度学习

1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机

weixin_38135241·2025-03-24 18:25

相同的问题看看Grok3怎么回答-详细讲讲PPO & GRPO原理

GRPO（基于梯度的相对策略优化）似乎是专为多代理系统设计的，优化代理之间的相对表现，目前信息有限，可能较少为人所知。

释迦呼呼·2025-03-24 17:46

第三十九个问题-详细讲讲PPO & GRPO原理

PPO（ProximalPolicyOptimization）原理详解PPO（近端策略优化）是OpenAI于2017年提出的强化学习算法，旨在解决传统策略梯度方法中训练不稳定和样本效率低的问题。

释迦呼呼·2025-03-24 17:45

梯度下降法理论理解

梯度下降法：看似原始却透露着机器学习的本质前提：在研究梯度下降方法之前，你要理解矩阵运算（解析解）的方法矩阵运算目前的缺点只能进行对线性函数经行分析，无法对复杂的函数经行分析什么是梯度，以及梯度向量梯度下降的形象例子以及基本思想有三个兄弟被困在山上

伶星37·2025-03-24 14:57

高等数学，对梯度的理解

梯度（Gradient）是多变量微分中非常重要的概念。它描述了一个多元函数在某一点的最大上升方向及其变化率，是向量微积分中的基本工具。

伶星37·2025-03-24 14:56

深度学习框架PyTorch——从入门到精通（6.2）自动微分机制

本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式

Fansv587·2025-03-24 06:17

Pytorch深度学习教程_9_nn模块构建神经网络

在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。

tRNA做科研·2025-03-24 06:08

【笔记】扩散模型（五）：Classifier-Free Guidance 理论推导与代码实现

论文链接：Classifier-FreeDiffusionGuidance上一篇文章我们学习了ClassifierGuidance，这种方法通过引入一个额外的分类器，使用梯度引导的方式成功地实现了条件生成

LittleNyima·2025-03-23 22:02

AI模型技术演进与行业应用图谱

与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准

智能计算研究中心·2025-03-23 15:26

深度学习 Deep Learning 第8章深度学习优化

本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。

odoo中国·2025-03-23 10:26

Temu跨境新风口：2025年开店必知的账号安全指南

账号被封、资金冻结、违规操作等问题频发，轻则影响销量，重则导致店铺损失惨重。因此，了解并遵循安全运营规则，是每位卖家成功的关键。

香菜9527·2025-03-23 08:36

卷积神经网络Batch Normalization的作用

没有BN时，烤箱温度忽高忽低，导致有的层烤焦（梯度爆炸），有的层不熟（梯度消失）。

arron8899·2025-03-23 03:11

MSE分类时梯度消失的问题详解和交叉熵损失的梯度推导

下面是MSE不适合分类任务的解释，包含梯度推导。以及交叉熵的梯度推导。

阿正的梦工坊·2025-03-22 21:34

带你了解Java无锁并发CAS

通过互斥锁实现线程安全，但其存在以下关键问题：性能损耗：线程阻塞/唤醒涉及内核态切换，单次操作耗时约1微秒（百万条指令时间）优先级反转：高优先级线程可能被低优先级线程阻塞死锁风险：不正确的锁顺序可能导致系统冻结今天带你了解另一种保证线程安全的

高锰酸钾_·2025-03-22 16:58

直方图梯度提升：大数据时代的极速决策引擎

一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。

万事可爱^·2025-03-22 14:14

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混

minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化/梯度累积

一个处女座的程序猿·2025-03-22 14:43

大模型最新面试题系列：微调篇之微调基础知识

一、全参数微调（Full-Finetune）vs参数高效微调（PEFT）对比1.显存使用差异全参数微调：需存储所有参数的梯度（如GPT-3175B模型全量微调需约2.3TB显存）PEFT：以LoRA为例

人肉推土机·2025-03-22 05:42

高性能计算:GPU加速与分布式训练

1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计

AI天才研究院·2025-03-21 06:17

神经网络之参数初始化

合适的参数初始化方法有助于提高训练速度、避免梯度消失/爆炸问题，并且加速网络的收敛。一、参数初始化目的避免梯度消失和梯度爆炸：在深度神经网络中，参数初始化对梯度流动非常重要。

硬水果糖·2025-03-20 08:21

LoRA中黑塞矩阵、Fisher信息矩阵是什么

在机器学习中常用于自然梯度下降（NaturalGradientDescent

ZhangJiQun&MXP·2025-03-20 07:15

NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题

普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小

Chaos_Wang_·2025-03-19 23:34

祛魅 Manus ，从 0 到 1 开源实现

之后又出现反转，被爆出实际体验效果不佳，存在造假的问题，Manus在X平台的账号被冻结。沟通之后，3月8日，Manus官方X账号又被解冻。

易迟·2025-03-19 15:38

【机器学习】主成分分析法（PCA）

【机器学习】主成分分析法（PCA）一、摘要二、主成分分析的基本概念三、主成分分析的数学模型五、主成分分析法目标函数公式推导（`梯度上升法`求解目标函数）六、梯度上升法求解目标函数第一个主成分七、求解前n

若兰幽竹·2025-03-19 15:31

纳米尺度仿真软件：Quantum Espresso_（18）.纳米结构的几何优化

在每一步迭代中，软件会计算系统的梯度（即能量

kkchenjj·2025-03-19 07:54

深度学习框架PyTorch——从入门到精通（5）自动微分

使用torch.autograd自动微分张量、函数和计算图计算梯度禁用梯度追踪关于计算图的更多信息张量梯度和雅可比乘积在训练神经网络时，最常用的算法是反向传播。

Fansv587·2025-03-19 06:20

PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化

本文将深入探讨Actor-Critic算法，这是一种结合了策略梯度（PolicyGradient）和值函数（ValueFunction）的强化学习方法。

进取星辰·2025-03-18 19:17

软件性能测试深度解析（进阶篇）：JMeter高阶应用与性能工程体系构建

线程模型：基于Java线程池实现虚拟用户（VirtualUser）并发，通过Ramp-Up参数控制线程启动梯度。

追寻向上·2025-03-18 12:24

论文笔记：Deep Algorithm Unrolling for Blind Image Deblurring

主要贡献：DeepUnrollingforBlindImageDeblurring(DUBLID)：提出一种可解释的神经网络结构叫做DUBLID，首先提出一种迭代算法，该算法被认为是梯度域中传统的广义全变分正则方法

爱学习的小菜鸡·2025-03-18 09:55

技术解析麦萌短剧《阴阳无极》：从「性别偏见下的对抗训练」到「分布式江湖的架构重构」

1.初始模型偏差：继承权剥夺与梯度冻结陈千叶（Agent_C）的成长可视为有偏数据集上的训练：特征歧视：太极门继承规则（Legacy_Rule）作为传统分类器，强行将性别（Gender_Feature）

短剧萌·2025-03-18 08:15

Ubuntu 将更改版本规则，使用最新内核发布发行版

现在CanonicalKernelTeam(CKT)宣布将改变内核选择方法，即在发布冻结日期时采用最新可

CIb0la·2025-03-18 06:28

第十六篇 SQL优化之计划控制：进阶之路带上这篇文章，快到起飞

1.2不管控执行计划的后果二、操控执行计划的「三板斧」2.1第一招：HINT大法（直接下指令）2.2第二招：暗度陈仓（间接引导）方法1：统计信息大法方法2：虚拟列黑科技方法3：分区表妙用2.3第三招：计划冻结术

随缘而动，随遇而安·2025-03-17 20:39

21-梯度累积原理与实现

在GPU内存不变的情况下，模型越来越大，那么这就意味着数据的batchsize智能缩小，这个时候，梯度累积（GradientAccumulation）可以作为一种简单的解决方案来解决这个问题。

机器人图像处理·2025-03-17 19:34

基于发明的电容电感的新型热力梯度耦合电容电感lc谐振储能可行性

热梯度双层LC谐振储能结构可行性分析设计一种结合热力梯度、电容层（C层）、电感层（L层）及中间耦合层的双层LC谐振储能系统，需从物理原理、材料选择、热管理、能量耦合效率等方面进行综合评估。

热爱电气·2025-03-17 13:47

java实现卷积神经网络CNN（附带源码）

什么是卷积神经网络（CNN）1.3卷积神经网络的应用场景相关知识与理论基础2.1神经网络与深度学习概述2.2卷积操作与卷积层原理2.3激活函数与池化层2.4全连接层与损失函数2.5前向传播、反向传播与梯度下降项目需求与分析

Katie。·2025-03-17 07:38

pip install和conda install的区别

1.依赖的作用2.如何管理Python依赖3.依赖管理问题4.依赖锁定总结二、使用pip安装包+venv隔离环境方法1：使用venv（推荐）创建虚拟环境激活环境安装包冻结（导出）环境退出环境删除环境方法

莫聽穿林打叶聲·2025-03-17 01:48

计算机视觉（Computer Vision, CV）的入门到实践的详细学习路线

微积分掌握梯度、

云梦优选·2025-03-16 18:57

kaggle-ISIC 2024 - 使用 3D-TBP 检测皮肤癌-学习笔记

CatBoost在传统梯度提升决策树（GBDT）基础上，引入了一系列关键技术创新，以提升处理类

supernova121·2025-03-16 12:10

Manus 一码难求，MetaGPT、OpenManus、Camel AI 会是替代方案吗？

Manus的邀请码被炒至高价，甚至出现账号冻结等现象，这引发了用户对其技术壁垒和实际应用价值的质疑。二、MetaGPT、Ope

全干程序员demo·2025-03-16 06:01

基于热力梯度的线圈设计用来更替新型的储能方式

热力梯度储能技术通过调控温度场实现多模式能量转换，其潜力能量密度可达100Wh/kg以上。

热爱电气·2025-03-15 23:07

LLMs之Colossal-LLaMA-2：源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插

基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插件)→数据预处理(初始化分词器+数据处理器+数据加载器)→模型训练(初始化模型/优化器/学习率调度器/梯度检查点

一个处女座的程序猿·2025-03-15 18:38

python opencv轮廓检测_python opencv中的不规则形状检测和测量

我的想法是使用形态梯度沿着冰晶获得良好的边缘并从那里开始工作;形态梯度似乎很有效.importnumpyasnpimportcv2img=cv2.imread('image.png')blur=cv2.

weixin_39584529·2025-03-15 18:04

机器学习中的梯度到底是什么？（chat-gpt问答）

1、梯度是对损失函数求导吗？是的，梯度是对损失函数（或目标函数）求导数值化后的结果。梯度告诉我们目标函数在某个点上的方向性和变化率，这些信息是优化算法推进参数评估和更新的重要指标。

湫怿·2025-03-15 16:19

机器学习中的梯度下降是什么意思？

梯度下降（GradientDescent）是机器学习中一种常用的优化算法，用于最小化损失函数（LossFunction）。通过迭代调整模型参数，梯度下降帮助模型逐步逼近最优解，从而提升模型的性能。

yuanpan·2025-03-15 15:45

大语言模型微调和大语言模型应用的区别？

过程：通常涉及准备领域特定的数据集、设计合适的损失函数、调整超参数（例如学习率、批量大小等），以及选择冻结或解冻部分参数来更新模型

AI Echoes·2025-03-15 05:38

梯度下降法以及随机梯度下降法

梯度下降法就是在更新weight的时候，向函数值下降的最快方向进行更新，具体的原理我就不再写了，就是一个求偏导的过程，有高数基础的都能够很快的理解过程。

HKkuaidou·2025-03-15 01:39

谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、

二是像AI深度学习网络冻结，或者自适应调参，都是一些AI技巧，他们用的比较好。三什么跨层特征解耦，实现的基础是他们对半导体理解比较深刻KLA和Ca

*Major*·2025-03-14 20:27

推荐频道