梯度剪裁

WGAN对抗生成数据（matlab）代码

该模型引入了梯度惩罚（GradientPen

九亿AI算法优化工作室&·2025-03-25 13:46

如何在多个GPU中训练非常大的模型？

一、并行训练策略1.数据并行原理：每个GPU保存完整的模型副本，处理不同的数据批次，通过同步梯度更新参数。在每个小批处理结束时，需要同步梯度或权重以免陈旧。

Mr终游·2025-03-25 07:00

Momentum优化器的超参数调优方法

Momentum优化器是一种常用的优化算法，它通过引入动量的概念来加速梯度下降过程，特别是在处理高维数据和复杂模型时表现尤为出色。然而，Momentum优化器的性能高度依赖于其超参数的设置。

AI天才研究院·2025-03-25 03:34

Python 学习第五册深度学习第1章什么是深度学习

1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机

weixin_38135241·2025-03-24 18:25

当细致剪裁遇上大语言模型：从数据匹配到卓越性能的奇幻之旅

在浩如烟海的人工智能技术中，构建和调教大语言模型（LLMs）的过程就像是一场精心策划的奇幻冒险。本文带您走进一个鲜为人知的领域——如何利用“量身定制”的数据，让模型在知识的海洋中游刃有余。我们将透过一篇最新的研究《TheBestInstruction-TuningDataareThoseThatFit》，探索如何通过选择与目标模型分布高度契合的数据来优化监督式微调（SFT）的效果，以及这一方法如何

步子哥·2025-03-24 18:24

相同的问题看看Grok3怎么回答-详细讲讲PPO & GRPO原理

GRPO（基于梯度的相对策略优化）似乎是专为多代理系统设计的，优化代理之间的相对表现，目前信息有限，可能较少为人所知。

释迦呼呼·2025-03-24 17:46

第三十九个问题-详细讲讲PPO & GRPO原理

PPO（ProximalPolicyOptimization）原理详解PPO（近端策略优化）是OpenAI于2017年提出的强化学习算法，旨在解决传统策略梯度方法中训练不稳定和样本效率低的问题。

释迦呼呼·2025-03-24 17:45

梯度下降法理论理解

梯度下降法：看似原始却透露着机器学习的本质前提：在研究梯度下降方法之前，你要理解矩阵运算（解析解）的方法矩阵运算目前的缺点只能进行对线性函数经行分析，无法对复杂的函数经行分析什么是梯度，以及梯度向量梯度下降的形象例子以及基本思想有三个兄弟被困在山上

伶星37·2025-03-24 14:57

高等数学，对梯度的理解

梯度（Gradient）是多变量微分中非常重要的概念。它描述了一个多元函数在某一点的最大上升方向及其变化率，是向量微积分中的基本工具。

伶星37·2025-03-24 14:56

深度学习框架PyTorch——从入门到精通（6.2）自动微分机制

本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式

Fansv587·2025-03-24 06:17

Pytorch深度学习教程_9_nn模块构建神经网络

在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。

tRNA做科研·2025-03-24 06:08

【笔记】扩散模型（五）：Classifier-Free Guidance 理论推导与代码实现

论文链接：Classifier-FreeDiffusionGuidance上一篇文章我们学习了ClassifierGuidance，这种方法通过引入一个额外的分类器，使用梯度引导的方式成功地实现了条件生成

LittleNyima·2025-03-23 22:02

AI模型技术演进与行业应用图谱

与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准

智能计算研究中心·2025-03-23 15:26

深度学习 Deep Learning 第8章深度学习优化

本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。

odoo中国·2025-03-23 10:26

卷积神经网络Batch Normalization的作用

没有BN时，烤箱温度忽高忽低，导致有的层烤焦（梯度爆炸），有的层不熟（梯度消失）。

arron8899·2025-03-23 03:11

MSE分类时梯度消失的问题详解和交叉熵损失的梯度推导

下面是MSE不适合分类任务的解释，包含梯度推导。以及交叉熵的梯度推导。

阿正的梦工坊·2025-03-22 21:34

直方图梯度提升：大数据时代的极速决策引擎

一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。

万事可爱^·2025-03-22 14:14

LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混

minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化/梯度累积

一个处女座的程序猿·2025-03-22 14:43

大模型最新面试题系列：微调篇之微调基础知识

一、全参数微调（Full-Finetune）vs参数高效微调（PEFT）对比1.显存使用差异全参数微调：需存储所有参数的梯度（如GPT-3175B模型全量微调需约2.3TB显存）PEFT：以LoRA为例

人肉推土机·2025-03-22 05:42

高性能计算:GPU加速与分布式训练

1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计

AI天才研究院·2025-03-21 06:17

神经网络之参数初始化

合适的参数初始化方法有助于提高训练速度、避免梯度消失/爆炸问题，并且加速网络的收敛。一、参数初始化目的避免梯度消失和梯度爆炸：在深度神经网络中，参数初始化对梯度流动非常重要。

硬水果糖·2025-03-20 08:21

LoRA中黑塞矩阵、Fisher信息矩阵是什么

在机器学习中常用于自然梯度下降（NaturalGradientDescent

ZhangJiQun&MXP·2025-03-20 07:15

NLP高频面试题（三）——普通RNN的梯度消失和梯度爆炸问题

普通RNN（循环神经网络）的梯度消失和梯度爆炸问题是指在训练深层或长序列的RNN模型时出现的两种典型问题：一、梯度消失（VanishingGradient）梯度消失是指在反向传播过程中，梯度逐层传播时变得越来越小

Chaos_Wang_·2025-03-19 23:34

【机器学习】主成分分析法（PCA）

【机器学习】主成分分析法（PCA）一、摘要二、主成分分析的基本概念三、主成分分析的数学模型五、主成分分析法目标函数公式推导（`梯度上升法`求解目标函数）六、梯度上升法求解目标函数第一个主成分七、求解前n

若兰幽竹·2025-03-19 15:31

纳米尺度仿真软件：Quantum Espresso_（18）.纳米结构的几何优化

在每一步迭代中，软件会计算系统的梯度（即能量

kkchenjj·2025-03-19 07:54

深度学习框架PyTorch——从入门到精通（5）自动微分

使用torch.autograd自动微分张量、函数和计算图计算梯度禁用梯度追踪关于计算图的更多信息张量梯度和雅可比乘积在训练神经网络时，最常用的算法是反向传播。

Fansv587·2025-03-19 06:20

PyTorch 深度学习实战（12）：Actor-Critic 算法与策略优化

本文将深入探讨Actor-Critic算法，这是一种结合了策略梯度（PolicyGradient）和值函数（ValueFunction）的强化学习方法。

进取星辰·2025-03-18 19:17

CSS 溢出问题及解决方案：实用案例与技巧

visible：默认值，内容不会被剪裁，也不会显示滚动条。hidden：内容会被剪裁，并且不会显示滚动条。scroll：内容会被剪

Judy1623·2025-03-18 18:43

STM32F103 NVIC嵌入式中断控制器

但是各个芯片厂商在设计芯片的时候会对CM3内核里面的NVIC进行剪裁，把不需要

芯片烧毁大师·2025-03-18 17:03

软件性能测试深度解析（进阶篇）：JMeter高阶应用与性能工程体系构建

线程模型：基于Java线程池实现虚拟用户（VirtualUser）并发，通过Ramp-Up参数控制线程启动梯度。

追寻向上·2025-03-18 12:24

论文笔记：Deep Algorithm Unrolling for Blind Image Deblurring

主要贡献：DeepUnrollingforBlindImageDeblurring(DUBLID)：提出一种可解释的神经网络结构叫做DUBLID，首先提出一种迭代算法，该算法被认为是梯度域中传统的广义全变分正则方法

爱学习的小菜鸡·2025-03-18 09:55

技术解析麦萌短剧《阴阳无极》：从「性别偏见下的对抗训练」到「分布式江湖的架构重构」

1.初始模型偏差：继承权剥夺与梯度冻结陈千叶（Agent_C）的成长可视为有偏数据集上的训练：特征歧视：太极门继承规则（Legacy_Rule）作为传统分类器，强行将性别（Gender_Feature）

短剧萌·2025-03-18 08:15

21-梯度累积原理与实现

在GPU内存不变的情况下，模型越来越大，那么这就意味着数据的batchsize智能缩小，这个时候，梯度累积（GradientAccumulation）可以作为一种简单的解决方案来解决这个问题。

机器人图像处理·2025-03-17 19:34

基于发明的电容电感的新型热力梯度耦合电容电感lc谐振储能可行性

热梯度双层LC谐振储能结构可行性分析设计一种结合热力梯度、电容层（C层）、电感层（L层）及中间耦合层的双层LC谐振储能系统，需从物理原理、材料选择、热管理、能量耦合效率等方面进行综合评估。

热爱电气·2025-03-17 13:47

python的格式转换库_3个Python PDF库，提取信息、转换格式、分割剪裁有它就够了！...

PDFMiner：PDFMiner是一个从PDF文档中提取信息的工具。与其他PDF相关的工具不同，它只用于获取和分析文本数据。PDFMiner能获取页面中文本的准确位置，以及字体或行等其他信息。它还有一个PDF转换器，可以将PDF文件转换成其他文本格式(如HTML)。还有一个可扩展的解析器PDF，可以用于文本分析以外的其他用途。(地址https://github.com/euske/pdfmine

来朝三博士·2025-03-17 08:16

java实现卷积神经网络CNN（附带源码）

什么是卷积神经网络（CNN）1.3卷积神经网络的应用场景相关知识与理论基础2.1神经网络与深度学习概述2.2卷积操作与卷积层原理2.3激活函数与池化层2.4全连接层与损失函数2.5前向传播、反向传播与梯度下降项目需求与分析

Katie。·2025-03-17 07:38

计算机视觉（Computer Vision, CV）的入门到实践的详细学习路线

微积分掌握梯度、

云梦优选·2025-03-16 18:57

[学习笔记] Windows编程——GDI——（三）裁剪

原文链接：https://learn.microsoft.com/en-us/windows/win32/gdi/clipping3裁剪剪裁是将输出限制为应用程序窗口的工作区中的某个区域或路径的过程。

根本没在怕哦·2025-03-16 15:03

kaggle-ISIC 2024 - 使用 3D-TBP 检测皮肤癌-学习笔记

CatBoost在传统梯度提升决策树（GBDT）基础上，引入了一系列关键技术创新，以提升处理类

supernova121·2025-03-16 12:10

基于热力梯度的线圈设计用来更替新型的储能方式

热力梯度储能技术通过调控温度场实现多模式能量转换，其潜力能量密度可达100Wh/kg以上。

热爱电气·2025-03-15 23:07

LLMs之Colossal-LLaMA-2：源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插

基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插件)→数据预处理(初始化分词器+数据处理器+数据加载器)→模型训练(初始化模型/优化器/学习率调度器/梯度检查点

一个处女座的程序猿·2025-03-15 18:38

laravel项目中使用FFMPeg 剪裁视频

#运行环境需安装的软件ffmpeg#安装的扩展pbmedia/laravel-ffmpeg:^8.3#扩展文档https://packagist.org/packages/pbmedia/laravel-ffmpeg#引入的类useFFMpeg\Coordinate\TimeCode;useFFMpeg\Format\Video\X264;useFFMpeg\Exception\RuntimeEx

道系女孩~·2025-03-15 18:35

python opencv轮廓检测_python opencv中的不规则形状检测和测量

我的想法是使用形态梯度沿着冰晶获得良好的边缘并从那里开始工作;形态梯度似乎很有效.importnumpyasnpimportcv2img=cv2.imread('image.png')blur=cv2.

weixin_39584529·2025-03-15 18:04

机器学习中的梯度到底是什么？（chat-gpt问答）

1、梯度是对损失函数求导吗？是的，梯度是对损失函数（或目标函数）求导数值化后的结果。梯度告诉我们目标函数在某个点上的方向性和变化率，这些信息是优化算法推进参数评估和更新的重要指标。

湫怿·2025-03-15 16:19

机器学习中的梯度下降是什么意思？

梯度下降（GradientDescent）是机器学习中一种常用的优化算法，用于最小化损失函数（LossFunction）。通过迭代调整模型参数，梯度下降帮助模型逐步逼近最优解，从而提升模型的性能。

yuanpan·2025-03-15 15:45

梯度下降法以及随机梯度下降法

梯度下降法就是在更新weight的时候，向函数值下降的最快方向进行更新，具体的原理我就不再写了，就是一个求偏导的过程，有高数基础的都能够很快的理解过程。

HKkuaidou·2025-03-15 01:39

PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法

一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过

进取星辰·2025-03-14 19:47

【大模型LLM面试合集】分布式训练_总结

数据并行不仅仅指对训练的数据并行操作，还可以对网络模型梯度、权重参数、优化器状态等数据进行并行。

X.AI666·2025-03-14 17:28

大模型高效优化技术全景解析：微调、量化、剪枝、梯度裁剪与蒸馏

目录微调（Fine-tuning）量化（Quantization）剪枝（Pruning）梯度裁剪（GradientClipping）知识蒸馏（KnowledgeDistillation）技术对比与协同策略总结与趋势

时光旅人01号·2025-03-14 15:40

XGBoost算法深度解析：从原理到实践

一、算法起源与核心思想XGBoost（eXtremeGradientBoosting）由陈天奇于2014年提出，是梯度提升决策树（GBDT）的优化版本。

彩旗工作室·2025-03-14 11:36

推荐频道