loss

微调大语言模型(生成任务)，怎么评估它到底“变好”了？

一、微调时的评估：关注训练过程中的模型表现1.验证集Loss（ValidationLoss）微调训练时，我们会准备一部分数据作为验

茫茫人海一粒沙·2025-06-29 09:38

【机器学习&深度学习】前馈神经网络（单隐藏层）

四、NumPy实现前馈神经网络代码示例五、运行结果六、代码解析6.1初始化部分6.2前向传播6.3计算损失（Loss）6.4反向传播（手动）6.5更新参数（梯度下降）6.6循环训练七、训练过程可视化（思维图

一叶千舟·2025-06-29 08:59

【机器学习算法】XGBoost原理

一、基本内容基本内容：GBDT的基础上，在损失函数上加入树模型复杂度的正则项与GBDT一样，也是使用新的弱学习器拟合残差（当前模型负梯度，残差方向）GBDT损失函数Loss=∑i=1NL(yi,yit)

·2025-06-27 23:42

深度学习——第2章习题2-1分析为什么平方损失函数不适用于分类问题

平方损失函数（QuadraticLossFunction）经常用在预测标签y为实数值的任务中，定义为L(y,f(x;θ))=12(y−f(x;θ))2\mathcal{L}\left(y,f(x;\theta

笨小古·2025-06-24 18:39

/aten/src/ATen/native/cuda/Loss.cu:115: operator(): block: [192,0,0], thread: [95,0,0] Assertion

/aten/src/ATen/native/cuda/Loss.cu:115:operator():block:[192,0,0],thread:[95,0,0]Assertion`input_val>

weixin_42319617·2025-06-24 17:58

YOLOv4 正负样本划分详解

YOLOv4在YOLOv3的基础上进行了改进，包括：使用CSPDarknet53主干网络；引入PANet特征融合结构；支持Mosaic数据增强；使用CIoULoss和DIoU-NMS；但在正样本划分逻辑上

要努力啊啊啊·2025-06-22 03:40

深度学习笔记16-VGG-16算法-Pytorch实现人脸识别

目录前言一、前期准备1.设置GPU2.导入数据3.划分数据集二、调用官方的VGG-16模型三、训练模型1.编写训练函数2.编写测试函数3.设置动态学习率4.正式训练四、结果可视化1.Loss与Accuracy

boooo_hhh·2025-06-21 12:04

tensorflow GPU训练loss与val loss值差距过大问题

问题最近在ubuntugpu上训练模型，训练十轮，结果如下epoch,loss,lr,val_loss200,nan,0.001,nan200,0.002468767808750272,0.001,44.29948425292969201,0.007177405059337616,0.001,49.16984176635742202,0.012423301115632057,0.001,49.30

LXJSWD·2025-06-21 12:03

Python训练营-Day37-早停策略和模型权重的保存

1.记录训练集的损失函数可以观察是否过拟合#记录损失值并更新进度条if(epoch+1)%200==0:losses.append(loss.item())epochs.append(epoch+1)#

·2025-06-21 08:10

Day33 MLP神经网络的训练

和cuda的安装二、查看显卡信息的命令行命令（cmd中使用）三、cuda的检查四、简单神经网络的流程1、数据预处理（归一化、转换成张量）2、模型的定义3、定义损失函数和优化器4、定义训练流程5、可视化loss

cylat·2025-06-21 07:07

【踩坑大全】TensorFlow的Loss出现Nan原因分析及解决方案

记录一次狗屎的经历背景是这样的模型是现成的，只是想加一个自定义的Loss在PyTorch上实现成功，并且效果很好TensorFlow中，没法使用类似PyTorch那样局部更改tensor值的操作(大概是下面这样

蚊子我们绝交吧·2025-06-20 06:39

Learning to Incorporate Structure Knowledge for Image Inpainting

LearningtoIncorporateStructureKnowledgeforImageInpaintingMotivationMethods框架：AttentionLayerStructureEmbeddingLayerPyramidStructureLossExperimentreference

yijun009·2025-06-19 21:35

MMDet实例分割loss_rpn_bbox为nan但其它loss正常的解决

问题描述使用MMDetection训练实例分割，训练可执行，测试可执行，但loss_rpn_bbox为nan，loss_bbox却有

MWHLS·2025-06-19 13:40

Day14shap图绘制

1importshapimportxgboostimportpandasaspdX,y=shap.datasets.adult()model=xgboost.XGBClassifier(eval_metric='mlogloss

m0_62568655·2025-06-17 08:03

运维想转SRE？先了解这7个原则

这一概念最初由Google工程师BenTreynorSloss在2003年提出并描述。作为一门学科，站点可靠性工程（SRE）旨在维持特定系统的可用性、性能和效率。SRE难以界定。

·2025-06-16 20:12

xilinx gt的RX EQ

XilinxGT系列收发器（GTP、GTX、GTH、GTY、GTYP）的接收均衡（RXEqualization,RXEQ）是克服高速串行链路中信道损耗（ChannelLoss）的关

·2025-06-16 12:24

具身智能 - 推动通用机器人智能的新里程碑：AgiBot World 平台与 GO-1 模型深度解析

近期，上海人工智能实验室与AgiBotInc.联合发布了AgiBotWorldColosseo——一个开源的大规模机器人操作平台，包含数据集、工具链与通用策略模型，旨在推动机器人智能向更通用、更灵活的方向发展

天机️灵韵·2025-06-15 19:34

yolo模型精度提升策略

升级模型与损失函数：尝试引入注意力机制，将分类损失替换为FocalLoss，并使用CIoU/EIoU。优化训练策略：使用自适应优化器、学习率热身与余弦退火，进行充分长周期的训练（配合早停）。

Summit-·2025-06-10 08:21

中国城市建成区数据集（1992-2020）V1.0

2022-10-19数据集摘要本数据集来源于论文：（1）He,C.,Liu,Z.,Tian,J.,&Ma,Q.,(2014).UrbanexpansiondynamicsandnaturalhabitatlossinChina

做科研的周师兄·2025-06-10 01:30

零基础量化交易速成指南：Python语言的跳转语句

以下是详细说明及实际应用示例：1.break语句：立即终止循环量化应用场景1）达到止损条件立即退出positions={'AAPL':1000,'TSLA':500}stop_loss=0.9#止损线90%

·2025-06-09 05:08

目标检测我来惹1 R-CNN

解决问题用到的关键技术目标检测算法分类：两阶段：先区域推荐ROI，再目标分类regionproposal+CNN提取分类的目标检测框架RCNNFASTERRCNN端到端：一个网络，输入到输出：类别加位置yoloSSD

吧啦吧啦吡叭卜·2025-06-06 03:48

python学习打卡day33

的安装查看显卡信息的命令行命令（cmd中使用）cuda的检查简单神经网络的流程数据预处理（归一化、转换成张量）模型的定义继承nn.Module类定义每一个层定义前向传播流程定义损失函数和优化器定义训练流程可视化loss

vijaycc·2025-06-04 16:59

自动混合精度（AMP）训练在低版本显卡上的使用问题

AMPtrainingonNVIDIAGeForceGTX1660SUPERGPUmaycauseNaNlossesorzero-mAPresults,soAMPwillbedisabledduringtraining

shangjg3·2025-06-03 16:57

DAY36打卡@浙大疏锦行

从训练损失对比图可以看出，三条曲线分别代表三种不同超参数配置下模型训练过程中损失值（Loss）随训练轮次（Epoch）的变化情况，且三条曲线的损失值都随着Epoch的增加呈下降趋势，说明三种配置下模型

weixin_71046789·2025-06-03 11:54

box_loss、cls_loss 和 dfl_loss 三个核心损失函数

在目标检测模型（如YOLOv8）的训练过程中，box_loss、cls_loss和dfl_loss是三个核心损失函数，分别用于优化不同方面的检测性能。

shangjg3·2025-06-03 00:05

【机器学习解惑】多分类问题的性能如何评估？

精确率（Precision）、召回率（Recall）与F1-Score2.4宏平均（Macro）、微平均（Micro）与加权平均（Weighted）2.5ROC-AUC（多分类扩展）2.6对数损失（LogLoss

云博士的AI课堂·2025-06-01 22:29

深度学习调参大法

目录1.trick1：深度学习调参核心点2.trick2：关于深度学习Model选型问题3.trick3：关于数据4.trick4：关于调参4.1.关于Lossfunction调参策略4.2.关于Learningrate

Joker 007·2025-06-01 07:12

YOLOv11小白的进击之路（七）训练输出日志解读以及训练OOM报错解决办法

box_loss/cls_loss/dfl_loss:这仨就是不同类型的损失

水静川流·2025-06-01 06:34

企业数据防护实战：DLP方案与SSL/TLS加密的落地应用全解析

2.使用DLP解决方案防止敏感数据泄露DLP（DataLossPrevention）是保护敏感数据的核心技术，可监控和控制数据的流动。

Aishenyanying33·2025-05-31 08:30

Python训练打卡Day33

的安装查看显卡信息的命令行命令（cmd中使用）cuda的检查简单神经网络的流程数据预处理（归一化、转换成张量）模型的定义继承nn.Module类定义每一个层定义前向传播流程定义损失函数和优化器定义训练流程可视化loss

编程有点难·2025-05-29 22:47

day33python打卡

的安装查看显卡信息的命令行命令（cmd中使用）cuda的检查简单神经网络的流程数据预处理（归一化、转换成张量）模型的定义继承nn.Module类定义每一个层定义前向传播流程定义损失函数和优化器定义训练流程可视化loss

qq_58459892·2025-05-28 15:06

python打卡day37

早停策略和模型权重保存知识点回顾：过拟合的判断：测试集和训练集同步打印指标模型的保存和加载仅保存权重保存权重和模型保存全部信息checkpoint，还包含训练状态早停策略是否过拟合，可以通过同步打印训练集和测试集的loss

(・Д・)ノ·2025-05-28 00:19

基于C++的高性能MMO游戏服务器深度架构解析

Advanced+Server+Architecture本系统采用分层式架构设计，各层核心指标如下表：层级组件QPS能力延迟控制扩展性网络IO层HP-Socket事件驱动50,000+LatencyPacketLossProtocol

梦玄网络安全·2025-05-26 12:42

接续训练调优：model.load_state_dict不会自动加载优化器参数，它仅加载模型的权重参数。要完整恢复训练状态，需要单独处理优化器和学习率调度器。

注意：model.load_state_dict(torch.load(self.config.ckpt_path),strict=False)不会自动加载优化器和调度器参数，所以会导致接续训练时候loss

热爱生活的五柒·2025-05-26 05:00

python打卡训练营打卡记录day33

的安装查看显卡信息的命令行命令（cmd中使用）cuda的检查简单神经网络的流程数据预处理（归一化、转换成张量）模型的定义继承nn.Module类定义每一个层定义前向传播流程定义损失函数和优化器定义训练流程可视化loss

yorushika_·2025-05-26 00:52

【漫话机器学习系列】276.梯度悬崖(Gradient Cliff)

【深度学习】理解梯度悬崖（GradientCliff）：从一个图搞懂优化陷阱在深度学习的优化过程中，我们常常会遇到“训练不稳定”“loss波动异常”甚至“训练失败”的情况。

IT古董·2025-05-24 11:20

机器学习——调参

调参的最终目的是要使训练之后的模型检测物体更精确，向程序的方向更靠近一步的话，就是使得损失函数（例如SSD中的loss）尽量小（因为利用训练集训练出来的模型质量在训练过程中只能靠验证集来检测）。

qq_34872501·2025-05-24 01:36

二元交叉熵损失为何与 logits 结合使用

在PyTorch中，BCEWithLogitsLoss（二元交叉熵损失与logits结合）是一个将Sigmoid激活函数和二元交叉熵损失（BCE）合并计算的损失函数。

浩瀚之水_csdn·2025-05-23 03:41

Python_day33 简单的神经网络

的安装查看显卡信息的命令行命令（cmd中使用）cuda的检查简单神经网络的流程数据预处理（归一化、转换成张量）模型的定义继承nn.Module类定义每一个层定义前向传播流程定义损失函数和优化器定义训练流程可视化loss

且慢.589·2025-05-23 00:21

5.22打卡

cuda的检查4.简单神经网络的流程a.数据预处理（归一化、转换成张量）b.模型的定义i.继承nn.Module类ii.定义每一个层iii.定义前向传播流程c.定义损失函数和优化器d.定义训练流程e.可视化loss

丁值心·2025-05-22 11:58

模型蒸馏（Knowledge Distillation）

核心概念在传统的深度学习训练中，模型的目标是通过交叉熵损失（Cross-EntropyLoss）来学习真实标签（HardLabels）。然而，知识蒸馏引入了一种新的学习

PWRJOY·2025-05-19 17:17

Colossal-AI：深度学习大规模分布式训练框架

目录Colossal-AI：深度学习大规模分布式训练框架1.Colossal-AI简介2.Colossal-AI的核心功能3.Colossal-AI优势4.Colossal-AI使用示例示例1：简单的Colossal-AI

gs80140·2025-05-18 00:05

机器学习--损失函数

损失函数（LossFunction），也称为代价函数（CostFunction）或误差函数（ErrorFunction），是机器学习和统计学中的一个重要概念。它用于量化模型预测值与真实值之间的差异。

AI自修室·2025-05-17 12:39

python pytorch 损失器与优化器

目录前言损失函数（LossFunction）——老师的评分标准常见类型及适用场景：优化器（Optimizer）——学生的学习策略常见类型及特点：优化器参数调整指南表参数调整优先级（从高到低）搭配使用示例关键注意事项前言书接上回我们谈到损失器与优化器

Python虫·2025-05-15 15:48

数据防泄密安全：企业稳健发展的守护盾

因此，建立完善的数据防泄密（DLP，DataLossPrevention）安全体系，已成为现代企业不可或缺的战略举措。数据防泄密安全的核心价

jinan886·2025-05-15 13:04

基于粒子群算法的配电网重构

matlab代码/IEEE33/check_kxj.m,7184配电网络重构matlab代码/IEEE33/fbm.m,2770配电网络重构matlab代码/IEEE33/fencengpow_flowPloss.m

feifeigo123·2025-05-14 01:34

李沐-动手学深度学习（多层感知机）

File"D:\zmm\pycharmproject\pythonProject\study1\gzj1.py",line28,ind2l.train_ch3(net,train_iter,test_iter,loss

梦姐的编程日志·2025-05-11 07:20

pytorch验算CrossEntropyLoss ，BCELoss 和 BCEWithLogitsLoss

一.手动计算、log_softmax+nll_loss、nn.CrossEntropyLoss三种方式计算交叉熵：(classtorch.nn.CrossEntropyLoss(weight=None,

咕噜咕噜day·2025-05-11 05:08

【报错】AttributeError: ‘float‘ object has no attribute ‘backward‘

/models'File"D:\360MoveData\Users\HONOR\whu\segment.py",line269,intrain_modelresult['loss'].backw

睡不着还睡不醒·2025-05-11 05:06

【笔记】BCEWithLogitsLoss

工作原理BCEWithLogitsLoss是PyTorch中的一个损失函数，用于二分类问题。它结合了Sigmoid激活函数和二元交叉熵（BinaryCrossEntropy,BCE）损失在一个类中。

睡不着还睡不醒·2025-05-11 05:35

推荐频道

loss

微调大语言模型(生成任务)，怎么评估它到底“变好”了？

【机器学习&深度学习】前馈神经网络（单隐藏层）

【机器学习算法】XGBoost原理

深度学习——第2章习题2-1分析为什么平方损失函数不适用于分类问题

/aten/src/ATen/native/cuda/Loss.cu:115: operator(): block: [192,0,0], thread: [95,0,0] Assertion

YOLOv4 正负样本划分详解

深度学习笔记16-VGG-16算法-Pytorch实现人脸识别

tensorflow GPU训练loss与val loss值差距过大问题

Python训练营-Day37-早停策略和模型权重的保存

Day33 MLP神经网络的训练

【踩坑大全】TensorFlow的Loss出现Nan原因分析及解决方案

Learning to Incorporate Structure Knowledge for Image Inpainting

MMDet实例分割loss_rpn_bbox为nan但其它loss正常的解决

Day14shap图绘制

运维想转SRE？先了解这7个原则

xilinx gt的RX EQ

具身智能 - 推动通用机器人智能的新里程碑：AgiBot World 平台与 GO-1 模型深度解析

yolo模型精度提升策略

中国城市建成区数据集（1992-2020）V1.0

零基础量化交易速成指南：Python语言的跳转语句

目标检测我来惹1 R-CNN

python学习打卡day33

自动混合精度（AMP）训练在低版本显卡上的使用问题

DAY36打卡@浙大疏锦行

box_loss、cls_loss 和 dfl_loss 三个核心损失函数

【机器学习解惑】多分类问题的性能如何评估？

深度学习调参大法

YOLOv11小白的进击之路（七）训练输出日志解读以及训练OOM报错解决办法

企业数据防护实战：DLP方案与SSL/TLS加密的落地应用全解析

Python训练打卡Day33

day33python打卡

python打卡day37

基于C++的高性能MMO游戏服务器深度架构解析

接续训练调优：model.load_state_dict不会自动加载优化器参数，它仅加载模型的权重参数。要完整恢复训练状态，需要单独处理优化器和学习率调度器。

python打卡训练营打卡记录day33

【漫话机器学习系列】276.梯度悬崖(Gradient Cliff)

机器学习——调参

二元交叉熵损失为何与 logits 结合使用

Python_day33 简单的神经网络

5.22打卡

模型蒸馏（Knowledge Distillation）

Colossal-AI：深度学习大规模分布式训练框架

机器学习--损失函数

python pytorch 损失器与优化器

数据防泄密安全：企业稳健发展的守护盾

基于粒子群算法的配电网重构

李沐-动手学深度学习（多层感知机）

pytorch验算CrossEntropyLoss ，BCELoss 和 BCEWithLogitsLoss

【报错】AttributeError: ‘float‘ object has no attribute ‘backward‘

【笔记】BCEWithLogitsLoss