训练误差第10页

【LLM大模型】大模型涌现能力及 Prompt Engineering提示词

涌现能力GPT3是第一批拥有“涌现能力”的大语言模型，即模型未经特定任务的训练，但在适当的提示下，仍然能够解决某些特定领域的问题。

Langchain·2025-03-13 18:15

Prompt优化 COT/COD

例如：大模型用来画思维导图指令：帮我写一个模型训练的思维导图。背景信息：千帆ModelBuilder训练流程为框架。

陌陌623·2025-03-13 18:12

0312-PromptMRG：诊断驱动的医疗报告生成提示

为了进一步提高诊断准确性，我们设计了跨模态特征增强，通过利用预训练CLIP的知识，从数据库中检索相似的报

m0_65156252·2025-03-13 18:11

代码随想录训练营算法第三十四天|动态规划|62.不同路径、63. 不同路径 II、343. 整数拆分、96.不同的二叉搜索树。

62.不同路径62.不同路径-力扣（LeetCode）代码随想录还是不太熟悉怎么递推，用dp[i][j]代表走到第i行j列有多少路线，而i行j列可以通过[i-1][j]和[i][j-1]分别走一步得到。classSolution{public:intuniquePaths(intm,intn){vector>dp(m+1,vector(n+1,0));for(inti=1;i>&obstacleG

weixin_64181248·2025-03-13 18:40

适合机器学习的Linux系统推荐及基本配置指南

它不仅影响开发效率，还可能影响模型训练的性能。经过广泛调研和用户反馈，Ubuntu脱颖而出，成为众多机器学习爱好者的首选。下面将详细介绍为何推荐Ubuntu以及其基本配置需求。

金外飞176·2025-03-13 17:05

代码随想录算法训练营第一天| 704. 二分查找、27. 移除元素

一、Leetcode704二分查找题目链接：Leetcode704这个题目在之前秋招准备的时候就刷了，好几个月没刷又忘了这个题目的思想，二分法的使用前提是有序数组，这里主要是看查找区间是左闭右闭还是左闭右开，这两种方法都可以，不同方法对应着不同的while循环条件(是left&nums,inttarget){intleft=0,right=nums.size()-1,middle=(left+ri

Anjoubecoding·2025-03-13 17:31

【蓝桥杯备赛】Day07:循环结构程序设计（上）

题目1:题目1151:C语言训练-计算一个整数N的阶乘计算一个整数N的阶乘输入格式一个整数N,(00.05:print('better')elifj-list1[i]>0.05:print('worse

凯强同学·2025-03-13 15:19

全面解析RRU软件可测性设计引入AI算法的实践

异常检测与定位三、落地要求3.1数据基础3.2算法与模型3.3系统集成四、检查评估项4.1测试用例生成评估4.2异常检测与定位评估5AI算法设计和框架应用5.1.算法设计思路5.2.模型设计5.3.用例设计训练数据准备模型训练全面解析

youngerwang·2025-03-13 14:14

【图像去噪】论文复现：TPAMI 2025！全面提升单图像去噪泛化性！像素级零样本去噪方法Pixel2Pixel的Pytorch源码复现，跑通源码，修改各种报错，框架详解，注释详细！

图像去噪（ImageDenoising）】关于【图像去噪】专栏的相关说明，包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总（更新中）完整代码和训练好的模型权重文件下载链接见本文底部

十小大·2025-03-13 14:11

分布式训练中的参数local_rank

local_rank是一个常用于分布式训练中的参数，用于指示当前进程的本地编号。它帮助在分布式环境中区分不同的进程。

挨打且不服66·2025-03-13 13:09

Epoch 和 Batch Size的设计 + 模型的早停策略（基于上篇）

一.epoch和batchsize的设计epoch和batchsize是训练神经网络时的两个关键超参数，它们的设计会直接影响模型的训练速度、收敛性和最终性能。

一只小铁柱·2025-03-13 13:08

(4-8)基于DeepSeekMoE架构的DeepSeek-V3：测试模型

在加载模型时，首先需要从指定路径加载模型的配置文件和预训练权重。加载完成后，模型被设置为评估模式，并移动到GPU上以加速推理过程。

码农三叔·2025-03-13 13:37

图像识别技术与应用

工资是怎么样的岗位职责和任职要求看到了人类工业文明的演变了解了人工智能的研究、开发、模拟、延伸、理论、方法和技术看到了生活方式的转变比如智能语音闹钟控制系统、自动驾驶和人脸识别考勤智能购物、医疗日常生活的智能比如指纹、淘宝、抖音还能用软件看到天气的好坏了解了典型训练和机器学习中的关键组件机器学习中的关键组件包含

超帅的好吧·2025-03-13 13:36

一个基于LSTM的字符级文本生成模型的训练+使用(pytorch)

一、代码实现1.配置文件config.pyimporttorch#设备配置DEVICE=torch.device('cuda'iftorch.cuda.is_available()else'cpu')#超参数和配置SEQ_LENGTH=100#输入序列长度BATCH_SIZE=64#批大小EMBEDDING_DIM=256#嵌入层维度HIDDEN_SIZE=512#LSTM隐藏层大小NUM_LAY

一只小铁柱·2025-03-13 12:04

模型训练和推理

训练时需要梯度，推理时不需要怎么理解“梯度”？

一杯水果茶！·2025-03-13 12:02

【Agent实战】RAG方式+结构化prompt（CoT）+API工具结合ChatGPT4o能力Agent项目实践（货物上架位置推荐助手）

本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。

姚瑞南·2025-03-13 12:56

YOLO系列模型从v1到v10的演进

文章目录引言YOLOv1:开创单阶段目标检测先河发布时间与背景核心创新模型架构训练策略与优化YOLOv2:提升精度与速度的平衡发布时间与背景核心创新模型架构训练策略与优化YOLOv3:多尺度检测与残差连接发布时间与背景核心创新模型架构训练策略与优化

剑走偏锋o.O·2025-03-13 11:25

sparkML入门，通俗解释机器学习的框架和算法

Tometor·2025-03-13 11:53

神经网络机器学习中说的过拟合是什么意思

在神经网络和机器学习中，过拟合（Overfitting）是指模型在训练数据上表现非常好，但在未见过的测试数据上表现较差的现象。

yuanpan·2025-03-13 10:46

分布式并行策略概述

数据并行（DataParallelism）内容：数据并行通过将训练数据分割成多个小批次，并在多个处理单元（如GPU）上同时训练模型的副本来工作。

灵海之森·2025-03-13 10:11

造价算量审图多元化融合软件开发实战：技术架构与核心代码解析

技术架构设计该软件需融合以下模块：BIM/CAD模型解析引擎（支持Revit/DWG文件一键导入）智能算量核心算法（基于规则引擎与机器学习）协同审图平台（多人实时标注与版本控制）AI辅助决策系统（材料价格预测、工程量误差检测

夏末之花·2025-03-13 10:38

突破：海量倾斜高斯OPGS Cesium高效渲染！

在重建大师7.0新品发布会上，我们首次推出了倾斜摄影测量高斯飞溅（OPGS）从训练到实时渲染的软件工具解决方案，使得用户能够在常用的重建农场计算节点下，就能够实现城市级地理场景3DOPGS成果的高质量、

大势智慧·2025-03-13 09:34

LLM填坑：训练自己的分词器-Tokenizer

说明：文本搬运以下文章，略微调整，有需求可参考原文。paper:https://zhuanlan.zhihu.com/p/625715830code:Chatterbox/example/TrainTokenizersExample/train_tokenizers.pyatmain·enze5088/Chatterbox·GitHubHuaggingface教程：

微风❤水墨·2025-03-13 08:53

LLM填坑：训练自己的分词器-Tokenizer 2

merges.txtmerges文件存放的是训练tokenizer阶段所得到的合并词表结果，就是tokenizer.json中，model.merges下的内容。

微风❤水墨·2025-03-13 08:53

整理：开启新征程！四篇文章助力 AI，告别 “3D理解困难户”

目前的MLLM主要是用2D图片训练出来的，也就是说，它们更擅长识别平面的信息，比如照片中的人和物体。但是，现实世界是三维的（3D），仅靠2D图片训练的模型很难准确理解物体的立体关系。

mslion·2025-03-13 07:17

训练大模型LLM选择哪种开发语言最好

训练大型语言模型（LLM）时，选择合适的编程语言主要取决于效率、生态支持、开发便利性以及特定需求（如性能优化或硬件适配）。

大0马浓·2025-03-13 05:09

视频孪生与三维视频融合：重构工业现场的“数字视网膜“

在浙江某精密制造企业的总控中心，30米长的曲面屏上实时跳动着工厂的每个生产细节：机械臂的运动轨迹与数字模型完全同步，质检工位的操作误差被自动标记，AGV小车的行进路径在三维空间中以光带形式可视化呈现。

数字孪生家族·2025-03-13 05:36

动手深度学习笔记（二十九）5.5. 读写文件

.深度学习计算5.5.读写文件5.5.1.加载和保存张量5.5.2.加载和保存模型参数5.5.3.小结5.5.4.练习5.深度学习计算5.5.读写文件到目前为止，我们讨论了如何处理数据，以及如何构建、训练和测试深度学习模型

落花逐流水·2025-03-13 04:29

大语言模型（LLM）的微调与应用

一、微调与应用的核心区别目标差异微调（Fine-tuning）：针对预训练模型进行参数调整，使其适应特定任务或领域（如医疗问答、法律文本分析）。

AI Echoes·2025-03-13 03:50

PyTorch分布式训练

本文结构：分布式训练概述环境设置数据并行（DDP）模型并行启动训练性能优化建议示例代码参考资料和相关问题以下是为您整理的PyTorch分布式训练教程指南：一、PyTorch分布式训练核心概念数据并行：通过分割数据集实现多

阳光明媚大男孩·2025-03-13 02:16

29.代码随想录算法训练营第二十九天|134. 加油站，135. 分发糖果，860. 柠檬水找零，406. 根据身高重建队列

29.代码随想录算法训练营第二十九天|134.加油站，135.分发糖果，860.柠檬水找零，406.根据身高重建队列134.加油站-力扣（LeetCode）在一条环路上有n个加油站，其中第i个加油站有汽油

白鹭鸣鸣！·2025-03-13 02:12

书生大模型全链路开源体系，学习

优点书生·浦语开源大模型，是一个开源的大模型，大家可以一起学习还有配套的教学视频，很快就能上手，而且还奖励算力，可以直接训练，讨论学习，非常nice。

小方abc·2025-03-13 01:37

论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects

论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。

游离态GLZ不可能是金融技术宅·2025-03-13 01:07

论文阅读 EEG-TCNet

AnAccurateTemporalConvolutionalNetworkforEmbeddedMotor-ImageryBrain–MachineInterfaces1.Intrduction本文提出了一种新颖的时间卷积网络（TCN），在需要很少的可训练参数的情况下实现了出色的精度

Plan-C-·2025-03-13 01:36

FLOW MATCHING FOR GENERATIVE MODELING 阅读笔记

FlowMatching(FM)是一种训练连续标准化流ContinuousNormalizingFlow(CNF)的方法。FM是一种通用的方法。FM可以用于训练扩散路径，用FM训练扩散路径更稳定。

冰冰冰泠泠泠·2025-03-13 01:35

论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control

π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。

寻丶幽风·2025-03-13 01:33

【论文阅读】Learning Transferable Visual Models From Natural Language Supervision（2021）

State-of-the-art（最先进的）computervisionsystems（计算机视觉系统）aretrainedtopredictafixedsetofpredeterminedobjectcategories（被训练来预测一组固定的预定对象类别

Bosenya12·2025-03-13 01:02

Stable Diffusion游戏底模推荐

一、基础通用型底模SDXLbase官方原版底模，支持1024x1024高清出图，适用于各类游戏场景和角色的基础生成，建议作为微调训练的基准模型。

Liudef06·2025-03-12 23:52

InternVL：论文阅读 -- 多模态大模型(视觉语言模型)

3）训练策略（1）第一阶段：视觉-语言对比训练（2）第二阶段：视觉语言生成训练（3）第三阶段：监督微调（SFT）3.InternVL应用1）对于视觉感知任务2）对于对比任务3）对于生成任务4）对于

XiaoJ1234567·2025-03-12 23:20

LLM大模型技术实战6：一文总结大模型微调方法

作为像水、电一样的基础设施，预训练大模型这样的艰巨任务，只会有少数技术实力强、财力雄厚的公司去做。绝大多数人，是水、电的应用者。对这部分人来说，掌握如何用好大模型的技术，更加重要。

AIG暴躁猫叔·2025-03-12 22:16

Adapter-Tuning：高效适配预训练模型的新任务

1.引言近年来，预训练语言模型（PLM）如BERT、GPT和T5在自然语言处理（NLP）任务中取得了巨大成功。

花千树-010·2025-03-12 22:15

单片机实现的数字电压表设计

本文还有配套的精品资源，点击获取简介：本文介绍了使用单片机设计和实现数字电压表的项目，包括信号采集、单片机编程、数据显示、电源管理、误差校正、用户界面和安全措施等关键步骤。

赵阿萌·2025-03-12 21:06

基于hf的trl框架的deepseek-r1-zero实现与训练

导入模块和promt格式"""Reference:"""importreimporttorchfromdatasetsimportload_dataset,DatasetfromtransformersimportAutoTokenizer,AutoModelForCausalLMfromtrlimportGRPOConfig,GRPOTrainer#LoadandprepdatasetSYSTE

喂喂喂喂位·2025-03-12 20:00

【AI论文】SEAP: 无训练稀疏专家激活修剪，解锁大型语言模型的潜力

本文介绍了稀疏专家激活修剪（SEAP）方法，这是一种无需训练的修剪方法，通过选择性地保留与任务相关的参数来降低推理开销。

东临碣石82·2025-03-12 19:53

在本地部署DeepSeek等大模型时，需警惕的潜在安全风险

在本地部署DeepSeek等大模型时，尽管数据存储在本地环境（而非云端），但仍需警惕以下潜在安全风险：1.模型与数据存储风险未加密的存储介质：若训练数据、模型权重或日志以明文形式存储，可能被物理窃取（如硬盘丢失

安当加密·2025-03-12 18:19

51-52 CVPR 2024 | Generalized Predictive Model for Autonomous Driving，自动驾驶通用预测模型

作者提出了通用的大规模自动驾驶视频预测模型GenAD，在实现过程中，进一步提出了迄今为止最大的自动驾驶场景训练数据集OpenDV-2K。

深圳季连AIgraphX·2025-03-12 18:18

算力服务器主要是指什么？

算力服务器对于人工智能领域来说，在深度学习模型的训练和推理过程中扮演着非常重要的角色，算力服务器可以执行大规模的矩阵计算，加速神经网络的训练和推理过程，帮助企业使得模型训练的时间大幅度缩短。

wanhengidc·2025-03-12 16:38

【模型调优的深入分析与Python实践】

其核心目标是在以下两者间找到平衡：泛化能力∝1过拟合风险\text{泛化能力}\propto\frac{1}{\text{过拟合风险}}泛化能力∝过拟合风险1二、调优注意事项1.数据层面确保训练集/验证集

蝉叫醒了夏天·2025-03-12 15:30

DeepSeek开源周：面向大模型训练的三个工具包

在2025年的开源周中，DeepSeek推出了一系列旨在优化大规模模型训练效率的工具。

花生糖@·2025-03-12 15:28

神经网络探秘：原理、架构与实战案例

本文旨在深入剖析神经网络的原理、常见架构，并通过一个实际的代码案例，带领读者亲手实践神经网络的构建与训练过程。无论你是机器学习初学者，还

二川bro·2025-03-12 14:56

推荐频道

训练误差