Atcoder训练第7页

全面解析RRU软件可测性设计引入AI算法的实践

异常检测与定位三、落地要求3.1数据基础3.2算法与模型3.3系统集成四、检查评估项4.1测试用例生成评估4.2异常检测与定位评估5AI算法设计和框架应用5.1.算法设计思路5.2.模型设计5.3.用例设计训练数据准备模型训练全面解析

youngerwang·2025-03-13 14:14

【图像去噪】论文复现：TPAMI 2025！全面提升单图像去噪泛化性！像素级零样本去噪方法Pixel2Pixel的Pytorch源码复现，跑通源码，修改各种报错，框架详解，注释详细！

图像去噪（ImageDenoising）】关于【图像去噪】专栏的相关说明，包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总（更新中）完整代码和训练好的模型权重文件下载链接见本文底部

十小大·2025-03-13 14:11

分布式训练中的参数local_rank

local_rank是一个常用于分布式训练中的参数，用于指示当前进程的本地编号。它帮助在分布式环境中区分不同的进程。

挨打且不服66·2025-03-13 13:09

Epoch 和 Batch Size的设计 + 模型的早停策略（基于上篇）

一.epoch和batchsize的设计epoch和batchsize是训练神经网络时的两个关键超参数，它们的设计会直接影响模型的训练速度、收敛性和最终性能。

一只小铁柱·2025-03-13 13:08

(4-8)基于DeepSeekMoE架构的DeepSeek-V3：测试模型

在加载模型时，首先需要从指定路径加载模型的配置文件和预训练权重。加载完成后，模型被设置为评估模式，并移动到GPU上以加速推理过程。

码农三叔·2025-03-13 13:37

图像识别技术与应用

工资是怎么样的岗位职责和任职要求看到了人类工业文明的演变了解了人工智能的研究、开发、模拟、延伸、理论、方法和技术看到了生活方式的转变比如智能语音闹钟控制系统、自动驾驶和人脸识别考勤智能购物、医疗日常生活的智能比如指纹、淘宝、抖音还能用软件看到天气的好坏了解了典型训练和机器学习中的关键组件机器学习中的关键组件包含

超帅的好吧·2025-03-13 13:36

一个基于LSTM的字符级文本生成模型的训练+使用(pytorch)

一、代码实现1.配置文件config.pyimporttorch#设备配置DEVICE=torch.device('cuda'iftorch.cuda.is_available()else'cpu')#超参数和配置SEQ_LENGTH=100#输入序列长度BATCH_SIZE=64#批大小EMBEDDING_DIM=256#嵌入层维度HIDDEN_SIZE=512#LSTM隐藏层大小NUM_LAY

一只小铁柱·2025-03-13 12:04

模型训练和推理

训练时需要梯度，推理时不需要怎么理解“梯度”？

一杯水果茶！·2025-03-13 12:02

【Agent实战】RAG方式+结构化prompt（CoT）+API工具结合ChatGPT4o能力Agent项目实践（货物上架位置推荐助手）

本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。

姚瑞南·2025-03-13 12:56

YOLO系列模型从v1到v10的演进

文章目录引言YOLOv1:开创单阶段目标检测先河发布时间与背景核心创新模型架构训练策略与优化YOLOv2:提升精度与速度的平衡发布时间与背景核心创新模型架构训练策略与优化YOLOv3:多尺度检测与残差连接发布时间与背景核心创新模型架构训练策略与优化

剑走偏锋o.O·2025-03-13 11:25

sparkML入门，通俗解释机器学习的框架和算法

Tometor·2025-03-13 11:53

神经网络机器学习中说的过拟合是什么意思

在神经网络和机器学习中，过拟合（Overfitting）是指模型在训练数据上表现非常好，但在未见过的测试数据上表现较差的现象。

yuanpan·2025-03-13 10:46

分布式并行策略概述

数据并行（DataParallelism）内容：数据并行通过将训练数据分割成多个小批次，并在多个处理单元（如GPU）上同时训练模型的副本来工作。

灵海之森·2025-03-13 10:11

突破：海量倾斜高斯OPGS Cesium高效渲染！

在重建大师7.0新品发布会上，我们首次推出了倾斜摄影测量高斯飞溅（OPGS）从训练到实时渲染的软件工具解决方案，使得用户能够在常用的重建农场计算节点下，就能够实现城市级地理场景3DOPGS成果的高质量、

大势智慧·2025-03-13 09:34

LLM填坑：训练自己的分词器-Tokenizer

说明：文本搬运以下文章，略微调整，有需求可参考原文。paper:https://zhuanlan.zhihu.com/p/625715830code:Chatterbox/example/TrainTokenizersExample/train_tokenizers.pyatmain·enze5088/Chatterbox·GitHubHuaggingface教程：

微风❤水墨·2025-03-13 08:53

LLM填坑：训练自己的分词器-Tokenizer 2

merges.txtmerges文件存放的是训练tokenizer阶段所得到的合并词表结果，就是tokenizer.json中，model.merges下的内容。

微风❤水墨·2025-03-13 08:53

整理：开启新征程！四篇文章助力 AI，告别 “3D理解困难户”

目前的MLLM主要是用2D图片训练出来的，也就是说，它们更擅长识别平面的信息，比如照片中的人和物体。但是，现实世界是三维的（3D），仅靠2D图片训练的模型很难准确理解物体的立体关系。

mslion·2025-03-13 07:17

训练大模型LLM选择哪种开发语言最好

训练大型语言模型（LLM）时，选择合适的编程语言主要取决于效率、生态支持、开发便利性以及特定需求（如性能优化或硬件适配）。

大0马浓·2025-03-13 05:09

动手深度学习笔记（二十九）5.5. 读写文件

.深度学习计算5.5.读写文件5.5.1.加载和保存张量5.5.2.加载和保存模型参数5.5.3.小结5.5.4.练习5.深度学习计算5.5.读写文件到目前为止，我们讨论了如何处理数据，以及如何构建、训练和测试深度学习模型

落花逐流水·2025-03-13 04:29

大语言模型（LLM）的微调与应用

一、微调与应用的核心区别目标差异微调（Fine-tuning）：针对预训练模型进行参数调整，使其适应特定任务或领域（如医疗问答、法律文本分析）。

AI Echoes·2025-03-13 03:50

PyTorch分布式训练

本文结构：分布式训练概述环境设置数据并行（DDP）模型并行启动训练性能优化建议示例代码参考资料和相关问题以下是为您整理的PyTorch分布式训练教程指南：一、PyTorch分布式训练核心概念数据并行：通过分割数据集实现多

阳光明媚大男孩·2025-03-13 02:16

29.代码随想录算法训练营第二十九天|134. 加油站，135. 分发糖果，860. 柠檬水找零，406. 根据身高重建队列

29.代码随想录算法训练营第二十九天|134.加油站，135.分发糖果，860.柠檬水找零，406.根据身高重建队列134.加油站-力扣（LeetCode）在一条环路上有n个加油站，其中第i个加油站有汽油

白鹭鸣鸣！·2025-03-13 02:12

书生大模型全链路开源体系，学习

优点书生·浦语开源大模型，是一个开源的大模型，大家可以一起学习还有配套的教学视频，很快就能上手，而且还奖励算力，可以直接训练，讨论学习，非常nice。

小方abc·2025-03-13 01:37

论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects

论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。

游离态GLZ不可能是金融技术宅·2025-03-13 01:07

论文阅读 EEG-TCNet

AnAccurateTemporalConvolutionalNetworkforEmbeddedMotor-ImageryBrain–MachineInterfaces1.Intrduction本文提出了一种新颖的时间卷积网络（TCN），在需要很少的可训练参数的情况下实现了出色的精度

Plan-C-·2025-03-13 01:36

FLOW MATCHING FOR GENERATIVE MODELING 阅读笔记

FlowMatching(FM)是一种训练连续标准化流ContinuousNormalizingFlow(CNF)的方法。FM是一种通用的方法。FM可以用于训练扩散路径，用FM训练扩散路径更稳定。

冰冰冰泠泠泠·2025-03-13 01:35

论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control

π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。

寻丶幽风·2025-03-13 01:33

【论文阅读】Learning Transferable Visual Models From Natural Language Supervision（2021）

State-of-the-art（最先进的）computervisionsystems（计算机视觉系统）aretrainedtopredictafixedsetofpredeterminedobjectcategories（被训练来预测一组固定的预定对象类别

Bosenya12·2025-03-13 01:02

Stable Diffusion游戏底模推荐

一、基础通用型底模SDXLbase官方原版底模，支持1024x1024高清出图，适用于各类游戏场景和角色的基础生成，建议作为微调训练的基准模型。

Liudef06·2025-03-12 23:52

InternVL：论文阅读 -- 多模态大模型(视觉语言模型)

3）训练策略（1）第一阶段：视觉-语言对比训练（2）第二阶段：视觉语言生成训练（3）第三阶段：监督微调（SFT）3.InternVL应用1）对于视觉感知任务2）对于对比任务3）对于生成任务4）对于

XiaoJ1234567·2025-03-12 23:20

LLM大模型技术实战6：一文总结大模型微调方法

作为像水、电一样的基础设施，预训练大模型这样的艰巨任务，只会有少数技术实力强、财力雄厚的公司去做。绝大多数人，是水、电的应用者。对这部分人来说，掌握如何用好大模型的技术，更加重要。

AIG暴躁猫叔·2025-03-12 22:16

Adapter-Tuning：高效适配预训练模型的新任务

1.引言近年来，预训练语言模型（PLM）如BERT、GPT和T5在自然语言处理（NLP）任务中取得了巨大成功。

花千树-010·2025-03-12 22:15

基于hf的trl框架的deepseek-r1-zero实现与训练

导入模块和promt格式"""Reference:"""importreimporttorchfromdatasetsimportload_dataset,DatasetfromtransformersimportAutoTokenizer,AutoModelForCausalLMfromtrlimportGRPOConfig,GRPOTrainer#LoadandprepdatasetSYSTE

喂喂喂喂位·2025-03-12 20:00

【AI论文】SEAP: 无训练稀疏专家激活修剪，解锁大型语言模型的潜力

本文介绍了稀疏专家激活修剪（SEAP）方法，这是一种无需训练的修剪方法，通过选择性地保留与任务相关的参数来降低推理开销。

东临碣石82·2025-03-12 19:53

在本地部署DeepSeek等大模型时，需警惕的潜在安全风险

在本地部署DeepSeek等大模型时，尽管数据存储在本地环境（而非云端），但仍需警惕以下潜在安全风险：1.模型与数据存储风险未加密的存储介质：若训练数据、模型权重或日志以明文形式存储，可能被物理窃取（如硬盘丢失

安当加密·2025-03-12 18:19

51-52 CVPR 2024 | Generalized Predictive Model for Autonomous Driving，自动驾驶通用预测模型

作者提出了通用的大规模自动驾驶视频预测模型GenAD，在实现过程中，进一步提出了迄今为止最大的自动驾驶场景训练数据集OpenDV-2K。

深圳季连AIgraphX·2025-03-12 18:18

算力服务器主要是指什么？

算力服务器对于人工智能领域来说，在深度学习模型的训练和推理过程中扮演着非常重要的角色，算力服务器可以执行大规模的矩阵计算，加速神经网络的训练和推理过程，帮助企业使得模型训练的时间大幅度缩短。

wanhengidc·2025-03-12 16:38

【模型调优的深入分析与Python实践】

其核心目标是在以下两者间找到平衡：泛化能力∝1过拟合风险\text{泛化能力}\propto\frac{1}{\text{过拟合风险}}泛化能力∝过拟合风险1二、调优注意事项1.数据层面确保训练集/验证集

蝉叫醒了夏天·2025-03-12 15:30

DeepSeek开源周：面向大模型训练的三个工具包

在2025年的开源周中，DeepSeek推出了一系列旨在优化大规模模型训练效率的工具。

花生糖@·2025-03-12 15:28

神经网络探秘：原理、架构与实战案例

本文旨在深入剖析神经网络的原理、常见架构，并通过一个实际的代码案例，带领读者亲手实践神经网络的构建与训练过程。无论你是机器学习初学者，还

二川bro·2025-03-12 14:56

为什么VAE效果不好，但VAE+diffusion效果就好了？

它结合了自编码器（Autoencoder）的结构和变分推断（VariationalInference）的思想，能够从数据中学习有意义的潜在表示，并生成与训练数据相似的新样本。

AndrewHZ·2025-03-12 12:43

基础算法训练2

基础算法1链接目录最长公共前缀两数之和删除字符串中所有相邻重复项n叉树的层序遍历最后一块石头的重量第N个泰波那契数图像渲染迷宫中离入口最近的出口矩阵课程表最长公共前缀14.最长公共前缀-力扣（LeetCode）在解决这道题时，巧妙运用String类的两个方法，能让解题过程变得十分轻松。首先，我们需要确定一个查找公共前缀的标准。这里，我们选择数组中的第一个字符串作为标准。不过，在此之前，必须对边界情

祁小白2024·2025-03-12 12:42

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

训练过程包括多阶段优化，确保在不同模式和任务上的性能，数据来源多样，覆盖高质量网络和合成数据。

余俊晖·2025-03-12 12:40

在整个大模型LoRA微调中，哪些方法可以提升和优化模型训练后推理效果？

环境：LoRA微调问题描述：在整个大模型LoRA微调中，哪些方法可以提升和优化模型训练后推理效果？

玩人工智能的辣条哥·2025-03-12 11:38

weka 决策树

-synopsisor-infoOutputsynopsisforclassifier(useinconjunctionwith-h)-t（trainfile，训练文件，通常训练时只需要此文件即可，会进行

marui1982·2025-03-12 11:03

大模型微调：定义、方法、应用与未来展望

一、定义与意义（一）微调的定义大模型微调是指在预训练模型的基础上，通过特定领域的数据集对模型进行进一步训练的过程。

软件职业规划·2025-03-12 11:33

扩散 Transformer 策略：用于通才视觉-语言-动作学习的规模化扩散 Transformer

最近，在多样化的机器人数据集上进行预训练的大型视觉-语言-动作模型，已展示出利用少量域内数据泛化到

三谷秋水·2025-03-12 10:27

计算机视觉深度学习入门（4）

在小型数据集上从头开始训练一个卷积神经网络利用少量数据来训练图像分类模型，这是一种很常见的情况。如果你从事与计算机视觉相关的职业，那么很可能会在实践中遇到这种情况。

yyc_audio·2025-03-12 10:26

Python训练的机器学习模型【保存】和【加载】的方法？

一.为什么要保存训练好的模型由于传统训练机器学习模型，需要耗费大量的人力和资源。因此，将训练好的模型保存成为一件特别重要的事情。

福葫芦·2025-03-12 09:22

深入解析模型蒸馏（Knowledge Distillation）：原理、方法与优化策略

深入解析模型蒸馏（KnowledgeDistillation）：原理、方法与优化策略1.引言随着深度学习模型规模的不断增长，训练和部署大模型的计算成本也越来越高。

赵大仁·2025-03-12 09:48

推荐频道

Atcoder训练