协同训练第9页

LLM大模型技术实战6：一文总结大模型微调方法

作为像水、电一样的基础设施，预训练大模型这样的艰巨任务，只会有少数技术实力强、财力雄厚的公司去做。绝大多数人，是水、电的应用者。对这部分人来说，掌握如何用好大模型的技术，更加重要。

AIG暴躁猫叔·2025-03-12 22:16

第二十七个问题-AI Agent 与 RAG 的核心区别

AIAgent与RAG的核心区别AIAgent（人工智能代理）与RAG（检索增强生成）是当前生成式AI领域的两个关键技术，二者在功能定位、技术架构和应用场景上存在显著差异，但也可协同互补。

释迦呼呼·2025-03-12 22:46

Adapter-Tuning：高效适配预训练模型的新任务

1.引言近年来，预训练语言模型（PLM）如BERT、GPT和T5在自然语言处理（NLP）任务中取得了巨大成功。

花千树-010·2025-03-12 22:15

Struts2.0 完整开发包：核心组件与实践应用

本文详细介绍了Struts2.0的核心组件，包括Action、Result、Interceptor、ValueStack和OGNL等，并解释了这些组件如何与lib包协同工作。

一人一猫浪迹天涯·2025-03-12 21:06

基于hf的trl框架的deepseek-r1-zero实现与训练

导入模块和promt格式"""Reference:"""importreimporttorchfromdatasetsimportload_dataset,DatasetfromtransformersimportAutoTokenizer,AutoModelForCausalLMfromtrlimportGRPOConfig,GRPOTrainer#LoadandprepdatasetSYSTE

喂喂喂喂位·2025-03-12 20:00

deepseek+ansible实现AI自动化集群部署

DeepSeek与Ansible协同配置Linux集群的完整机制方案，涵盖架构设计、工具调用链及Agent提示词体系：一、系统架构设计（四层联动）!

大囚长·2025-03-12 20:59

【AI论文】SEAP: 无训练稀疏专家激活修剪，解锁大型语言模型的潜力

本文介绍了稀疏专家激活修剪（SEAP）方法，这是一种无需训练的修剪方法，通过选择性地保留与任务相关的参数来降低推理开销。

东临碣石82·2025-03-12 19:53

在本地部署DeepSeek等大模型时，需警惕的潜在安全风险

在本地部署DeepSeek等大模型时，尽管数据存储在本地环境（而非云端），但仍需警惕以下潜在安全风险：1.模型与数据存储风险未加密的存储介质：若训练数据、模型权重或日志以明文形式存储，可能被物理窃取（如硬盘丢失

安当加密·2025-03-12 18:19

51-52 CVPR 2024 | Generalized Predictive Model for Autonomous Driving，自动驾驶通用预测模型

作者提出了通用的大规模自动驾驶视频预测模型GenAD，在实现过程中，进一步提出了迄今为止最大的自动驾驶场景训练数据集OpenDV-2K。

深圳季连AIgraphX·2025-03-12 18:18

HarmonyNext实战：基于ArkTS12+的高性能分布式任务调度系统开发

HarmonyNext实战：基于ArkTS12+的高性能分布式任务调度系统开发引言在HarmonyNext生态系统中，分布式任务调度是一个关键的技术领域，尤其是在多设备协同场景下。

·2025-03-12 18:43

算力服务器主要是指什么？

算力服务器对于人工智能领域来说，在深度学习模型的训练和推理过程中扮演着非常重要的角色，算力服务器可以执行大规模的矩阵计算，加速神经网络的训练和推理过程，帮助企业使得模型训练的时间大幅度缩短。

wanhengidc·2025-03-12 16:38

【模型调优的深入分析与Python实践】

其核心目标是在以下两者间找到平衡：泛化能力∝1过拟合风险\text{泛化能力}\propto\frac{1}{\text{过拟合风险}}泛化能力∝过拟合风险1二、调优注意事项1.数据层面确保训练集/验证集

蝉叫醒了夏天·2025-03-12 15:30

DeepSeek开源周：面向大模型训练的三个工具包

在2025年的开源周中，DeepSeek推出了一系列旨在优化大规模模型训练效率的工具。

花生糖@·2025-03-12 15:28

神经网络探秘：原理、架构与实战案例

本文旨在深入剖析神经网络的原理、常见架构，并通过一个实际的代码案例，带领读者亲手实践神经网络的构建与训练过程。无论你是机器学习初学者，还

二川bro·2025-03-12 14:56

搞懂 Manus 技术原理，用开源的 Proxy Lite 你也可以构建自己的智能助理

Manus的技术并没有多么高大上，技术原理主要基于其创新的“多代理架构”（MultipleAgentArchitecture），这一架构通过将复杂任务分解为规划、执行和验证三个阶段，并由多个独立的AI代理协同完成

程序猿李巡天·2025-03-12 14:56

AI浪潮下程序员的生存指南：7 条转型路径

"代码搬运工"岗位需求下降42%（Indeed招聘数据）·破局关键：从"重复劳动"转向"创造性价值输出"二、程序员转型的7大黄金赛道转型方向核心能力要求市场需求增长典型岗位示例智能架构师系统设计+AI协同开发

·2025-03-12 13:29

为什么VAE效果不好，但VAE+diffusion效果就好了？

它结合了自编码器（Autoencoder）的结构和变分推断（VariationalInference）的思想，能够从数据中学习有意义的潜在表示，并生成与训练数据相似的新样本。

AndrewHZ·2025-03-12 12:43

基础算法训练2

基础算法1链接目录最长公共前缀两数之和删除字符串中所有相邻重复项n叉树的层序遍历最后一块石头的重量第N个泰波那契数图像渲染迷宫中离入口最近的出口矩阵课程表最长公共前缀14.最长公共前缀-力扣（LeetCode）在解决这道题时，巧妙运用String类的两个方法，能让解题过程变得十分轻松。首先，我们需要确定一个查找公共前缀的标准。这里，我们选择数组中的第一个字符串作为标准。不过，在此之前，必须对边界情

祁小白2024·2025-03-12 12:42

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

训练过程包括多阶段优化，确保在不同模式和任务上的性能，数据来源多样，覆盖高质量网络和合成数据。

余俊晖·2025-03-12 12:40

在整个大模型LoRA微调中，哪些方法可以提升和优化模型训练后推理效果？

环境：LoRA微调问题描述：在整个大模型LoRA微调中，哪些方法可以提升和优化模型训练后推理效果？

玩人工智能的辣条哥·2025-03-12 11:38

weka 决策树

-synopsisor-infoOutputsynopsisforclassifier(useinconjunctionwith-h)-t（trainfile，训练文件，通常训练时只需要此文件即可，会进行

marui1982·2025-03-12 11:03

大模型微调：定义、方法、应用与未来展望

一、定义与意义（一）微调的定义大模型微调是指在预训练模型的基础上，通过特定领域的数据集对模型进行进一步训练的过程。

软件职业规划·2025-03-12 11:33

扩散 Transformer 策略：用于通才视觉-语言-动作学习的规模化扩散 Transformer

最近，在多样化的机器人数据集上进行预训练的大型视觉-语言-动作模型，已展示出利用少量域内数据泛化到

三谷秋水·2025-03-12 10:27

计算机视觉深度学习入门（4）

在小型数据集上从头开始训练一个卷积神经网络利用少量数据来训练图像分类模型，这是一种很常见的情况。如果你从事与计算机视觉相关的职业，那么很可能会在实践中遇到这种情况。

yyc_audio·2025-03-12 10:26

Python训练的机器学习模型【保存】和【加载】的方法？

一.为什么要保存训练好的模型由于传统训练机器学习模型，需要耗费大量的人力和资源。因此，将训练好的模型保存成为一件特别重要的事情。

福葫芦·2025-03-12 09:22

深入解析模型蒸馏（Knowledge Distillation）：原理、方法与优化策略

深入解析模型蒸馏（KnowledgeDistillation）：原理、方法与优化策略1.引言随着深度学习模型规模的不断增长，训练和部署大模型的计算成本也越来越高。

赵大仁·2025-03-12 09:48

RAG检索增强生成（Retrieval-Augmented Generation）介绍（双模态架构：检索子系统、生成子系统）实现知识获取与内容生成的协同

文章目录增强生成（RAG）技术：原理、架构与前沿实践1.RAG技术架构剖析1.1技术融合范式-**检索子系统**-**生成子系统**2.核心组件与工作流程2.1数据预处理管线-**多粒度分块策略**-**特征增强技术**2.2混合检索引擎3.性能优化关键路径3.1检索质量提升-**多阶段精排模型**：-**动态阈值策略**：3.2生成控制技术-**结构化prompt模板**：-**知识验证机制**

Dontla·2025-03-12 08:45

51-53 CVPR 2024 | DriveWorld：通过自动驾驶世界模型进行 4D 预训练场景理解（含模型数据流梳理）

24年5月，北京大学、国防创新研究院无人系统技术研究中心、中国电信人工智能研究院联合发布了DriveWorld:4DPre-trainedSceneUnderstandingviaWorldModelsforAutonomousDriving。DriveWorld在UniAD的基础上又有所成长，提升了自动驾驶目标检测、目标追踪、3D占用、运动预测及规划的性能，后期扩大数据集和调整骨干网络大小应该会

深圳季连AIgraphX·2025-03-12 08:43

大模型面试--大模型（LLMs）基础面

以下是一些主流的Transformer模型：GPT系列GPT-2和GPT-3：由OpenAI开发的生成式预训练变换器模型，用于生成高质量的文本。GPT-Neo和GPT-J：由Eleuthe

TAICHIFEI·2025-03-12 08:13

AIGC是怎么为拥有5000家门店的行业头部企业做内容分发？

最初，我们都沉浸在通过海量数据训练出超级智能的幻想中，但随着时间的推移，我们逐渐意识到，在商业应用中，技术的稳定性和可靠性远比单纯的先进性更为重要。

Tezign_space·2025-03-12 07:06

N1学习打卡笔记

本文为365天深度学习训练营中的学习记录博客原作者：K同学啊Onhot编码one-hot编码的基本思想是将每个类别映射到一个向量，其中只有一个元素的值为1，其余元素的值为0。

无涯学徒1998·2025-03-12 07:06

机器学习入门指南：从 TensorFlow 到 PyTorch

机器学习是一种通过数据训练模型，使计算机能够自动学习和改进的技术。它主要分

6v6-博客·2025-03-12 06:23

Faster R-CNN原理详解以及Pytorch实现模型训练与推理

阿_旭·2025-03-12 05:51

cornell grasp data 康奈尔大学抓取数据集百度云

目前先进的基于视觉和机器人抓取方法都是在该数据集上训练过。该数据集共十组，每组100个物体，共计1000个物体，不仅包含物体的图像，还包含物体的抓取位姿。

工科pai·2025-03-12 05:20

TCP/IP原理详细解析

其设计遵循分层模型（四层或五层），各层独立工作，通过协议协同实现端到端通信。以下章节是其核心原理的逐层解析。一、TCP/IP分层模型

一个儒雅随和的男子·2025-03-12 04:10

RK3568笔记五十六：yolov8_obb旋转框训练部署

本文基于rknn_model_zoo和山水无移大佬的博客和代码训练模型并部署到正点原子的ATK-DLRK3568板子测试。

殷忆枫·2025-03-12 04:07

RK3568笔记六十八：Yolov11目标检测部署测试

这里不训练自己的模型了，使用官方模型测试。

殷忆枫·2025-03-12 04:07

对开源VLA sota π0的微调——如何基于各种开源数据集、以及你自己的私有数据集微调π0(含我司的微调实践)

前言25年2.4日，几个月前推出π0的公司PhysicalIntelligence(π)宣布正式开源π0及π0-FAST，如之前所介绍的，他们对用超过10,000小时的机器人数据进行了预训练该GitHub

v_JULY_v·2025-03-12 04:07

熬夜一星期！我把WPS的功能用Qt重写了

今天我将以自研的"智汇协同Office"项目为例，深度剖析如何用Qt构建企业级桌面应用。

十年编程老舅·2025-03-12 03:28

《自然语言处理实战入门》深度学习 ---- 预训练模型初探

文章大纲前言预训练模型简介语言表示学习神经上下文编码器为何需要预训练模型发展历史主流预训练模型预训练模型与分类将PTMs应用至下游任务微调策略未来研究方向参考文献前言随着深度学习的发展，各种神经网络被广泛用于解决自然语言处理

shiter·2025-03-12 02:21

DeepSeek发展背景和前景

2.技术演进：2024年1月：发布首个大模型DeepSeekLLM，包含670亿参数，在2万亿token的数据集上训练，性能超越Llama270BBase。202

爱吃苹果的日记本·2025-03-12 02:18

第20周：Pytorch文本分类入门

目录前言一、前期准备1.1环境安装导入包1.2加载数据1.3构建词典1.4生成数据批次和迭代器二、准备模型2.1定义模型2.2定义示例2.3定义训练函数与评估函数三、训练模型3.1拆分数据集并运行模型3.2

weixin_46620278·2025-03-12 01:44

NLP新手入门-第N1周：Pytorch文本分类入门

本文为365天深度学习训练营中的学习记录博客原作者：K同学啊|接辅导、项目定制目录一、课题背景和开发环境二、环境安装三、文本分类1.加载数据2.构建词典3.生成数据批次和迭代器4.定义模型5.定义实例6

Oaix Nay·2025-03-12 01:42

28.代码随想录算法训练营第二十八天|122. 买卖股票的最佳时机 II，55. 跳跃游戏，45. 跳跃游戏 II，1005. K 次取反后最大化的数组和

28.代码随想录算法训练营第二十八天|122.买卖股票的最佳时机II，55.跳跃游戏，45.跳跃游戏II，1005.K次取反后最大化的数组和122.买卖股票的最佳时机II-力扣（LeetCode）给你一个整数数组

白鹭鸣鸣！·2025-03-12 00:08

Python 在深度学习中的应用

深度学习是机器学习的一个分支，它通过构建和训练深层神经网络来实现对数据的学习和理解。Python作为一种简洁、易读、功能强大的编程语言，在深度学习领域得到了广泛的应用。

2501_90435375·2025-03-12 00:38

Bert的使用

dataloaderfromtorch.utils.dataimportDataLoader,Datasetfromsklearn.model_selectionimporttrain_test_split#给X,Y和分割比例，分割出来一个训练集和验证机的

巨鹿..·2025-03-12 00:31

PyTorch 中的混合精度训练方法，从 autocast 到 GradScalar

PyTorch的混合精度训练主要由两个方法实现：amp.autocast和amp.GradScalar。在这两个工具的帮助下，可以实现以torch.float16的混合精度训练。

Syntax_CD·2025-03-12 00:01

理解 C# 泛型接口中的协变与逆变（抗变）

co-是英文中表示“协同”、“合作”的前缀，协变的字面意思就是“与变化的方向相同”。contra-是英文中表示“相反”的前缀，逆变的字面意思就是是“与变化方向相反”。

幻凌风·2025-03-11 23:57

考研复习时间规划：从迷茫到高效备考的进阶之路

基础阶段需要全面梳理知识体系，强化阶段着重攻克重点难点，冲刺阶段则要进行查漏补缺和模拟训练。每个阶段都有其特定的任务和目标，考生需要根据这些特征合理安排时间。考研复习的时

闲虎考研·2025-03-11 22:16

A800算力部署实战策略

内容概要《A800算力部署实战策略》聚焦于高性能计算集群的全生命周期管理，系统梳理从底层硬件选型到上层软件生态协同的关键技术路径。

智能计算研究中心·2025-03-11 22:42

推荐频道

协同训练