E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sft
LLM模型的一些思考
对通用LLM模型进行Fine-tuning操作(
SFT
,supervisedfinetuning),带来的影响往往是有害的?
巴基海贼王
·
2025-06-27 01:08
nlp
【LLM】两篇多模态LLM综述MultiModal Large Language Models
)现有的MM-LLM的趋势:(1)从专门强调MM理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4→MiniGPT-5→NExT-GPT);(2)从MMPT提升到
SFT
心上之秋
·
2025-06-24 07:49
语言模型
人工智能
自然语言处理
训练成本降低2000倍: 直接将推理能力注入LLM
/pdf/2506.09967代码地址https://github.com/shangshang-wang/Resa作者背景南加州大学动机激发大模型的推理能力通常需要繁重的后训练工作(带CoT的RL或
SFT
大模型最新论文
·
2025-06-18 13:20
深度学习
人工智能
语言模型
自然语言处理
llama
【慢摹】TRL训练器细节详解(
SFT
/PPO/DPO/GRPO)
序言本文总结一下目前TRL典型的训练器的实现细节(
SFT
,PPO,DPO,GRPO),也是对上一文【速写】PPOTrainer样例与错误思考(少量DAPO)的补充目前DeepSeek关于各个训练器细节的掌握
·
2025-06-16 00:36
用 LoRA 对 Qwen2.5-VL 模型进行
SFT
- qwen2_5vl_lora_
sft
.yaml
用LoRA对Qwen2.5-VL模型进行
SFT
-qwen2_5vl_lora_
sft
.yamlflyfishFORCE_TORCHRUN=1llamafactory-clitrainexamples/train_lora
二分掌柜的
·
2025-06-15 02:37
Qwen
LoRA
Qwen
qwen
SFT
+ LoRA 结合使用原理及最佳实践
SFT
+LoRA结合使用原理及最佳实践一、核心原理1.技术定位
SFT
(监督微调)与LoRA(低秩适应)的结合,实现了全参数微调效果与高效参数更新的平衡:
SFT
:通过标注数据调整模型整体行为LoRA:仅训练注入的低秩矩阵
·
2025-06-12 23:17
人工智能-
SFT
(Supervised Fine-Tuning)、RLHF 和 GRPO
以下是
SFT
(SupervisedFine-Tuning)、RLHF(ReinforcementLearningfromHumanFeedback)和GRPO群体相对策略优化(GRPO,GroupRelativePolicyOptimization
高效匠人
·
2025-06-10 21:54
人工智能
人工智能
【大模型】【DeepSeek】DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练而成的模型,没有经过监督微调(
SFT
)作为初步步骤,展现了卓越的推理能力。
量子-Alex
·
2025-06-08 18:51
LLM大模型
人工智能
语言模型
【大模型实践解惑】 如何在 Supervised Fine‑Tuning (
SFT
) 之后进行 Direct Preference Optimization (DPO) 微调?
关于在
SFT
之后进行DPO微调的技术解析与应用指南,结合国内外最新研究及实践案例,包含代码实现与未来优化方向:文章目录DPO的核心原理与
SFT
的局限性1.1
SFT
的瓶颈与偏好学习的必要性1.2DPO的数学基础与优化目标
云博士的AI课堂
·
2025-06-08 10:28
大模型技术开发与实践
哈佛博后带你玩转机器学习
深度学习
机器学习
SFT
pytorch
大模型
DPO
强化学习
DPO
微调
对 `llamafactory-cli api -h` 输出的详细解读
llamafactory-cli是LlamaFactory项目提供的命令行接口工具,它允许用户通过命令行参数来配置和运行大型语言模型的各种任务,如预训练(PT)、有监督微调(
SFT
)、奖励模型训练(RM
路人与大师
·
2025-06-07 13:36
人工智能
深度学习
SFT
实战微调Gemma
1.运行环境搭建:虚拟环境实验要求:python3.10及以上版本pytorch1.12及以上版本,推荐2.0及以上版本建议使用CUDA11.4及以上transformers>=4.38.0请务必采用上面的环境,否则代码无法运行。如果python环境低于3.10则需要额外安装pipinstallbitsandbytesGemma模型链接和下载:支持直接下载模型的repo(以7b-it为例,服务器性
原味奶茶_三分甜
·
2025-06-06 22:53
深度学习
人工智能
强化学习-深度学习和强化学习领域
在深度学习和强化学习领域,
SFT
(SupervisedFine-Tuning)和GRPO(可能指Gradient-basedPolicyOptimization或ReinforcementLearningwithPolicyOptimization
高效匠人
·
2025-06-03 04:38
人工智能
深度学习
人工智能
CAMEL的特色功能——数据合成
前言在大模型时代,高质量数据正在成为越来越重要的一部分,然而通过人工的标注的方式获取数据的成本太高,并且真实世界的数据正迅速耗尽,于是就有了使用AI来合成数据的方法,下面我们来介绍如何使用CAMEL帮助我们合成
SFT
兔兔爱学习兔兔爱学习
·
2025-05-24 02:16
智能体
语言模型
人工智能
算法
python
Trl框架
SFT
/GRPO训练+模板预测
1、
SFT
训练#Copyright2025TheHuggingFaceTeam.Allrightsreserved.
confiself
·
2025-05-22 14:21
人工智能
语言模型
强化学习:第三方库【TRL - Transformer Reinforcement Learning】
OverviewTRLisacutting-edgelibrarydesignedforpost-trainingfoundationmodelsusingadvancedtechniqueslikeSupervisedFine-Tuning(
SFT
u013250861
·
2025-05-22 14:21
RL/强化学习
transformer
深度学习
人工智能
英伟达推理模型论文速读:OpenCodeReasoning-Nemotron-32B
为解决这一问题,研究者构建了一个优越的监督微调(
SFT
)数据集,实
Open-source-AI
·
2025-05-18 19:47
前沿
人工智能
算法
深度学习
大模型
0基础也能听懂:从预训练到
SFT
,对话模型技术栈深度拆解!
简单来说,从基座模型到对话模型的转变需要经过四个步骤:预训练基础模型、任务适应微调(
SFT
)、人类反馈强化学习(RLHF),以及部署和持续优化。下面,我们就一步步拆解这个过程,看看它是怎么实现的。
AGI大模型资料分享员
·
2025-05-16 11:42
人工智能
深度学习
机器学习
产品经理
语言模型
大模型
开源
2025最详细的学习路线,零基础入门大模型教程,让你少走99%弯路!【值得收藏】
预训练、
SFT
、RLHF。第三阶段:编程基础与工具使用目标:掌握大
AGI大模型学习
·
2025-05-10 14:03
学习
人工智能
AI大模型
程序员
Agent
AI
大模型
AI 学习笔记:在 Macbook M1上对 DeepSeek进行无 GPU 环境下的
SFT
微调,Transformers+LoRA,已跑通并出结果。
一、背景通用模型除了挂载知识库,去回答垂类问题以外,还有就是做
SFT
的微调,而大多数人其实是没有英伟达显卡的,但又挡不住学习的渴望,还想在老旧的电脑上去尝试微调,而我翻看了很多教程,都没有一个完整能够完全跑通的完整案例
极极光
·
2025-05-07 23:42
人工智能
deepseek
微调
SFT
lora
macbook
微调
纯
CPU
微调
外网爆火大模型入门教程:llm-action:让天下没有难学的大模型
LLM预训练/
SFT
/RLHF…参数教程代码Alpacafullfine-turning7B从
LLM.
·
2025-05-06 11:29
人工智能
llama
langchain
大语言模型
Ollama
LLM
大模型
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
背景:长思维链推理模型与过度思考现象2.1思维链(CoT)推理2.2长CoT推理模型中的过度思考问题3基于模型的高效推理3.1基于长度奖励设计的强化学习(RL)3.2使用可变长度CoT数据的监督微调(
SFT
绒绒毛毛雨
·
2025-05-04 18:00
搜索推荐
语言模型
人工智能
自然语言处理
一文读懂大模型RAG:检索、增强与生成的技术详解,收藏这一篇就够了!!
相对于成本昂贵的“Post-Training”或“SupervisedFine-Tuning”(监督微调,
SFT
),基于RAG的技术方案成为了一种更优选择。
AI大模型优化师
·
2025-05-04 06:14
人工智能
AI大模型
语言模型
RAG
agi
ai
LLM
PPO算法实践:手把手教会你PPO算法的工程应用
PPO模型的训练我们需要的模型实现流程伪代码代码中的公式解释代码解释数据准备阶段训练阶段实现代码PPO模型的训练我们需要的模型基准模型:一般是
SFT
后的模型作为基准,新训练的模型不能和这个模型的概率分布相差太大
KangkangLoveNLP
·
2025-05-01 11:54
强化学习
算法
机器学习
人工智能
深度学习
神经网络
自然语言处理
【大模型解惑】大模型如何在 Supervised Fine‑Tuning (
SFT
) 之后进行 PPO 强化学习微调?
近年来主流的大模型对齐流程已趋于“三段式”:预训练→
SFT
(监督微调)→RLHF(强化学习阶段,常用PPO)。
云博士的AI课堂
·
2025-04-30 08:27
大模型技术开发与实践
哈佛博后带你玩转机器学习
深度学习
大模型
强化学习
SFT
PPO
预训练
监督学习
机器学习
transformers之
SFT
和VLLM部署Llama3-8b模型
目录1.环境安装2.accelerator准备3.加载llama3和数据4.训练参数配置5.微调6.vllm部署7.Llama-3-8b-instruct的使用参考1.环境安装pipinstall-q-Ubitsandbytespipinstall-q-Ugit+https://github.com/huggingface/transformers.gitpipinstall-q-Ugit+htt
AIVoyager
·
2025-04-28 10:06
transformers
NLP
llama
llama3
微调
vllm
大模型RAG入门到实战基础教程(非常详细),保姆级教程!
相对于成本昂贵的“PostTrain”或“
SFT
”,基于RAG的技术方案往成为一种更优选择。本文从RAG架构入手,详细介绍相关技术细节,并附上一份实践案例。
程序员二飞
·
2025-04-25 17:28
java
数据库
缓存
人工智能
前端
深度学习
开发语言
Llama模型家族之使用 Supervised Fine-Tuning(
SFT
)微调预训练Llama 3 语言模型(六)Llama 3 已训练的大模型合并LoRA权重参数
LlaMA3系列博客基于LlaMA3+LangGraph在windows本地部署大模型(一)基于LlaMA3+LangGraph在windows本地部署大模型(二)基于LlaMA3+LangGraph在windows本地部署大模型(三)基于LlaMA3+LangGraph在windows本地部署大模型(四)
段智华
·
2025-04-22 13:06
深入理解
ChatGPT
LLaMA-Factory
Llama3
LLMs基础学习(七)DeepSeek专题(4)
训练过程的四个阶段具体流程小结“规则化奖励”具体原因小结“自我认知”(self-cognition)数据基本概念小结RL训练中过度拟合避免方式小结DeepSeek中的蒸馏蒸馏基本流程性能表现小结为何在蒸馏过程中仅使用
SFT
汤姆和佩琦
·
2025-04-18 23:13
NLP
DeepSeek
规则化奖励
自我认知
蒸馏
RL训练过拟合
如何从零开始训练一个大模型,文案解析。
✅大模型微调常见流程图(逻辑顺序)预训练(Pretraining)↓指令微调
SFT
(SupervisedFine-tuning)↓偏好数据准备(人类偏好标注或对比)↓┌─────────────┬───
要努力啊啊啊
·
2025-04-13 13:31
大模型中的技术名词解析
算法
人工智能
理解大模型论文中的名词部分
模型技术报告中的名词部分进行介绍1.预训练•目标:从海量无标注文本中学语言能力(通常一次性训练大模型)•特点:训练耗时、成本高,但是基础中的基础•是否自己做:一般使用开源预训练模型,无需重复训练2.指令监督微调(
SFT
要努力啊啊啊
·
2025-04-13 13:30
大模型中的技术名词解析
人工智能
机器学习
深度学习
领域专用对话大模型深度适配方案
1.1架构创新点特性LLaMA-1LLaMA-2-13B上下文窗口2048tokens4096tokens训练数据量1.4Ttokens2.0Ttokens(含40%新数据)安全对齐机制基础RLHF迭代式
SFT
Sirius Wu
·
2025-04-12 18:28
人工智能
深度学习
引领对话智能新纪元:Gemma-
SFT
深度学习模型详解与应用探索
引领对话智能新纪元:Gemma-
SFT
深度学习模型详解与应用探索gemma-
sft
项目地址:https://gitcode.com/gh_mirrors/ge/gemma-
sft
在这个对话式AI迅速崛起的时代
史姿若Muriel
·
2025-04-11 13:44
python的ssh模块_Python学习—paramiko模块实现简单的ssh与sftp
paramiko模块paramiko模块提供了ssh及
sft
进行远程登录服务器执行命令和上传下载文件的功能。这是一个第三方的软件包,使用之前需要安装。
weixin_39928102
·
2025-04-10 03:04
python的ssh模块
B站实战项目
search-card.all.click&vd_source=d303d97016e5723b9ae487b59d8329db一、简介本期视频主要分为以下五部分:1.需求和技术企业对于大模型的不同类型个性化需求
SFT
Mia@
·
2025-04-08 22:57
llm
AI安全算法工程师的算法笔记
如果你正在关注大模型最新技术,或者想深入了解AI安全研究与工程实践,强烈推荐你关注这个微信公众号AI安全这点事由AI安全方向的一线技术从业者主理,长期聚焦在两个关键方向:大模型前沿技术最新开源大模型拆解与能力分析
SFT
AI安全这点事
·
2025-04-06 09:25
人工智能
安全
笔记
解码 Llama 3
SFT
:Templates、Special Tokens 及其在微调中的作用
写在前面在进行
SFT
,尤其是对话微调时,有两个核心概念是绕不开的:对话模板(ChatTemplates)和特殊标记(SpecialTokens)。
kakaZhui
·
2025-04-02 19:54
llama
自然语言处理
人工智能
AIGC
chatgpt
多轮对话
NLP高频面试题(二十七)——
SFT
有哪几种参数微调方法?有什么优缺点?
本文将梳理
SFT
中常用的几种参数微调方法及各自的优缺点。一、
SFT
中的参数微调方法常见的参数微调方法主要分为两类:全参微调和PEFT方法。
Chaos_Wang_
·
2025-04-02 05:22
NLP常见面试题
自然语言处理
人工智能
RLHF微调大模型---PPO原理和代码实战
中文含义是:基于人类反馈的强化学习,用奖励模型RewardModel来训练
SFT
模型;生成模型使用奖励或惩罚来更新其策略,以
韭菜盖饭
·
2025-03-31 06:13
大模型
大模型微调
RLHF
人工智能
大模型
10篇R1相关的研究全面汇总,万字思考!
•Base+
SFT
•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas
·
2025-03-30 08:19
datawhale
大模型智能体(Agent)优化技术全景解读:从理论到实践
目录Agent优化技术分类框架两大优化范式对比技术演进路线图参数驱动优化方法详解监督微调(
SFT
)技术体系高质量轨迹数据构建微调策略创新强化学习优化路径奖励函数设计原则偏好对齐技术对比参数无关优化技术剖析
鸿蒙布道师
·
2025-03-28 12:07
人工智能
人工智能
算法
linux
计算机视觉
自然语言处理
语言模型
机器学习
deepseek(1)——deepseek 整体架构
通用模型,用于常见日常问题推理模型deepseek-r1,671B,推理模型,擅长处理复杂、需要多步思考的问题,适合做深度研究、解决代码/数学问题DeepSeek-R1是首个验证了仅通过RL(强化学习)无需
SFT
哦豁灬
·
2025-03-27 20:14
学习笔记
深度学习
大模型
deepseek
LLM
大模型
LLM实践(二)——基于llama-factory的模型微调
目录
SFT
的lora微调1、环境部署2、准备数据与配置3、创建微调配置文件:yaml配置文件4、Lora微调:基于lora微调的yaml配置文件启动lora微调5、启动模型:基于llama-factory
lucky_chaichai
·
2025-03-27 09:44
llama
chrome
前端
SFT
和RLHF是什么意思?
环境:SFTRLHF问题描述:
SFT
和RLHF是什么意思解决方案:
SFT
(SupervisedFine-Tuning,监督微调)和RLHF(ReinforcementLearningfromHumanFeedback
玩人工智能的辣条哥
·
2025-03-25 00:15
人工智能
人工智能
深度学习
机器学习
当细致剪裁遇上大语言模型:从数据匹配到卓越性能的奇幻之旅
我们将透过一篇最新的研究《TheBestInstruction-TuningDataareThoseThatFit》,探索如何通过选择与目标模型分布高度契合的数据来优化监督式微调(
SFT
)的效果,以及这一方法如何
步子哥
·
2025-03-24 18:24
AGI通用人工智能
语言模型
人工智能
自然语言处理
MiniMind:完全从 0 训练自己的大模型
是B站UP主近在远方的远开源的一个微型语言模型,改进自DeepSeek-V2、Llama3结构,项目包含整个数据处理、pretrain、
sft
、dpo的全部阶段,包含混合专家(MoE)模型。
三花AI
·
2025-03-22 15:49
三花AI
人工智能
LLM大模型
MiniMind
SFT
数据:
SFT
(SupervisedFine-Tuning)数据集,用于监督式微调,可以提高模型在特定任务上的性能。DPO数据1和DPO数据2:这两个数
亚伯拉罕·黄肯
·
2025-03-22 14:46
大模型
人工智能
DeepSpeed-Chat:Reward Model【奖励模型】
第二阶段:奖励模型微调奖励模型(RM)微调类似于第一阶段有监督微调(
SFT
)。
u013250861
·
2025-03-22 13:31
#
LLM/训练
RL/强化学习
排序
强化学习
Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战
=2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_
sft
_Chinese
LuckyAnJo
·
2025-03-22 08:47
LLM相关
llama
python
自然语言处理
人工智能
【大模型系列】
SFT
(Supervised Fine-Tuning,监督微调)
欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
Kwan的解忧杂货铺@新空间代码工作室
·
2025-03-22 02:20
s2
AIGC
大模型
10篇R1相关的研究全面汇总,万字思考!
•Base+
SFT
•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas
·
2025-03-21 07:28
datawhale
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他