E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sft
RLHF微调大模型---PPO原理和代码实战
中文含义是:基于人类反馈的强化学习,用奖励模型RewardModel来训练
SFT
模型;生成模型使用奖励或惩罚来更新其策略,以
韭菜盖饭
·
2025-03-31 06:13
大模型
大模型微调
RLHF
人工智能
大模型
10篇R1相关的研究全面汇总,万字思考!
•Base+
SFT
•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas
·
2025-03-30 08:19
datawhale
大模型智能体(Agent)优化技术全景解读:从理论到实践
目录Agent优化技术分类框架两大优化范式对比技术演进路线图参数驱动优化方法详解监督微调(
SFT
)技术体系高质量轨迹数据构建微调策略创新强化学习优化路径奖励函数设计原则偏好对齐技术对比参数无关优化技术剖析
鸿蒙布道师
·
2025-03-28 12:07
人工智能
人工智能
算法
linux
计算机视觉
自然语言处理
语言模型
机器学习
deepseek(1)——deepseek 整体架构
通用模型,用于常见日常问题推理模型deepseek-r1,671B,推理模型,擅长处理复杂、需要多步思考的问题,适合做深度研究、解决代码/数学问题DeepSeek-R1是首个验证了仅通过RL(强化学习)无需
SFT
哦豁灬
·
2025-03-27 20:14
学习笔记
深度学习
大模型
deepseek
LLM
大模型
LLM实践(二)——基于llama-factory的模型微调
目录
SFT
的lora微调1、环境部署2、准备数据与配置3、创建微调配置文件:yaml配置文件4、Lora微调:基于lora微调的yaml配置文件启动lora微调5、启动模型:基于llama-factory
lucky_chaichai
·
2025-03-27 09:44
llama
chrome
前端
SFT
和RLHF是什么意思?
环境:SFTRLHF问题描述:
SFT
和RLHF是什么意思解决方案:
SFT
(SupervisedFine-Tuning,监督微调)和RLHF(ReinforcementLearningfromHumanFeedback
玩人工智能的辣条哥
·
2025-03-25 00:15
人工智能
人工智能
深度学习
机器学习
当细致剪裁遇上大语言模型:从数据匹配到卓越性能的奇幻之旅
我们将透过一篇最新的研究《TheBestInstruction-TuningDataareThoseThatFit》,探索如何通过选择与目标模型分布高度契合的数据来优化监督式微调(
SFT
)的效果,以及这一方法如何
步子哥
·
2025-03-24 18:24
AGI通用人工智能
语言模型
人工智能
自然语言处理
MiniMind:完全从 0 训练自己的大模型
是B站UP主近在远方的远开源的一个微型语言模型,改进自DeepSeek-V2、Llama3结构,项目包含整个数据处理、pretrain、
sft
、dpo的全部阶段,包含混合专家(MoE)模型。
三花AI
·
2025-03-22 15:49
三花AI
人工智能
LLM大模型
MiniMind
SFT
数据:
SFT
(SupervisedFine-Tuning)数据集,用于监督式微调,可以提高模型在特定任务上的性能。DPO数据1和DPO数据2:这两个数
亚伯拉罕·黄肯
·
2025-03-22 14:46
大模型
人工智能
DeepSpeed-Chat:Reward Model【奖励模型】
第二阶段:奖励模型微调奖励模型(RM)微调类似于第一阶段有监督微调(
SFT
)。
u013250861
·
2025-03-22 13:31
#
LLM/训练
RL/强化学习
排序
强化学习
Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战
=2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_
sft
_Chinese
LuckyAnJo
·
2025-03-22 08:47
LLM相关
llama
python
自然语言处理
人工智能
【大模型系列】
SFT
(Supervised Fine-Tuning,监督微调)
欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
Kwan的解忧杂货铺@新空间代码工作室
·
2025-03-22 02:20
s2
AIGC
大模型
10篇R1相关的研究全面汇总,万字思考!
•Base+
SFT
•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas
·
2025-03-21 07:28
datawhale
【面试经验】华为 AI软开 计算产品线(面经+时间线)
09.27,三面09.29(本来是09.19线下二三面,但由于本人有事推迟)三.一面(50min)自我介绍简单介绍一下传统知识图谱建设和大模型对于知识的构建的差异和整体的趋势聊聊实习经历中的提示工程和
sft
litterfinger
·
2025-03-17 14:56
面试
华为
人工智能
LLaMA-Factory 训练数据默认使用 instruction、input、output 三个 key
在LLaMA-Factory进行
SFT
(Directivesupervisionfine-tuning指令监督微调)时,训练数据的格式非常重要,因为大模型依赖标准化的数据结构来学习指令-响应模式。
背太阳的牧羊人
·
2025-03-16 08:43
模型微调
llama
人工智能
大模型微调
大语言模型(LLM)的微调与应用
需通过有监督微调(
SFT
)或低秩适配(LoRA)等技术优化模型权重。
AI Echoes
·
2025-03-13 03:50
语言模型
人工智能
自然语言处理
InternVL:论文阅读 -- 多模态大模型(视觉语言模型)
3)训练策略(1)第一阶段:视觉-语言对比训练(2)第二阶段:视觉语言生成训练(3)第三阶段:监督微调(
SFT
)3.InternVL应用1)对于视觉感知任务2)对于对比任务3)对于生成任务4)对于
XiaoJ1234567
·
2025-03-12 23:20
LLM
论文阅读
语言模型
人工智能
多模态大模型
internVL
大模型RAG入门到实战基础教程(非常详细),大模型RAG入门到精通,收藏这一篇就够了!
相对于成本昂贵的“PostTrain”或“
SFT
”,基于RAG的技术方案往成为一种更优选择。本文从RAG架构入手,详细介绍相关技术细节,并附上一份实践案例。
AI程序猿人
·
2025-03-08 18:56
人工智能
AI大模型
AI
RAG
LLM
大语言模型
大模型入门
GRPO为什么促使MLLM在部分垂域比
SFT
更好的表现
SolveVisualUnderstandingwithReinforcedVLMs最近做毕设,看到VLM-R1项目,一个有趣的现象:在Grounding任务中,GRPO训练的模型不仅展现出更稳定的训练曲线,其域外泛化能力更是远超传统
SFT
朱韬韬
·
2025-03-08 16:40
github
GRPO
SFT
llama-factory生成Meta-Llama-3-8B-Instruct模型api服务
需要开启其api服务进行调用,参考官方https://github.com/hiyouga/LLaMA-Factory/blob/main/examples/inference/llama3_lora_
sft
.yaml
码不动了鸭
·
2025-03-08 00:19
llama
人工智能
transformer
Win11安装VMware和Ubuntu并使用ssh访问部署模型
/vmw-desktop/wsUbuntu:Ubuntu22.04.5LTS(JammyJellyfish)ssh&sftp:DownloadPuTTY:latestrelease(0.83)ssh&
sft
music&movie
·
2025-03-06 12:20
工具
os
ubuntu
ssh
linux
SFT
与RLHF的关系
在大模型训练中,
SFT
(监督微调)和RLHF(基于人类反馈的强化学习)是相互关联但目标不同的两个阶段,通常需要结合使用以优化模型性能,而非互相替代。
一只积极向上的小咸鱼
·
2025-03-04 11:12
人工智能
DeepSeek-R1:通过强化学习激励大型语言模型的推理能力
DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练而成的模型,无需监督微调(
SFT
)作为初步步骤,展示了卓越的推理能力。
AI专题精讲
·
2025-03-03 22:05
大模型专题系列
语言模型
人工智能
自然语言处理
基于DeepSeek 的图生文最新算法 VLM-R1
具体来说,对于引用表达式理解(REC)的任务,我们使用R1和
SFT
方法训练了Qwen2.5-VL。结果表明,在域内测试数据
AI算法网奇
·
2025-03-03 18:02
深度学习宝典
大模型
人工智能
计算机视觉
模型优化之强化学习(RL)与监督微调(
SFT
)的区别和联系
强化学习(RL)与监督微调(
SFT
)是机器学习中两种重要的模型优化方法,它们在目标、数据依赖、应用场景及实现方式上既有联系又有区别。
搏博
·
2025-03-02 10:08
深度学习
人工智能
机器学习
架构
transformer
深入解析 DeepSeek R1:强化学习如何驱动大模型推理能力的进化
引言在AI竞赛日益激烈的时代,DeepSeek-AI推出了DeepSeekR1,试图以强化学习(RL)直接训练推理能力,而非仅依赖传统的监督微调(
SFT
)。
海棠AI实验室
·
2025-02-26 23:07
智元启示录
人工智能
deep
learning
DeepSeek-R1
DeepSeek 和 Qwen 模型快速部署指南
DeepSeek-V3DeepSeek-R1模型大小总参数量6710亿(671B),MoE架构,每个token激活370亿参数总参数量与V3相当,基于DeepSeek-V3-Base,采用类似的MoE架构训练方法包含预训练、监督微调(
SFT
moton2017
·
2025-02-24 18:47
深度学习
运维
模型部署
DeepSeek
Qwen
大型语言模型
LLM
人工智能
AI
大语言模型训练数据集格式
1.
SFT
(有监督微调)的数据集格式对于大语言模型的训练中,
SFT
(SupervisedFine-Tuning)的数据集格式可以采用以下方式:输入数据:输入数据是一个文本序列,通常是一个句子或者一个段落
香菜烤面包
·
2025-02-23 16:13
#
AI
大模型
语言模型
人工智能
深度学习
大模型训练 && 微调数据格式
1.
SFT
(有监督微调)的数据集格式?
comli_cn
·
2025-02-23 16:43
大模型笔记
人工智能
大模型
deepseek和ChatGPT 4o比较
后训练+RL/RLHFDeepSeekR1等推理模型是在通用模型的基础上进行“特训”(后训练+
SFT
/RL/RLHF),使其不仅知道得多还用得好
调皮的芋头
·
2025-02-19 02:46
chatgpt
人工智能
SFT
(监督微调)和RLHF(基于人类反馈的强化学习)的区别
SFT
(监督微调)和RLHF(基于人类反馈的强化学习)的区别STF(SupervisedFine-Tuning)和RLHF(ReinforcementLearningfromHumanFeedback)
钟小宇
·
2025-02-18 18:11
LLM
人工智能
语言模型
大语言模型常用微调与基于
SFT
微调DeepSeek R1指南
在大型语言模型(LLM)的微调中,有几种常见的方法,包括
SFT
(监督微调)、LoRA(低秩适应)、P-tuningv2和**Fre
知来者逆
·
2025-02-16 16:08
LLM
深度学习
人工智能
自然语言处理
DeepSeek
SFT
微调
【必看】凭啥?DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能
其核心策略包括减少监督微调(
SFT
)步骤,仅依赖强化学习(RL)技术。DeepSeek-R1-Zero版本完全跳过
SFT
,仅通过RL进行训练。
大F的智能小课
·
2025-02-13 21:51
人工智能
算法
【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团(附面题)
目录【NLP百面百过】大模型算法高频面题(全面整理ʘ‿ʘ)一、大模型(LLMs)基础面大模型(LLMs)架构篇注意力机制(Attention)篇Transformer理论篇二、大模型微调面有监督微调(
SFT
青松ᵃⁱ
·
2025-02-11 13:37
NLP
百面百过
AI面试
NLP面试
算法面试
人工智能
RLHF代码解读
参考资料参考资料代码RLHF训练流程
SFT
将人类打好标签的数据输入到一个预训练的模型,进行languagemodeling。
木木木马马
·
2025-02-11 00:25
大模型学习
语言模型
基于 llama-Factory 动手实践 Llama 全参数
SFT
和 LoRA
SFT
一、llama-Factory:你的Llama模型
SFT
工厂llama-Factory是一个开源的、用户友好的工具,专门用于对Llama系列模型进行微调。
kakaZhui
·
2025-02-09 12:36
llama
AIGC
chatgpt
深度学习
DeepSeek模型与OpenAI模型原理和技术架构的异同分析
DeepSeek模型与OpenAI模型原理和技术架构的异同分析一、模型原理(一)DeepSeekR1DeepSeekR1的核心原理是基于强化学习(RL)的训练方式,其创新之处在于不依赖任何监督微调(
SFT
程序猿000001号
·
2025-02-08 04:10
DeepSeek
大模型
基于 DeepSeek-R1 模型微调(
SFT
)技术详解
大模型时代与微调的重要性1.2本文目的与结构概述DeepSeek-R1模型基础2.1模型简介2.1.1模型架构2.1.2预训练数据与目标2.2模型特点与优势2.2.1语言理解与生成能力2.2.2计算效率与扩展性微调(
SFT
zhangjiaofa
·
2025-02-07 10:43
大模型
DeepSeek-R1
SFT
模型微调
[论文笔记] Deepseek技术报告
1.总体概述背景与目标报告聚焦于利用强化学习(RL)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督微调(
SFT
)的情况下,模型如何自我进化并形成强大的推理能力。
心心喵
·
2025-02-06 22:53
论文笔记
论文阅读
人工智能
【大模型LLM面试合集】训练数据_数据格式
数据格式1.
SFT
(有监督微调)的数据集格式?
X.AI666
·
2025-02-06 18:28
人工智能
big
data
AI大模型学习的七个阶段,学完你就是大模型大师!
预训练、
SFT
、RLHF。第三阶段:编程基础与工具使用目标:掌握大
AGI大模型老王
·
2025-02-04 19:48
人工智能
学习
大模型
大模型学习
AI大模型
RAG
大模型教程
DeepSeek R1 AI 论文翻译
DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,且在此过程中未使用监督微调(
SFT
)作为预处理步骤,展现出了显著的推理能力。
·
2025-02-04 14:27
后端java
DeepSeek- R1 原理介绍
DeepSeek公司推出的一款基于强化学习(RL)的开源推理模型,其核心原理和特点如下:1.核心技术与架构强化学习驱动:DeepSeek-R1是首个完全通过强化学习训练的大型语言模型,无需依赖监督微调(
SFT
kcarly
·
2025-02-04 08:50
大模型知识乱炖
杂谈
DeepSeek
R1
原理介绍
DeepSeek R1 AI 论文翻译
DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,且在此过程中未使用监督微调(
SFT
)作为预处理步骤,展现出了显著的推理能力。
老马啸西风
·
2025-02-04 06:04
java
DeepSeek R1 AI 论文翻译
DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,且在此过程中未使用监督微调(
SFT
)作为预处理步骤,展现出了显著的推理能力。
·
2025-02-03 20:09
后端java
周报 | 25.1.27-25.2.2文章汇总
周报|25.1.20-25.1.26文章汇总-CSDN博客机器学习AI算法工程|DeepSeekV3两周使用总结-CSDN博客Datawhale|一文详尽之
SFT
(监督微调,建议收藏)!
双木的木
·
2025-02-03 12:11
深度学习拓展阅读
python拓展学习
人工智能
transformer
算法
深度学习
YOLO
chatgpt
llama
kimi o1和deepseek o1对比,非常直观!
目前各家用的方案看起来更像是
sft
+rl的加强版,把推理过程内含进生成,而不是用结构去引导生成。两家效果看报告比较接近,个
AI生成曾小健
·
2025-02-03 02:46
LLM大语言模型
人工智能
Deepseek两项关键发现:无需人类专家介入
SFT
、有自己
DeepseekR1-Zero关键两项发现:无需人类专家、有自己专业领域语言DSL,也就是没有
SFT
,有自己DSL!
极道Jdon
·
2025-01-31 08:13
javascript
reactjs
Llama 3:开源大模型的里程碑式突破
标题:Llama3:开源大模型的里程碑式突破文章信息摘要:Meta通过Llama3展现了开源LLM的重大突破:采用超大规模训练数据和多阶段训练方法(
SFT
、rejectionsampling、PPO和DPO
XianxinMao
·
2025-01-30 08:50
llama
开源
DeepSeek V3 模型微调(
SFT
)技术详解
DeepSeekV3模型微调(
SFT
)技术详解目录引言背景知识2.1深度学习与预训练模型2.2微调(Fine-tuning)的概念2.3监督微调(SupervisedFine-tuning,
SFT
)DeepSeekV3
zhangjiaofa
·
2025-01-30 00:28
大模型
DeepSeek
模型微调
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他