E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SFT
如何从零开始训练一个大模型,文案解析。
✅大模型微调常见流程图(逻辑顺序)预训练(Pretraining)↓指令微调
SFT
(SupervisedFine-tuning)↓偏好数据准备(人类偏好标注或对比)↓┌─────────────┬───
要努力啊啊啊
·
2025-04-13 13:31
大模型中的技术名词解析
算法
人工智能
理解大模型论文中的名词部分
模型技术报告中的名词部分进行介绍1.预训练•目标:从海量无标注文本中学语言能力(通常一次性训练大模型)•特点:训练耗时、成本高,但是基础中的基础•是否自己做:一般使用开源预训练模型,无需重复训练2.指令监督微调(
SFT
要努力啊啊啊
·
2025-04-13 13:30
大模型中的技术名词解析
人工智能
机器学习
深度学习
领域专用对话大模型深度适配方案
1.1架构创新点特性LLaMA-1LLaMA-2-13B上下文窗口2048tokens4096tokens训练数据量1.4Ttokens2.0Ttokens(含40%新数据)安全对齐机制基础RLHF迭代式
SFT
Sirius Wu
·
2025-04-12 18:28
人工智能
深度学习
引领对话智能新纪元:Gemma-
SFT
深度学习模型详解与应用探索
引领对话智能新纪元:Gemma-
SFT
深度学习模型详解与应用探索gemma-
sft
项目地址:https://gitcode.com/gh_mirrors/ge/gemma-
sft
在这个对话式AI迅速崛起的时代
史姿若Muriel
·
2025-04-11 13:44
python的ssh模块_Python学习—paramiko模块实现简单的ssh与sftp
paramiko模块paramiko模块提供了ssh及
sft
进行远程登录服务器执行命令和上传下载文件的功能。这是一个第三方的软件包,使用之前需要安装。
weixin_39928102
·
2025-04-10 03:04
python的ssh模块
B站实战项目
search-card.all.click&vd_source=d303d97016e5723b9ae487b59d8329db一、简介本期视频主要分为以下五部分:1.需求和技术企业对于大模型的不同类型个性化需求
SFT
Mia@
·
2025-04-08 22:57
llm
AI安全算法工程师的算法笔记
如果你正在关注大模型最新技术,或者想深入了解AI安全研究与工程实践,强烈推荐你关注这个微信公众号AI安全这点事由AI安全方向的一线技术从业者主理,长期聚焦在两个关键方向:大模型前沿技术最新开源大模型拆解与能力分析
SFT
AI安全这点事
·
2025-04-06 09:25
人工智能
安全
笔记
解码 Llama 3
SFT
:Templates、Special Tokens 及其在微调中的作用
写在前面在进行
SFT
,尤其是对话微调时,有两个核心概念是绕不开的:对话模板(ChatTemplates)和特殊标记(SpecialTokens)。
kakaZhui
·
2025-04-02 19:54
llama
自然语言处理
人工智能
AIGC
chatgpt
多轮对话
NLP高频面试题(二十七)——
SFT
有哪几种参数微调方法?有什么优缺点?
本文将梳理
SFT
中常用的几种参数微调方法及各自的优缺点。一、
SFT
中的参数微调方法常见的参数微调方法主要分为两类:全参微调和PEFT方法。
Chaos_Wang_
·
2025-04-02 05:22
NLP常见面试题
自然语言处理
人工智能
RLHF微调大模型---PPO原理和代码实战
中文含义是:基于人类反馈的强化学习,用奖励模型RewardModel来训练
SFT
模型;生成模型使用奖励或惩罚来更新其策略,以
韭菜盖饭
·
2025-03-31 06:13
大模型
大模型微调
RLHF
人工智能
大模型
10篇R1相关的研究全面汇总,万字思考!
•Base+
SFT
•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas
·
2025-03-30 08:19
datawhale
大模型智能体(Agent)优化技术全景解读:从理论到实践
目录Agent优化技术分类框架两大优化范式对比技术演进路线图参数驱动优化方法详解监督微调(
SFT
)技术体系高质量轨迹数据构建微调策略创新强化学习优化路径奖励函数设计原则偏好对齐技术对比参数无关优化技术剖析
鸿蒙布道师
·
2025-03-28 12:07
人工智能
人工智能
算法
linux
计算机视觉
自然语言处理
语言模型
机器学习
deepseek(1)——deepseek 整体架构
通用模型,用于常见日常问题推理模型deepseek-r1,671B,推理模型,擅长处理复杂、需要多步思考的问题,适合做深度研究、解决代码/数学问题DeepSeek-R1是首个验证了仅通过RL(强化学习)无需
SFT
哦豁灬
·
2025-03-27 20:14
学习笔记
深度学习
大模型
deepseek
LLM
大模型
LLM实践(二)——基于llama-factory的模型微调
目录
SFT
的lora微调1、环境部署2、准备数据与配置3、创建微调配置文件:yaml配置文件4、Lora微调:基于lora微调的yaml配置文件启动lora微调5、启动模型:基于llama-factory
lucky_chaichai
·
2025-03-27 09:44
llama
chrome
前端
SFT
和RLHF是什么意思?
环境:SFTRLHF问题描述:
SFT
和RLHF是什么意思解决方案:
SFT
(SupervisedFine-Tuning,监督微调)和RLHF(ReinforcementLearningfromHumanFeedback
玩人工智能的辣条哥
·
2025-03-25 00:15
人工智能
人工智能
深度学习
机器学习
当细致剪裁遇上大语言模型:从数据匹配到卓越性能的奇幻之旅
我们将透过一篇最新的研究《TheBestInstruction-TuningDataareThoseThatFit》,探索如何通过选择与目标模型分布高度契合的数据来优化监督式微调(
SFT
)的效果,以及这一方法如何
步子哥
·
2025-03-24 18:24
AGI通用人工智能
语言模型
人工智能
自然语言处理
MiniMind:完全从 0 训练自己的大模型
是B站UP主近在远方的远开源的一个微型语言模型,改进自DeepSeek-V2、Llama3结构,项目包含整个数据处理、pretrain、
sft
、dpo的全部阶段,包含混合专家(MoE)模型。
三花AI
·
2025-03-22 15:49
三花AI
人工智能
LLM大模型
MiniMind
SFT
数据:
SFT
(SupervisedFine-Tuning)数据集,用于监督式微调,可以提高模型在特定任务上的性能。DPO数据1和DPO数据2:这两个数
亚伯拉罕·黄肯
·
2025-03-22 14:46
大模型
人工智能
DeepSpeed-Chat:Reward Model【奖励模型】
第二阶段:奖励模型微调奖励模型(RM)微调类似于第一阶段有监督微调(
SFT
)。
u013250861
·
2025-03-22 13:31
#
LLM/训练
RL/强化学习
排序
强化学习
Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战
=2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_
sft
_Chinese
LuckyAnJo
·
2025-03-22 08:47
LLM相关
llama
python
自然语言处理
人工智能
【大模型系列】
SFT
(Supervised Fine-Tuning,监督微调)
欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
Kwan的解忧杂货铺@新空间代码工作室
·
2025-03-22 02:20
s2
AIGC
大模型
10篇R1相关的研究全面汇总,万字思考!
•Base+
SFT
•R1冷启动•LIMO(817DataSelection)•s1(1000)•Bas
·
2025-03-21 07:28
datawhale
【面试经验】华为 AI软开 计算产品线(面经+时间线)
09.27,三面09.29(本来是09.19线下二三面,但由于本人有事推迟)三.一面(50min)自我介绍简单介绍一下传统知识图谱建设和大模型对于知识的构建的差异和整体的趋势聊聊实习经历中的提示工程和
sft
litterfinger
·
2025-03-17 14:56
面试
华为
人工智能
LLaMA-Factory 训练数据默认使用 instruction、input、output 三个 key
在LLaMA-Factory进行
SFT
(Directivesupervisionfine-tuning指令监督微调)时,训练数据的格式非常重要,因为大模型依赖标准化的数据结构来学习指令-响应模式。
背太阳的牧羊人
·
2025-03-16 08:43
模型微调
llama
人工智能
大模型微调
大语言模型(LLM)的微调与应用
需通过有监督微调(
SFT
)或低秩适配(LoRA)等技术优化模型权重。
AI Echoes
·
2025-03-13 03:50
语言模型
人工智能
自然语言处理
InternVL:论文阅读 -- 多模态大模型(视觉语言模型)
3)训练策略(1)第一阶段:视觉-语言对比训练(2)第二阶段:视觉语言生成训练(3)第三阶段:监督微调(
SFT
)3.InternVL应用1)对于视觉感知任务2)对于对比任务3)对于生成任务4)对于
XiaoJ1234567
·
2025-03-12 23:20
LLM
论文阅读
语言模型
人工智能
多模态大模型
internVL
大模型RAG入门到实战基础教程(非常详细),大模型RAG入门到精通,收藏这一篇就够了!
相对于成本昂贵的“PostTrain”或“
SFT
”,基于RAG的技术方案往成为一种更优选择。本文从RAG架构入手,详细介绍相关技术细节,并附上一份实践案例。
AI程序猿人
·
2025-03-08 18:56
人工智能
AI大模型
AI
RAG
LLM
大语言模型
大模型入门
GRPO为什么促使MLLM在部分垂域比
SFT
更好的表现
SolveVisualUnderstandingwithReinforcedVLMs最近做毕设,看到VLM-R1项目,一个有趣的现象:在Grounding任务中,GRPO训练的模型不仅展现出更稳定的训练曲线,其域外泛化能力更是远超传统
SFT
朱韬韬
·
2025-03-08 16:40
github
GRPO
SFT
llama-factory生成Meta-Llama-3-8B-Instruct模型api服务
需要开启其api服务进行调用,参考官方https://github.com/hiyouga/LLaMA-Factory/blob/main/examples/inference/llama3_lora_
sft
.yaml
码不动了鸭
·
2025-03-08 00:19
llama
人工智能
transformer
Win11安装VMware和Ubuntu并使用ssh访问部署模型
/vmw-desktop/wsUbuntu:Ubuntu22.04.5LTS(JammyJellyfish)ssh&sftp:DownloadPuTTY:latestrelease(0.83)ssh&
sft
music&movie
·
2025-03-06 12:20
工具
os
ubuntu
ssh
linux
SFT
与RLHF的关系
在大模型训练中,
SFT
(监督微调)和RLHF(基于人类反馈的强化学习)是相互关联但目标不同的两个阶段,通常需要结合使用以优化模型性能,而非互相替代。
一只积极向上的小咸鱼
·
2025-03-04 11:12
人工智能
DeepSeek-R1:通过强化学习激励大型语言模型的推理能力
DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练而成的模型,无需监督微调(
SFT
)作为初步步骤,展示了卓越的推理能力。
AI专题精讲
·
2025-03-03 22:05
大模型专题系列
语言模型
人工智能
自然语言处理
基于DeepSeek 的图生文最新算法 VLM-R1
具体来说,对于引用表达式理解(REC)的任务,我们使用R1和
SFT
方法训练了Qwen2.5-VL。结果表明,在域内测试数据
AI算法网奇
·
2025-03-03 18:02
深度学习宝典
大模型
人工智能
计算机视觉
模型优化之强化学习(RL)与监督微调(
SFT
)的区别和联系
强化学习(RL)与监督微调(
SFT
)是机器学习中两种重要的模型优化方法,它们在目标、数据依赖、应用场景及实现方式上既有联系又有区别。
搏博
·
2025-03-02 10:08
深度学习
人工智能
机器学习
架构
transformer
深入解析 DeepSeek R1:强化学习如何驱动大模型推理能力的进化
引言在AI竞赛日益激烈的时代,DeepSeek-AI推出了DeepSeekR1,试图以强化学习(RL)直接训练推理能力,而非仅依赖传统的监督微调(
SFT
)。
海棠AI实验室
·
2025-02-26 23:07
智元启示录
人工智能
deep
learning
DeepSeek-R1
DeepSeek 和 Qwen 模型快速部署指南
DeepSeek-V3DeepSeek-R1模型大小总参数量6710亿(671B),MoE架构,每个token激活370亿参数总参数量与V3相当,基于DeepSeek-V3-Base,采用类似的MoE架构训练方法包含预训练、监督微调(
SFT
moton2017
·
2025-02-24 18:47
深度学习
运维
模型部署
DeepSeek
Qwen
大型语言模型
LLM
人工智能
AI
大语言模型训练数据集格式
1.
SFT
(有监督微调)的数据集格式对于大语言模型的训练中,
SFT
(SupervisedFine-Tuning)的数据集格式可以采用以下方式:输入数据:输入数据是一个文本序列,通常是一个句子或者一个段落
香菜烤面包
·
2025-02-23 16:13
#
AI
大模型
语言模型
人工智能
深度学习
大模型训练 && 微调数据格式
1.
SFT
(有监督微调)的数据集格式?
comli_cn
·
2025-02-23 16:43
大模型笔记
人工智能
大模型
deepseek和ChatGPT 4o比较
后训练+RL/RLHFDeepSeekR1等推理模型是在通用模型的基础上进行“特训”(后训练+
SFT
/RL/RLHF),使其不仅知道得多还用得好
调皮的芋头
·
2025-02-19 02:46
chatgpt
人工智能
SFT
(监督微调)和RLHF(基于人类反馈的强化学习)的区别
SFT
(监督微调)和RLHF(基于人类反馈的强化学习)的区别STF(SupervisedFine-Tuning)和RLHF(ReinforcementLearningfromHumanFeedback)
钟小宇
·
2025-02-18 18:11
LLM
人工智能
语言模型
大语言模型常用微调与基于
SFT
微调DeepSeek R1指南
在大型语言模型(LLM)的微调中,有几种常见的方法,包括
SFT
(监督微调)、LoRA(低秩适应)、P-tuningv2和**Fre
知来者逆
·
2025-02-16 16:08
LLM
深度学习
人工智能
自然语言处理
DeepSeek
SFT
微调
【必看】凭啥?DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能
其核心策略包括减少监督微调(
SFT
)步骤,仅依赖强化学习(RL)技术。DeepSeek-R1-Zero版本完全跳过
SFT
,仅通过RL进行训练。
大F的智能小课
·
2025-02-13 21:51
人工智能
算法
【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团(附面题)
目录【NLP百面百过】大模型算法高频面题(全面整理ʘ‿ʘ)一、大模型(LLMs)基础面大模型(LLMs)架构篇注意力机制(Attention)篇Transformer理论篇二、大模型微调面有监督微调(
SFT
青松ᵃⁱ
·
2025-02-11 13:37
NLP
百面百过
AI面试
NLP面试
算法面试
人工智能
RLHF代码解读
参考资料参考资料代码RLHF训练流程
SFT
将人类打好标签的数据输入到一个预训练的模型,进行languagemodeling。
木木木马马
·
2025-02-11 00:25
大模型学习
语言模型
基于 llama-Factory 动手实践 Llama 全参数
SFT
和 LoRA
SFT
一、llama-Factory:你的Llama模型
SFT
工厂llama-Factory是一个开源的、用户友好的工具,专门用于对Llama系列模型进行微调。
kakaZhui
·
2025-02-09 12:36
llama
AIGC
chatgpt
深度学习
DeepSeek模型与OpenAI模型原理和技术架构的异同分析
DeepSeek模型与OpenAI模型原理和技术架构的异同分析一、模型原理(一)DeepSeekR1DeepSeekR1的核心原理是基于强化学习(RL)的训练方式,其创新之处在于不依赖任何监督微调(
SFT
程序猿000001号
·
2025-02-08 04:10
DeepSeek
大模型
基于 DeepSeek-R1 模型微调(
SFT
)技术详解
大模型时代与微调的重要性1.2本文目的与结构概述DeepSeek-R1模型基础2.1模型简介2.1.1模型架构2.1.2预训练数据与目标2.2模型特点与优势2.2.1语言理解与生成能力2.2.2计算效率与扩展性微调(
SFT
zhangjiaofa
·
2025-02-07 10:43
大模型
DeepSeek-R1
SFT
模型微调
[论文笔记] Deepseek技术报告
1.总体概述背景与目标报告聚焦于利用强化学习(RL)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督微调(
SFT
)的情况下,模型如何自我进化并形成强大的推理能力。
心心喵
·
2025-02-06 22:53
论文笔记
论文阅读
人工智能
【大模型LLM面试合集】训练数据_数据格式
数据格式1.
SFT
(有监督微调)的数据集格式?
X.AI666
·
2025-02-06 18:28
人工智能
big
data
AI大模型学习的七个阶段,学完你就是大模型大师!
预训练、
SFT
、RLHF。第三阶段:编程基础与工具使用目标:掌握大
AGI大模型老王
·
2025-02-04 19:48
人工智能
学习
大模型
大模型学习
AI大模型
RAG
大模型教程
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他