BERT微调

保姆级大模型学习路线！清华博士耗时半年整理的14个核心阶段，文科生也能跟着冲！（附论文笔记+项目源码+训练技巧）

2023行业调查报告显示：92%学习者停滞在微调阶段，核心痛点集中在：论文看不懂：Transformer源码像天书环境配不好：CUDA版本冲突天天报错算力不够用：

大模型入门教程·2025-03-25 01:17

SFT和RLHF是什么意思？

环境：SFTRLHF问题描述：SFT和RLHF是什么意思解决方案：SFT（SupervisedFine-Tuning，监督微调）和RLHF（ReinforcementLearningfromHumanFeedback

玩人工智能的辣条哥·2025-03-25 00:15

基于Hugging Face的Transformer实战

HuggingFace生态提供：30,000+预训练模型（BERT、GPT、T5等）统一的TransformerAPI接口快速实现下游任务迁移企业级部署工具（Optimum、InferenceEndpoints

小诸葛IT课堂·2025-03-24 23:03

大模型微调方法之Delta-tuning

大模型微调方法之Delta-tuning大模型微调方法自从23年之后可谓是百花齐放，浙大有团队在8月将关于大模型微调方法的综述上传了ArXiv。论文将微调方法总结为等几个类别。

空白II·2025-03-24 20:09

大模型的应用与微调：如何调用 LLM？从 OpenAI API 到本地部署

本篇文章将详细介绍如何调用大语言模型（LLM），涵盖OpenAIAPI、DeepSeek、Manus、通义千问等模型的调用方式，并探讨如何在本地部署LLM进行推理。1.调用OpenAIAPI（GPT系列）OpenAI提供了RESTfulAPI供开发者调用GPT系列模型。示例：使用Python调用OpenAIAPIimportopenaiopenai.api_key="your_api_key"re

晴天彩虹雨·2025-03-24 19:02

当细致剪裁遇上大语言模型：从数据匹配到卓越性能的奇幻之旅

步子哥·2025-03-24 18:24

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型(如早期GPT系列)双向模型(如BERT

m0_74825656·2025-03-24 11:01

squirrel语言全面介绍

Squirrel是一种较新的程序设计语言，由意大利人AlbertoDemichelis开发，其设计目标是成为一个强大的脚本工具，适用于游戏等对大小、内存带宽和实时性有要求的应用程序。

C++ 老炮儿的技术栈·2025-03-24 06:14

使用 Baseten 部署和运行机器学习模型的指南

无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同

shuoac·2025-03-24 03:17

《AI医疗系统开发实战录》第6期——智能导诊系统实战

技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod

骆驼_代码狂魔·2025-03-24 02:30

AI大模型训练教程

1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。

Small踢倒coffee_氕氘氚·2025-03-23 12:07

大语言模型微调和大语言模型应用的区别？

大语言模型微调和大语言模型应用的区别？关键要点微调大型语言模型（LLM）是调整预训练模型以适应特定任务或领域的过程，研究表明这能显著提升性能。

AI Echoes·2025-03-23 11:30

客服机器人怎么才能精准的回答用户问题？

意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对

玩人工智能的辣条哥·2025-03-23 09:13

一文说清预训练与微调：AI的双重训练法则

什么是预训练？预训练是大型语言模型训练的第一步。它在资金和计算能力的支持下，通过深入分析大量的文本数据，使模型建立起语言的基本构架。在这一阶段，模型通过学习海量的书籍、文章和网页，识别出语言的语法、句法和词汇规律。这就如同一名学生接受通识教育，他并没有专注于某一门学科，而是获取了多方面的知识。自回归语言建模和掩码语言建模是预训练中常见的两种方法。前者在逐步构建文本的连贯性时，通过预测下一单词的方式

TGITCIC·2025-03-23 07:02

Python预训练模型实现俄语音频转文字

Python预训练模型实现俄语音频转文字使用CommonVoice8.0、Golos和MultilingualTEDx的训练和验证分割对俄语的facebook/wav2vec2-xls-r-1b进行了微调

啥都鼓捣的小yao·2025-03-23 05:03

NLP高频面试题（七）——GPT和Bert的mask有什么区别？

GPT和BERT的Mask机制对比：核心区别与优化策略在NLP领域，GPT和BERT是最具代表性的预训练语言模型之一。

Chaos_Wang_·2025-03-23 02:35

知识图谱中NLP新技术

以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入

魔王阿卡纳兹·2025-03-23 02:34

基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践

代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行

weixin_贾·2025-03-22 20:59

一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！

前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。

小城哇哇·2025-03-22 20:26

LLM-Agent方法评估与效果分析

1.引言近年来，随着大型语言模型（LLM）的快速发展，基于强化学习（RL）对LLM进行微调以使其具备代理（Agent）能力成为研究热点。

·2025-03-22 18:50

llama-factory 微调 Qwen2.5-3B-Instruct

0、资源链接官方readme:https://github.com/hiyouga/LLaMA-Factory/blob/v0.9.1/README_zh.md官方文档:https://llamafactory.readthedocs.io/zh-cn/latest/官方推荐的知乎教程：https://zhuanlan.zhihu.com/p/6952876071、安装LLaMAFactorygi

coco_1998_2·2025-03-22 14:16

MiniMind

SFT数据：SFT（SupervisedFine-Tuning）数据集，用于监督式微调，可以提高模型在特定任务上的性能。DPO数据1和DPO数据2：这两个数

亚伯拉罕·黄肯·2025-03-22 14:46

DeepSpeed-Chat：Reward Model【奖励模型】

第二阶段：奖励模型微调奖励模型(RM)微调类似于第一阶段有监督微调(SFT)。

u013250861·2025-03-22 13:31

【大模型书籍PDF】从零开始大模型开发与微调：基于PyTorch与ChatGLM （推荐）_从零开始大模型开发与微调 pdf

本书使用PyTorch2.0作为学习大模型的基本框架，以ChatGLM为例详细讲解大模型的基本理论、算法、程序实现、应用实战以及微调技术，为读者揭示大模型开发技术。本书配套示例源代码、PPT课件。

喝不喝奶茶丫·2025-03-22 10:06

Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战

内容参考至博客与Bin_Nong1.环境搭建主要依赖的库(我的版本)：torch==2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_sft_Chinese经过gpt-o1的包含cot(思考过程)的中文医疗问答数据，格式与内容如下:"Question"

LuckyAnJo·2025-03-22 08:47

大模型最新面试题系列：微调篇之微调基础知识

一、全参数微调（Full-Finetune）vs参数高效微调（PEFT）对比1.显存使用差异全参数微调：需存储所有参数的梯度（如GPT-3175B模型全量微调需约2.3TB显存）PEFT：以LoRA为例

人肉推土机·2025-03-22 05:42

【大模型系列】SFT（Supervised Fine-Tuning，监督微调）

欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,

Kwan的解忧杂货铺@新空间代码工作室·2025-03-22 02:20

DeepSeek-R1大模型微调技术深度解析：架构、方法与应用全解析

1.DeepSeek-R1大模型架构设计与技术特性1.1架构设计DeepSeek-R1作为超大规模语言模型，其核心架构设计包含以下创新：专家混合架构（MoE）采用6710亿参数的混合专家架构（MoE），每个推理过程仅激活370亿参数，实现计算效率与资源利用率的突破性提升。Transformer框架增强基于改进型Transformer架构，结合多头注意力机制（MLA）与动态权重分配技术，优化了长程依

大势下的牛马·2025-03-22 00:58

一、大语言模型微调 vs. 大语言模型应用

一、大语言模型微调vs.大语言模型应用1.微调（Fine-Tuning）的含义与特点定义与作用微调指在预训练好（通用）的基础模型上，通过在特定领域或任务的数据集上进一步训练来调整模型参数，使其在该领域任务中获得更优表现

AI Echoes·2025-03-21 13:54

【新品发售】NVIDIA 发布全球最小个人 AI 超级计算机 DGX Spark

DGXSpark(前身为ProjectDIGITS)支持AI开发者、研究人员、数据科学家和学生，在台式电脑上对大模型进行原型设计、微调和推理。

·2025-03-21 12:09

《深度剖析：BERT与GPT——自然语言处理架构的璀璨双星》

在自然语言处理（NLP）的广袤星空中，BERT（BidirectionalEncoderRepresentationsfromTransformers）与GPT（GenerativePretrainedTransformer

·2025-03-21 12:07

Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！）

HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。

y江江江江·2025-03-21 10:31

如何评估大语言模型生成文本的质量？

1.评估指标概览自动评估指标（AutomaticMetrics）人工评估方法（HumanEvaluation）2.自动评估方法示例（1）计算BLEU分数（2）计算ROUGE分数（3）计算BERTScore

gs80140·2025-03-21 08:42

【BERT和GPT的区别】

BERT采用完形填空（MaskedLanguageModeling,MLM）与GPT采用自回归生成（AutoregressiveGeneration）的差异，本质源于两者对语言建模的不同哲学导向与技术目标的根本分歧

调皮的芋头·2025-03-21 05:17

NLU-预训练模型-2018：Bert（二）【“Masked LM”缺点：①预训练与微调不一致；②忽略了掩码位置间的依赖关系】【复杂度：O(n^2·d)；n：输入序列长度（规定最长512）】

五、BERT中的词嵌入1、为什么要使用BERT的嵌入使用BERT从文本数据中提取特征，即单词和句子的嵌入向量。我们可以用这些词和句子的嵌入向量做什么？

u013250861·2025-03-21 04:08

大模型微调

引入库2.读入数据3.对数据进行预处理4.转换为json格式文件三，使用算子分析数据并进行数据处理四，划分训练集和测试集五，编写训练脚本开始训练六，进行模型推理人工评估总结前言这是使用知乎评论进行模型微调

归一码字·2025-03-21 04:36

基于知识图谱的个性化智能教学推荐系统(文档+源码)

「已注销」·2025-03-21 03:29

Bjarne Stroustrup's FAQ

BjarneStroustrup'sFAQModifiedFebruary5,2008Thesearequestionsthatpeopleaskmeoften.Ifyouhavebetterquestionsorcommentsontheanswers,[email protected]berthatIcan'tspendallofm

win32asn·2025-03-20 21:10

开源模型应用落地-qwen模型小试-调用Qwen2-7B-Instruct-进阶篇（十二）

无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。

开源技术探险家·2025-03-20 19:23

大规模语言模型从理论到实践分布式训练的集群架构

LLMs，如BERT、GPT-3等，通

AI智能涌现深度研究·2025-03-20 18:14

模型微调：让AI更懂你的魔法棒

模型微调：让AI更懂你的魔法棒✨在人工智能的世界里，模型微调（Fine-tuning）就像是一位魔法师用魔法棒对预训练模型进行“个性化改造”，让它更适应特定的任务。

带上一无所知的我·2025-03-20 14:10

【十自然语言处理项目实战】【10.2 数据收集与预处理】

作为一个曾把BERT训成人工智障的老司机，这就把五年掉坑经验熬成一锅十全大补汤！

再见孙悟空_·2025-03-20 13:39

Deno入门教程：Node.js 的替代品

以下内容主要基于BertBelder[2]和RyanDahl[3]的最新演讲。0、进入主题之前，先说一下Deno

xiaoweids·2025-03-20 10:05

设计模式-单一职责原则

该原则由罗伯特·C·马丁（RobertC.Martin）于《敏捷软件开发：原则、模式和实践》一书中给出的。马丁表

qq_26920109·2025-03-20 09:31

通过LoRA（Low-Rank Adaptation）低秩矩阵分解来高效微调权重变化

这种方法通过减少微调的参数数量来提高训练效率。

背太阳的牧羊人·2025-03-20 08:53

五、AIGC大模型_08Agent基础知识

0、概述根据知识的生命周期分类，我们通常会采取不同的方法（微调、RAG、Agent）来将知识融入到AI中0.1长生命周期知识这类知识通常具有较高的稳定性和通用性，不会因时间的推移而轻易改变。

学不会lostfound·2025-03-20 06:33

使用LangSmith Chat Datasets微调模型

在这篇文章中，我们将探讨如何通过LangSmithChatDatasets轻松微调模型。这一过程分为三个简单的步骤：创建聊天数据集。使用LangSmithDatasetChatLoader加载示例。

scaFHIO·2025-03-20 04:49

奥林巴斯道Olympus DAO、奥拉丁模式、诺瓦银行、RWA模型合约解析开发

你可以根据自己的需求微调。

白马区块Crypto100·2025-03-20 01:49

迁移学习入门

一般是在大量的语料下训练完成的预训练语言模型的类别现在我们接触到的预训练语言模型，基本上都是基于transformer这个模型迭代而来的因此划分模型类别的时候，以transformer架构来划分：Encoder-Only:只有编码器部分的模型，代表：BERTDecoder-Only

EmbodiedTech·2025-03-19 16:14

使用LoRA微调LLaMA3

使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。

想胖的壮壮·2025-03-19 16:12

推荐频道