BERT微调第5页

python打卡第50天

知识点回顾：resnet结构解析CBAM放置位置的思考针对预训练模型的训练策略差异化学习率三阶段微调现在我们思考下，是否可以对于预训练模型增加模块来优化其效果，这里我们会遇到一个问题预训练模型的结构和权重是固定的

whyeekkk·2025-06-14 07:59

2025年4月大模型预训练、微调服务器推荐

大模型预训练与微调，对显卡的显存要求高，显存是决定模型能不能跑的关键因素，因此，挑选显卡时优先考虑显存问题；其次再考虑单精度等性能问题目前常用的显卡包括A600048G、L2048G、L4048G、6000Ada48G

HPC_fac13052067816·2025-06-14 04:40

大模型现在用的最多其次是预训练模型,大模型用于rag agent 预训练模型用于微调任务

当前的人工智能领域，大模型与预训练模型的应用场景呈现出显著的差异化特征，以下从技术逻辑、应用场景及典型案例三个维度展开分析：一、大模型（LLM）的核心应用：RAGAgent架构1.技术逻辑：动态知识检索与推理融合大模型（如GPT-4、Claude3.5）具备强大的语言理解与生成能力，但受限于参数规模（通常千亿级以上），难以存储实时或专业领域的海量知识。RAG（Retrieval-Augmented

MYH516·2025-06-13 21:52

04 XTuner 大模型单卡低成本微调实战

目录1Finetune简介1.1监督微调1.2增量预训练1.3LoRA&QLoRA2XTuner微调框架3微调实战3.1公开数据集demo3.2自定义微调1Finetune简介LLM的下游应用中，增量预训练和指令跟随是经常会用到的两种微调模式

wangzixinxinxin·2025-06-13 20:22

大语言模型实战：从零构建AI原生应用的完整指南

大语言模型实战：从零构建AI原生应用的完整指南关键词：大语言模型、AI原生应用、Prompt工程、微调、RAG、LangChain、LLMOps摘要：本文将带领读者从零开始构建一个完整的AI原生应用。

AI原生应用开发·2025-06-13 11:15

多模态大模型研究综述

叶梓老师带您深入了解LlamaFactory——一款革命性的大模型微调工具。1小时实战课程，您将学习到如何轻松上手并有效利用LlamaFactory来微调您的模型，以发挥其最大潜力。

人工智能培训咨询叶梓·2025-06-13 11:44

红黑树（RBT）

后来，在1978年被LeoJ.Guibas和RobertSedgewick修改为如今的“红黑树”。红黑树是一种特化的AVL树（平衡二叉树），都

天使Di María·2025-06-13 09:56

大模型笔记_模型微调

1.大模型微调的概念大模型微调（Fine-tuning）是指在预训练大语言模型（如GPT、BERT、LLaMA等）的基础上，针对特定任务或领域，使用小量的目标领域数据对模型进行进一步训练，使其更好地适配具体应用场景的过程

饕餮争锋·2025-06-13 02:12

大模型笔记_模型微调 vs RAG

1.模型微调与RAG介绍模型微调（Fine-tuning）：大模型笔记_模型微调-CSDN博客检索增强生成RAG（Retrieval-AugmentedGeneration）：大模型笔记_检索增强生成(

饕餮争锋·2025-06-13 02:12

【项目博客】基于DeepSeek的Python代码助手（一）

一、项目概述1.1项目背景1.2项目定位1.3项目技术实现与价值二、技术可行性分析2.1模型与微调可行性2.2API服务与部署可行性2.3VSCode插件开发可行性2.4功能实现与总结三、需求分析3.1

6_ShiaoYoung·2025-06-13 00:53

SFT + LoRA 结合使用原理及最佳实践

SFT+LoRA结合使用原理及最佳实践一、核心原理1.技术定位SFT（监督微调）与LoRA（低秩适应）的结合，实现了全参数微调效果与高效参数更新的平衡：SFT：通过标注数据调整模型整体行为LoRA：仅训练注入的低秩矩阵

·2025-06-12 23:17

向量数据库简介

在机器学习中，我们通常使用向量数据库来存储来自BERT或OpenAI等模型的嵌入文本数据；图像数据（来自CNN或CLIP的嵌入）以及音频/视频/基因组数据。

Morpheon·2025-06-12 23:16

RoBERTa相比BERT的改进

继BERT、XLNet之后，Facebook提出的RoBERTa（aRobustlyOptimizedBERTPretrainingApproach）。

火云明月·2025-06-12 22:07

Ubuntu24.04 onnx 模型转 rknn

前面的环境配置有点懒得写，教程也很多，可以自己找rknn-toolkit2gitee地址：pingli/rknn-toolkit2试了很多开源的代码，都没办法跑通，最后自己改了一版微调后的qwen2模型适用

一只名叫Me的猫·2025-06-12 19:16

BERT情感分类

参考B站BigC_666：微调BERT模型做情感分类实战，代码逐行讲解，100%可以跑通!!!

alasnot·2025-06-12 18:42

基于bert预训练模型transformer架构的中文文本多标签分类的双向语义理解。

基于bert预训练模型transformer架构的中文文本多标签分类的双向语义理解。

·2025-06-12 14:14

【慧游鲁博】团队记录5

文章目录进度总览完成细节Part11.图片上传与预加载功能2.前端功能扩展与密码修改页面3.DeepSeek模型微调与Kaggle实验4.前端组件化重构5.用户认证与信息管理完成细节Part21.多模态交互

哇哦哇哦~~·2025-06-12 13:35

Python训练营打卡DAY50

DAY50预训练模型+CBAM模块知识点回顾：resnet结构解析CBAM放置位置的思考针对预训练模型的训练策略差异化学习率三阶段微调ps：今日的代码训练时长较长，3080ti大概需要40min的训练时长作业

我想睡觉261·2025-06-12 07:51

大模型全景解析：从技术突破到行业变革

大模型发展历史与技术演进1.早期探索期（2015-2017）：从"人工智障"到初具规模RNN/LSTM架构时代（2013-2017）Transformer革命（2017）2.预训练模型崛起（2018-2020）：范式转变BERT

敲键盘的小夜猫·2025-06-12 07:45

【C++ 真题】P1216 [IOI 1994] 数字三角形 Number Triangles

P1216[IOI1994]数字三角形NumberTriangles题目描述观察下面的数字金字塔。写一个程序来查找从最高点到底部任意处结束的路径，使路径经过数字的和最大。

QuantumStack·2025-06-12 06:13

[USACO1.5][IOI1994]数字三角形 Number Triangles

[USACO1.5][IOI1994]数字三角形NumberTriangles题目描述观察下面的数字金字塔。写一个程序来查找从最高点到底部任意处结束的路径，使路径经过数字的和最大。

Dou_Huanmin·2025-06-12 06:12

LLMs 入门实战系列

6B【ChatGLM-6B入门-一】清华大学开源中文版ChatGLM-6B模型学习与实战介绍：ChatGLM-6B环境配置和部署【ChatGLM-6B入门-二】清华大学开源中文版ChatGLM-6B模型微调实战

AGI小明同学·2025-06-12 04:29

BERT

BERT简介BERT，全称是“双向编码器表示来自变换器”（BidirectionalEncoderRepresentationsfromTransformers），听起来可能有点复杂，但其实它就像一个超级聪明的

D11PMINDER·2025-06-11 22:54

ibert loopback回环

ibertloopback回环1.nearpcs2.nearpma3.farpcs4.farpma5.none其中nearpcs和nearpma是对光模块自己进行内部回环，没有出光模块farpcs和farpma

hahaha6016·2025-06-11 19:32

【大模型】大模型微调（上）

一、概念与背景微调（Fine-tuning）是一种迁移学习的方法，通过在已有的预训练模型基础上，利用目标任务的少量标注数据对模型进行二次训练，使其更好地适应特定任务的需求。

油泼辣子多加·2025-06-11 19:30

【大模型】大模型微调（中）

一、P-Tuning（PromptTuning）1.原理软提示（SoftPrompt）：在输入前添加可训练的连续向量（softprompt），而非修改模型参数。冻结模型主体：仅更新提示向量，保持预训练权重不变。优势：显存开销小，易于存储和切换任务；支持多任务场景。2.所需数据示例{"prompt_template":"Question:{question}Answer:","samples":[{

油泼辣子多加·2025-06-11 19:30

【深度学习实战】图像二分类任务的精度优先模型推荐

这些模型在PyTorch中有良好支持，可通过微调预训练模型或从头训练来应用。每种模型的介绍、微调/从头训练建议、精度表现和对趋势图类图像的适用性分析如下。

云博士的AI课堂·2025-06-11 16:12

处理长文本输入的 Transformer 模型优化策略在 Android 端的应用：性能瓶颈剖析与滑窗分段推理实战指南

模型优化策略在Android端的应用：性能瓶颈剖析与滑窗分段推理实战指南关键词Android推理优化、Transformer长文本、滑动窗口、分段处理、轻量模型部署、边缘设备内存管理、移动端NLP推理、TinyBERT

观熵·2025-06-11 15:01

多模态核心实现技术

1.单模态编码技术文本表示：采用词嵌入模型（如Word2Vec、GloVe）或预训练语言模型（如BERT、RoBERTa），通过Transformer层提取上下文特征，生成动态词向量。

charles666666·2025-06-11 14:59

BERT 模型微调与传统机器学习的对比

BERT微调与传统机器学习的区别和联系：传统机器学习流程传统机器学习处理文本分类通常包含以下步骤：特征工程：手动设计特征（如TF-IDF、词袋模型）模型训练：使用分类器（如SVM、随机森林、逻辑回归）特征和模型调优

MYH516·2025-06-11 11:05

传统机器学习与大模型 + Prompt 的对比示例

传统机器学习方法（使用BERT微调）traditional-ml-text-classification传统机器学习文本分类实现importtorchfromtorch.utils.dataimportDataset

MYH516·2025-06-11 11:05

多语言手写识别中的跨语言迁移学习：Manus AI 的预训练范式

多语言手写识别中的跨语言迁移学习：ManusAI的预训练范式关键词：跨语言迁移学习、手写识别、预训练模型、表征共享、语言适配层、低资源语种、参数共享、微调策略摘要：面对多语种手写识别场景中语言资源分布严重不均的现状

观熵·2025-06-11 08:40

从零实现基于BERT的中文文本情感分析的任务

✨不使用BERT预训练模型，从零开始训练！

AlexandrMisko·2025-06-10 22:28

【仿生机器人】建模—— 图生3D 的几个办法

第一件：强如Gemini，在多模态和三维空间的理解中，如果不微调去做下游应用，直接Zero-shot的效果是很差的好处是有多视角图生3D，效果还可以，但是也没有很精细，，还得修，粗看还可以，但已经不错了

DFminer·2025-06-10 17:21

【大模型入门】2025年大模型学习路线图：史上最全、最新的学习指南，助你成为AI领域的佼佼者！

大模型学习路线建议先从主流的Llama开始，然后选用中文的Qwen/Baichuan/ChatGLM，先快速上手体验prompt工程，然后再学习其架构，跑微调脚本前排提示，文末有大模型AGI-CSDN独家资料包哦

·2025-06-10 12:15

python打卡day45

对resnet18在cifar10上采用微调策略下，用tensorboard监控训练过程。

纨妙·2025-06-10 08:24

【LLaMA-Factory实战】Web UI快速上手：可视化大模型微调全流程

一、引言在大模型微调场景中，高效的工具链能显著降低开发门槛。LLaMA-Factory的WebUI（LlamaBoard）提供了低代码可视化平台，支持从模型加载、数据管理到训练配置的全流程操作。

陈奕昆·2025-06-10 05:57

使用 Unstructured 开源库快速入门指南

这些元素和元数据可用于RAG（检索增强生成）应用、AI代理、模型微调等任务。前提条件开始之前，你需要：Python虚拟环境管理器：推荐使用虚拟环境管理器来管理代码依赖。

fydw_715·2025-06-10 05:57

自然语言处理之语言模型：BERT：BERT模型的数学基础

自然语言处理之语言模型：BERT：BERT模型的数学基础绪论自然语言处理的挑战自然语言处理（NLPÿ

zhubeibei168·2025-06-10 04:21

自然语言处理之语言模型：BERT：BERT模型架构详解

自然语言处理之语言模型：BERT：BERT模型架构详解自然语言处理之语言模型：BERT模型架构详解1.引言

zhubeibei168·2025-06-10 04:21

自然语言处理之语言模型：BERT：BERT模型架构详解

自然语言处理之语言模型：BERT：BERT模型架构详解自然语言处理之语言模型：BERT模型架构详解1.引言

zhubeibei168·2025-06-10 03:17

基于 LoRA 和 GRPO 的 Qwen2.5-3B 数学推理模型微调示例

一、项目概述本项目基于Qwen2.5-3B-Instruct模型，结合LoRA（低秩自适应）和GRPO技术，针对数学推理任务（GSM8K数据集）进行微调，旨在训练一个能以XML格式输出链式思考和答案的数学助理模型

大鹏的NLP博客·2025-06-10 03:15

大语言模型开发各个阶段的评估方法

大语言模型开发过程评估1.提出问题2.大语言模型开发过程评估数据评估方法模型评估方法评估基座模型评估预训练后的大语言模型评估微调后的大语言模型参考文献1.提出问题场景：我们的目标是设计一个面向具体任务的大语言模型

三千越甲可吞吴、·2025-06-09 22:10

LLaMA Factory 微调与量化模型并部署至 Ollama

以下是使用LLaMAFactory进行模型微调与量化，并部署至Ollama的分步指南：一、环境准备安装LLaMAFactorygitclonehttps://github.com/hiyouga/LLaMA-Factory.gitcdLLaMA-Factorypipinstall-rrequirements.txt

GGlow·2025-06-09 15:26

BERT：让AI真正“读懂”语言的革命

BERT：让AI真正“读懂”语言的革命——图解谷歌神作《BERT:Pre-trainingofDeepBidirectionalTransformers》2018年，谷歌AI团队扔出一篇核弹级论文，引爆了整个

摘取一颗天上星️·2025-06-09 12:02

深度｜Google首席科学家Jeff Dean最新分享：AI核心壁垒不是参数量，而是系统、算法与部署全链能力，关键在于能否嵌入真实任务流与硬件终端

强化学习曾小健·2025-06-09 08:07

神经网络-Day46

的训练2.2特征图可视化三、通道注意力3.1通道注意力的定义3.2模型的重新定义（通道注意力的插入）一、什么是注意力注意力机制，本质从onehot-elmo-selfattention-encoder-bert

红衣小蛇妖·2025-06-09 04:02

linux系统fuser命令,Linux系统使用Fuser命令的方法

安装如果你的精简版运行fuser提示如下信息：-bash:fuser:commandnotfound请执行如下命令安装：[winbert@winbert-server~]$sud

山岚出岫·2025-06-09 01:46

【大模型】【DeepSeek】DeepSeek-R1：Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练而成的模型，没有经过监督微调（SFT）作为初步步骤，展现了卓越的推理能力。

量子-Alex·2025-06-08 18:51

【MLLM】字节BAGEL多模态理解和生成统一模型

这个模型本身是基于Qwen2.5-7B-Instruct和siglip-so400m-14-980-flash-attn2-navit模型微调的，并使用FLUX.1-schnellVAE模型。

山顶夕景·2025-06-08 13:46

推荐频道

BERT微调

python打卡第50天

2025年4月大模型预训练、微调服务器推荐

大模型现在用的最多 其次是预训练模型,大模型用于rag agent 预训练模型用于微调任务

04 XTuner 大模型单卡低成本微调实战

大语言模型实战：从零构建AI原生应用的完整指南

多模态大模型研究综述

红黑树（RBT）

大模型笔记_模型微调

大模型笔记_模型微调 vs RAG

【项目博客】基于DeepSeek的Python代码助手（一）

SFT + LoRA 结合使用原理及最佳实践

向量数据库简介

RoBERTa相比BERT的改进

Ubuntu24.04 onnx 模型转 rknn

BERT情感分类

基于bert预训练模型transformer架构的中文文本多标签分类的双向语义理解。

【慧游鲁博】团队记录5

Python训练营打卡DAY50

大模型全景解析：从技术突破到行业变革

【C++ 真题】P1216 [IOI 1994] 数字三角形 Number Triangles

[USACO1.5][IOI1994]数字三角形 Number Triangles

LLMs 入门实战系列

BERT

ibert loopback回环

【大模型】大模型微调（上）

【大模型】大模型微调（中）

【深度学习实战】图像二分类任务的精度优先模型推荐

处理长文本输入的 Transformer 模型优化策略在 Android 端的应用：性能瓶颈剖析与滑窗分段推理实战指南

多模态核心实现技术

BERT 模型微调与传统机器学习的对比

传统机器学习与大模型 + Prompt 的对比示例

多语言手写识别中的跨语言迁移学习：Manus AI 的预训练范式

从零实现基于BERT的中文文本情感分析的任务

【仿生机器人】建模—— 图生3D 的几个办法

【大模型入门】2025年大模型学习路线图：史上最全、最新的学习指南，助你成为AI领域的佼佼者！

python打卡day45

【LLaMA-Factory实战】Web UI快速上手：可视化大模型微调全流程

使用 Unstructured 开源库快速入门指南

自然语言处理之语言模型：BERT：BERT模型的数学基础

自然语言处理之语言模型：BERT：BERT模型架构详解

自然语言处理之语言模型：BERT：BERT模型架构详解

基于 LoRA 和 GRPO 的 Qwen2.5-3B 数学推理模型微调示例

大语言模型开发各个阶段的评估方法

LLaMA Factory 微调与量化模型并部署至 Ollama

BERT：让AI真正“读懂”语言的革命

深度｜Google首席科学家Jeff Dean最新分享：AI核心壁垒不是参数量，而是系统、算法与部署全链能力，关键在于能否嵌入真实任务流与硬件终端

神经网络-Day46

linux系统fuser命令,Linux系统使用Fuser命令的方法

【大模型】【DeepSeek】DeepSeek-R1：Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

【MLLM】字节BAGEL多模态理解和生成统一模型

大模型现在用的最多其次是预训练模型,大模型用于rag agent 预训练模型用于微调任务