bert微调

从零开始构建一个大语言模型-第七章第一节

第七章目录7.1指令微调简介7.2为有监督的指令微调准备数据集7.3将数据整理成训练批次7.4为指令数据集创建数据加载器7.5加载预训练的大语言模型7.6在指令数据上对大语言模型进行微调7.7提取并保存回复

释迦呼呼·2025-02-13 15:07

硅基流动开放模型微调（可使用赠送金额）

就这几天硅基流动上线了模型微调目前仅开放这两个模型，价格也在上面，最重要的是可以使用赠送的额度。网站链接：https://cloud.siliconflow.cn/i/wLHLnn22

2401_82750289·2025-02-13 04:16

win10 llamafactory模型微调相关① || Ollama运行微调模型

我的巨剑能轻松搅动潮汐·2025-02-12 22:31

一文读懂RAG

架构数据准备阶段应用阶段：五、RAG分类基础RAG(NaiveRAG)缺点高级RAG(AdvancedRAG)模块化RAG(ModularRAG)六、RAG(检索增强生成)vsFine-Tuning(微调

wangziling123456·2025-02-12 22:58

用Llama Factory单机多卡微调Qwen2.5时报torch.OutOfMemoryError: CUDA out of memory的解决办法

接着上一篇博客：在Ubuntu上用LlamaFactory命令行微调Qwen2.5的简单过程_llamafactory微调qwen2.5-CSDN博客如果需要微调比较大的模型，例如Qwen2.5-32B

蛐蛐蛐·2025-02-12 22:27

目标检测:yolo格式txt转换成COCO格式json

修改对应文件路径即可,其他根据txt或者希望生成的json做轻微调整#-*-coding:utf-8-*-importosimportjsonfromPILimportImagecoco_format_save_path

詹姆斯德·2025-02-12 21:49

Golang怎么入门

1.Golang简介Go语言诞生于2007年，由Google的RobertGr

wwwenhx·2025-02-12 17:18

【2025版】最新AI大模型NLP全面解析，零基础入门到精通，收藏这篇就够了

AI大模型，作为一类具备庞大参数规模与卓越学习能力的神经网络模型，如BERT、GPT等，已在自然语言处理、计算机视觉等多个领域展现出卓越成效，极大地推动了相关领域的技术进步。

程序员二飞·2025-02-12 11:15

Open Liberty使用指南及微服务开发示例（五）

续前篇十九、实现租户行为日志的自动归档目前，我们已经实现日志导出，但日志会无限增长，占用数据库空间。现在，我们要实现：✅定期归档旧日志（每3个月）✅归档数据存储为CSV/Excel✅归档后自动清理旧日志，减少数据库负担方案设计归档策略：1️⃣每3个月归档一次（定时任务执行）2️⃣归档数据存储到/logs/archive/YYYY-MM.csv或/logs/archive/YYYY-MM.xlsx3

自由鬼·2025-02-12 09:59

手把手教学，DeepSeek-R1微调全流程拆解

手把手教学，DeepSeek-R1微调全流程拆解原创极客见识GeekSavvy2025年02月09日09:02广东DeepSeek通过发布其开源推理模型DeepSeek-R1颠覆了AI格局，该模型使用创新的强化学习技术

AI生成曾小健·2025-02-12 05:01

解决：libssl.so.10: cannot open shared object file: No such file or directory

RuntimeError:Failedtoimporttransformers.models.bertbecauseofthefollowingerror(lookuptoseeitstraceback

铭147·2025-02-12 04:25

开源模型应用落地-qwen2-7b-instruct-LoRA微调&合并-ms-swift-单机多卡-RTX 4090双卡（十五）

一、前言本篇文章将使用ms-swift去合并微调后的模型权重，通过阅读本文，您将能够更好地掌握这些关键技术，理解其中的关键技术要点，并应用于自己的项目中。

开源技术探险家·2025-02-12 04:50

揭幕 DeepSeek-V2.5-1210：革新人工智能能力

技术背景DeepSeek-V2.5-1210在DeepSeekV2系列的基础上进行了微调，利用后训练迭代提升了其在数学、编程、写作和

吴脑的键客·2025-02-12 03:16

预训练语言模型：从BERT到GPT，NLP的新纪元

从BERT到GPT，这些模型不仅在学术研究中取得了突破性进展，也在工业界得到了广泛应用。本文将深入探讨预训练语言模型的原理、发展历程以及如何在实际项目中应用这些强大的工具。

Evaporator Core·2025-02-11 20:23

【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团（附面题）

博客主页：[青松]目录【NLP百面百过】大模型算法高频面题（全面整理ʘ‿ʘ）一、大模型（LLMs）基础面大模型（LLMs）架构篇注意力机制（Attention）篇Transformer理论篇二、大模型微调面有监督微调

青松ᵃⁱ·2025-02-11 13:37

【人工智能领域优质书籍】实战AI大模型

书籍亮点1.全面Al知识结构:从基础理论到最前沿的实践应用，全面覆盖了’Al大模型领域，包括Transformer模型、BERT、ALBERT、T5、G

秋说·2025-02-11 12:01

deepseek学习笔记

原计划是基于BERT或者GPT做一些自然语言处理的应用研究，deepseek出来之后，决定使用deepseek来做，相信能够获得更好的效果。

wsnzou·2025-02-11 10:40

Open Liberty使用指南及开发示例（二）

续上篇七、实现动态权限分配目前，我们的系统基于角色（Role）进行权限控制，但角色权限是固定的。现在，我们要实现：✅用户可动态分配权限（而不是仅靠角色）✅每个用户可以拥有不同的权限集（CRUD操作可灵活授权）✅管理员可管理用户权限方案设计采用基于权限的访问控制（PBAC-Permission-BasedAccessControl）用户→拥有多个权限（READ,CREATE,UPDATE,DELET

自由鬼·2025-02-11 09:34

Open Liberty使用指南及开发示例（一）

OpenLiberty是一个轻量级、云原生的Java运行时，主要用于运行JakartaEE和MicroProfile应用。它的核心特点是模块化、快速启动和良好的可观测性。

自由鬼·2025-02-11 09:34

详解Redis中lua脚本和事务

—-AlbertEinstein引言Lua脚本的原子性和事务的ACID特性想必大家都很熟悉，本篇文章将从性能表现和原理帮助我们快速理解他们基本概念1.RedisLua脚本从2.6版本起，Redis开始支持

优人ovo·2025-02-11 08:53

【深度学习】常见模型-BERT（Bidirectional Encoder Representations from Transformers）（双向编码器表示）

BERT（BidirectionalEncoderRepresentationsfromTransformers）BERT是什么？

IT古董·2025-02-11 02:06

大模型入门（六）—— RLHF微调大模型

一、RLHF微调三阶段参考：https://huggingface.co/blog/rlhf1）使用监督数据微调语言模型，和fine-tuning一致。

LLM.·2025-02-10 23:17

Go语言入门：从安装到环境配置

这个由Google的三位大神级工程师-RobertGriesemer、RobPike和KenThompson（对，就是那个写出Unix的大佬）一起搞出来的新语言，简直让人眼前一亮。

·2025-02-10 23:54

【Neo4j 】学习笔记：GraphRAG 宣言：为 GenAI 添加知识

或者微调，或者GPT-5。是的。基于向量的RAG和微调等技术可以提供帮助。它们对于某些用例来说已经足够

等风来不如迎风去·2025-02-10 16:53

大模型学习笔记 - LLM 对齐优化算法 DPO

概述大模型预训练是从大量语料中进行无监督学习，语料库内容混杂，训练的目标是语言模型损失，任务是nexttokenprediction，生成的token不可控，为了让大模型能生成符合人类偏好的答案(无毒无害等）一般都会进行微调和人类对齐

JL_Jessie·2025-02-10 03:54

微调大模型【已成功】

环境%%capture#InstallsUnsloth,Xformers(FlashAttention)andallotherpackages!!pipinstall"unsloth[colab-new]@git+https://github.com/unslothai/unsloth.git"#WehavetocheckwhichTorchversionforXformers(2.3->0.0.

捏塔·2025-02-09 18:20

动态词表采样：一种控制模型词表大小的新方法

背景介绍随着深度学习技术的发展，尤其是Transformer架构的成功应用，预训练语言模型如BERT、GPT等取得了

东方佑·2025-02-09 18:50

从零开始构建一个大语言模型-第六章第一节

第六章目录6.1不同类型的微调6.2准备数据集6.3创建数据加载器6.4用预训练权重初始化模型6.5添加分类头6.6计算分类损失和准确率6.7在有监督数据上微调模型6.8将大语言模型用作垃圾邮件分类器本章内容涵盖介绍不同的大语言模型微调方法为文本分类准备数据集修改预训练大语言模型以进行微调使用微调后的大语言模型对新数据进行分类到目前为止

释迦呼呼·2025-02-09 18:17

T5模型-基于Transformer架构的通用文本到文本转换模型

通过预训练和微调，T5模型可以用于广泛的

Jiang_Immortals·2025-02-09 16:09

接入deepseek构建RAG企业智能问答系统

让AI大模型“学习”业务知识的两种主要方法：微调（Fine-Tuning）：在预训练模型基础上根据特定任务和数据集调整参数。

da pai ge·2025-02-09 16:08

基于 llama-Factory 动手实践 Llama 全参数 SFT 和 LoRA SFT

一、llama-Factory：你的Llama模型SFT工厂llama-Factory是一个开源的、用户友好的工具，专门用于对Llama系列模型进行微调。

kakaZhui·2025-02-09 12:36

蒸馏：让DeepSeek用“移魂大法”增强你的小模型

在DeepSeekR1的技术报告中，使用DeepSeek-R1生成的推理数据，微调了几个广泛使用的开源模型。评估结果表明，蒸馏后的较

AI生成曾小健·2025-02-09 11:58

多模态大模型：技术原理与实战多模态大模型在情绪识别领域的应用

传统的单一模态大模型，如BERT、GPT等，尽管在各自模态上有着卓越的表现，但在处

杭州大厂Java程序媛·2025-02-09 10:23

红黑树与布隆过滤器的了解

后来，在1978年被LeoJ.Guibas和RobertSedgewick修改为如今的“红黑树”。

胡图蛋.·2025-02-08 18:23

熬夜整理模型下载、量化、代码调用可免费使用离线部署的上千个国内外开源大模型梳理，整理开源的大语言模型，以规模较小、可私有化部署、训练成本较低的模型为主，包括底座模型，垂直领域微调及应用，数据集与教程等

熬夜整理模型下载、量化、代码调用，可免费使用离线部署的上千个国内外开源大模型梳理，整理开源的大语言模型，以规模较小、可私有化部署、训练成本较低的模型为主，包括底座模型，垂直领域微调及应用，数据集与教程等

代码讲故事·2025-02-08 15:32

深度学习的文本生成：从seq2seq到GPT2和GPT3

1.2Transformer模型1.2.1自注意力机制1.2.2位置编码1.2.3多头注意力1.2.4训练1.3GPT（GenerativePre-trainedTransformer）模型1.3.1预训练1.3.2微调

AI天才研究院·2025-02-08 11:33

解决IBM Liberty 部署Springboot 应用遇到StackOverflow的问题

客户最近要求把一个Springboot应用从was9迁移部署至liberty20，jar包部署，自启动没问题，但部署到liberty上server.xml配置如下：javaee-8.0springBoot

tomcat1010·2025-02-08 11:03

DeepSeek模型与OpenAI模型原理和技术架构的异同分析

DeepSeek模型与OpenAI模型原理和技术架构的异同分析一、模型原理（一）DeepSeekR1DeepSeekR1的核心原理是基于强化学习（RL）的训练方式，其创新之处在于不依赖任何监督微调（SFT

程序猿000001号·2025-02-08 04:10

大模型(LLM)微调并不复杂，数据才是关键：3个实例详解数据准备

今天咱们聊聊一个听起来很高大上的词——微调（Fine-Tuning）。听说过吗？

程序员二飞·2025-02-08 01:21

一个游戏，多种框架

RogerEngelbert在他的博客rengelbert.com展示给我们如何做一个移动版的青蛙过河游戏，使用四个不同的框架：Starling，Sparrow，cocos2d和LibGDX。

wkyb608·2025-02-07 19:44

AI商业化：如何包装技术并找到客户需求？

一、引言在过去几年里，从GPT、Transformer到DeepSeek，以及分布式训练和微调技术的发展，为AI技术带来了质的飞跃。然而，光有先进的技术并不足以实现商业成功。如何将这些技术包装成易于

hjy1821·2025-02-07 17:34

传统AI算法工程师转型指南：如何成功切入大模型领域赛道“

在做项目的过程中，为了节省训练成本，阅读了很多peft（参数高效微调）的文献，并且实践了lor

大模型玩家·2025-02-07 17:33

大语言模型原理基础与前沿高效的MoE架构

大语言模型原理基础与前沿高效的MoE架构关键词：大语言模型，MoE架构，参数高效微调，分布式训练，模型压缩，推理加速1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大语言模型（LargeLanguageModels

AI架构设计之禅·2025-02-07 13:39

基于 DeepSeek-R1 模型微调（SFT）技术详解

目录引言1.1大模型时代与微调的重要性1.2本文目的与结构概述DeepSeek-R1模型基础2.1模型简介2.1.1模型架构2.1.2预训练数据与目标2.2模型特点与优势2.2.1语言理解与生成能力2.2.2

zhangjiaofa·2025-02-07 10:43

大模型生态开源工具整理

最近一直在做大模型应用开发工作,总结下用到的一些开源工具1-模型训练LLaMA-Factory整体介绍LLaMA-Factory是一个开源的微调框架，为开发者提供简便高效的工具，以便在预训练模型基础上快速适应特定任务需求

miracletiger·2025-02-07 08:35

实例解析：RAG与模型微调的选择策略——三个简单案例帮你做出明智决策

我们重点来讨论几个案例，来看一下每个案例到底选择RAG，还是微调，或者是RAG+微调。

程序员老冉·2025-02-07 06:50

大模型参数量及其单位的概念

BERT模型的参数量是多少？BERT（BidirectionalEncoderRepresentationsfromTransformers）模型有几种不同的版本，它们的参数量不同。

这个人有丶懒·2025-02-07 03:57

使用一个大语言模型对另一个大语言模型进行“调教”

使用一个大语言模型对另一个大语言模型进行“调教”（通常称为微调或适配），是一种常见的技术手段，用于让目标模型更好地适应特定的任务、领域或风格。

大霸王龙·2025-02-07 03:25

[论文笔记] Deepseek技术报告

1.总体概述背景与目标报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。

心心喵·2025-02-06 22:53

【机器学习】机器学习重要方法——迁移学习：理论、方法与实践

文章目录迁移学习：理论、方法与实践引言第一章迁移学习的基本概念1.1什么是迁移学习1.2迁移学习的类型1.3迁移学习的优势第二章迁移学习的核心方法2.1特征重用（FeatureReuse）2.2微调（Fine-Tuning

E绵绵·2025-02-06 22:52

推荐频道