BERT微调第3页

微调大语言模型后，如何评估效果？一文讲清

在做大语言模型（LLM）微调时，“怎么判断模型调得好不好”是必须回答的问题。无论是在研究、项目落地，还是面试中，评估方法都不能停留在“训练loss降了”这么简单。

茫茫人海一粒沙·2025-06-30 11:28

DeepSeek：AI驱动的效率革命与实战案例解

一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复

weixin_45788582·2025-06-30 10:52

FTTR（Fiber to the Room）一主一从

FTTR（FibertotheRoom）一主一从是家庭或企业光纤组网中的一种设备配置方式，具体含义如下：1.基本概念FTTR：指光纤直接延伸到每个房间（替代传统网线），实现全屋千兆/万兆覆盖。

·2025-06-30 01:34

R 语言简介：数据分析与统计的强大工具

它是由RossIhaka和RobertGentleman于1995年开发的，之后

Mikhail_G·2025-06-29 21:28

【网络安全】网络安全中的离散数学

一、离散数学核心知识点与网络安全映射1.数论（NumberTheory）知识点安全应用场景实例说明质因数分解RSA公钥加密大整数分解难题（2048位密钥需数万年破解）模运算Diffie-Hellman密钥交换利用

flyair_China·2025-06-29 14:41

解密大模型全栈开发：从搭建环境到实战案例，一站式攻略

大模型的发展历程大模型的类型大模型全栈开发环境搭建硬件需求软件环境配置云服务选择大模型应用开发流程模型选择策略提示工程（PromptEngineering）模型微调（Fine-tuning）参数高效微调

海棠AI实验室·2025-06-29 09:39

微调大语言模型(生成任务)，怎么评估它到底“变好”了？

随着大语言模型（如GPT、LLaMA）的广泛应用，越来越多团队开始基于它们做微调，定制符合自己业务需求的模型。微调虽能让模型更贴合任务，但评估是否真的“变好”却不是简单的事。

茫茫人海一粒沙·2025-06-29 09:38

NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解

开源应用实践详解NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集

汀、人工智能·2025-06-28 19:21

深度学习实战：基于嵌入模型的AI应用开发

我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“

AIGC应用创新大全·2025-06-28 18:17

LLaMA Factory 微调后，迁移模型

方法1：使用HuggingFaceHub（最推荐）fromtransformersimportAutoModelForCausalLM,AutoTokenizer#在源服务器上保存模型到Hubmodel.push_to_hub("your-username/your-model-name")tokenizer.push_to_hub("your-username/your-model-name")

激进小猪1002·2025-06-28 18:17

企业级知识库私有化部署：腾讯混元+云容器服务TKE实战

本文以某证券机构智能投研系统为原型，演示如何基于腾讯混元大模型与TKE容器服务实现：千亿级参数模型的私有化部署金融领域垂直场景微调高并发低延迟推理服务全链路安全合规方案1.1典型技术挑战#性能基准测试数据

大熊计算机·2025-06-28 14:45

大模型笔记10：LoRA微调

LoRA微调的原理矩阵的秩矩阵的秩代表一个矩阵中所含信息的大小。行秩：矩阵中互相不重复、不依赖（即线性无关）的行的最大数目。列秩：矩阵中互相不重复、不依赖的列的最大数目。

errorwarn·2025-06-28 09:41

大模型量化

以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT

需要重新演唱·2025-06-28 00:13

【大模型学习 | LORA 原理及实现】

GitHub-microsoft/LoRA:Codeforloralib,animplementationof“LoRA:Low-RankAdaptationofLargeLanguageModels”GPT-3：175B微调模型变得十分的贵

九年义务漏网鲨鱼·2025-06-27 23:13

大语言模型(LLM)量化基础知识(一)

-派神-·2025-06-27 23:42

【人工智能】微调的秘密武器：释放大模型的无限潜能

答案是微调（Fine-tuning）。本文深入探讨微调的理论基础、技术细节与实践方法，揭示其作为解锁大模型隐藏潜力

蒙娜丽宁·2025-06-27 20:18

DeepSeek 部署中的常见问题及解决方案：从环境配置到性能优化的全流程指南

个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：大模型部署的现实挑战随着大模型技术的发展，以DeepSeek为代表的开源中文大模型，逐渐成为企业与开发者探索私有化部署、垂直微调、模型服务化的重要选择

慌ZHANG·2025-06-27 16:49

【面试宝典】【大模型入门】【模型微调】

面试热点科普：监督微调vs无监督微调，有啥不一样？在大模型时代（比如BERT、GPT）里，我们经常听到“预训练+微调”的范式。但你可能会疑惑——监督微调、无监督微调，到底有啥区别？用的场景一样吗？

曾小文·2025-06-27 04:00

中文工单分类模型选择

采用基于预训练模型的微调（Fine-tuning）方案来做中文工单分类，这是非常明智的选择，因为预训练模型已经在大量中文语料上学习了丰富的语言知识，能大幅提升分类效果。

SugarPPig·2025-06-27 04:26

⼤模型（LLMs）基础⾯

GPT模型通过在⼤规模⽆标签⽂本上进⾏预训练，然后在特定任务上进⾏微调，具有很强的⽣成能⼒和语⾔理解能⼒。2.BERT（B

cv2016_DL·2025-06-27 01:04

大模型加载多个LoRA并灵活切换

然而，这些模型在微调时往往需要大量的计算资源。为了解决这个问题，LoRA通过低秩矩阵来适应新的任务，从而减少了模型的内存占用和计算需求。

Kaydeon·2025-06-26 19:20

使用Hugging Face的Sentence Transformers进行文本嵌入

核心原理解析SentenceTransformers基于BERT等深度学习模型，通过转化输入文本为

2501_92325368·2025-06-26 11:34

波动方程延拓法求解

题目问题8.使用延拓法结合达’Alembert公式解决以下十二个问题中的每一个。

weixin_30777913·2025-06-26 03:40

ArcMap常用1：地理配准（一张地图图片和gis地图的匹配）

7、在添加点后，如有不准确的点，可点击配准按钮旁边的列表按钮进行删减和微调：8、调整完成后，在左

肆意飞扬·2025-06-26 03:37

大模型应用10种架构模式全解析：从理论到实战的技术指南

一、架构模式全景图在深入细节前，先通过一张表格快速了解各模式的核心价值：架构模式核心目标典型场景开源工具案例端到端微调最大化任务性

ai大模型雪糕·2025-06-25 20:47

WPF textbox头尾添加文本

一个输入数据个数的文本框publicclassNumberToStringConverter:IValueConverter{publicobjectConvert(objectvalue,TypetargetType

·2025-06-25 17:28

预训练语言模型

1.1Encoder-onlyPLMEncoder-only架构是Transformer的重要分支，专注于自然语言理解（NLU）任务，核心代表是BERT及其优化模型（RoBERTa、ALBERT）。

lynnzon·2025-06-25 11:10

大模型学习（Datawhale_Happy-LLM）笔记4: 预训练语言模型

二、Encoder-onlyPLM代表：BERT及其优化版本

lxltom·2025-06-25 11:09

MLX LM - 在Apple芯片上运行大语言模型的Python工具包

量化模型，上传HF4、流式生成采样5、命令行6、长提示词与生成四、支持模型大模型一、关于MLXLM1、项目概览MLXLM是一个Python工具包，支持在Apple芯片上使用MLX进行文本生成和大语言模型微调

富婆E·2025-06-25 08:26

15.2 LLaMA 3面试模拟神器：动态难度调节+实时反馈，大厂通过率提升90%

LLaMA3面试模拟神器：动态难度调节+实时反馈，大厂通过率提升90%关键词：对话系统设计、场景化提示工程、LLaMA3微调、多轮对话管理、面试模拟Agent技术面试场景Agent设计核心逻辑通过多阶段对话流程控制和动态难度调节实现真实面试模拟

少林码僧·2025-06-25 06:06

OSError: We couldn‘t connect to ‘https://huggingface.co‘ to load this file, couldn‘t find it in the

Wecouldn'tconnectto'https://huggingface.co'toloadthisfile,couldn'tfinditinthecachedfilesanditlookslikeroberta-baseisnotthepathtoadirectorycontainingafilenamedconfig.json.Checkoutyourinternetco

是纯一呀·2025-06-24 18:04

GED-VIZ部署解决方案

项目https://github.com/bertelsmannstift/GED-VIZ最终结果如图：依赖要求：Dependencies一、Ruby1.9.3(MRI)withRubyGems.AlsoworkswithRuby2.1

yoyo_573·2025-06-24 18:30

预训练目标：BERT 更适配 “理解类” 任务

在NLP任务中，更倾向于用BERT而非GPT做预训练，核心原因与两者的模型设计、任务适配性、资源成本有关，具体可从以下维度拆解：一、预训练目标：BERT更适配“理解类”任务BERT的双向预训练目标：通过掩码语言模型

·2025-06-24 17:26

从7B到671B：DeepSeek R1大模型微调的GPU选型终极指南

当DeepSeekR1系列以7B到671B的参数跨度构建起完整技术栈时，微调场景的硬件选择已演变为一场精密的数学游戏。

卓普云·2025-06-24 17:54

大模型强化微调GRPO——DeepSeekMath: Pushing the Limits of MathematicalReasoning in Open Language Models

1.概述大型语言模型（LLM）革新了人工智能领域的数学推理方法，在定量推理基准测试（Hendrycks等，2021年）和几何推理基准测试（Trinh等，2024年）方面取得了重大进展。此外，这些模型在帮助人类解决复杂的数学问题方面也发挥了重要作用（Yao，2023年）。然而，像GPT-4（OpenAI，2023年）和Gemini-Ultra（Anil等，2023年）这样的尖端模型并未公开，目前可获

樱花的浪漫·2025-06-24 15:43

字节内部热捧“7种大模型微调的方法笔记”，简直太全了！！

背景随着ChatGPT的爆火，很多机构都开源了自己的大模型，比如清华的ChatGLM-6B/ChatGLM-10B/ChatGLM-130B，HuggingFace的BLOOM-176B。当然还有很多没有开源的，比如OpenAI的ChatGPT/GPT-4，百度的文心一言，谷歌的PLAM-540B，华为的盘古大模型，阿里的通义千问，等等。这些大公司或者研究机构，都是有足够资源的来开发大模型，但是对

大模型教程.·2025-06-24 11:47

Hugging Face 一键部署代码模型

这意味着，开发者现在只需在平台上进行几次点击，即可将托管在HuggingFaceHub上的任何AI编程模型（如CodeGemma,StarCoder,或自己微调的模型）快速部署为一个安全、可扩展的生产级

儿女初养·2025-06-24 07:20

Codeforce 884C - Bertown Subway

C.BertownSubwaytimelimitpertest1secondmemorylimitpertest256megabytesinputstandardinputoutputstandardoutputTheconstructionofsubwayinBertownisalmostfinished

weixin_34281477·2025-06-24 06:43

Educational Codeforces Round 31 C.Bertown Subway（图论）

题目链接：BertownSubway题意：简单地说，就是给一个n个地铁站的线路图，每个地铁站i有一趟地铁从i站出发，到达目的站pi，pi可以等于i且满足条件：对于每个i站，只存在一个j站使得pj=i。

ganzibang·2025-06-24 06:43

Bertown Subway

C.BertownSubwaytimelimitpertest1secondmemorylimitpertest256megabytesinputstandardinputoutputstandardoutputTheconstructionofsubwayinBertownisalmostfinished

·2025-06-24 05:10

基于通义大模型的智能客服系统构建实战：从模型微调到API部署

1引言本文将深入探讨基于通义大模型的智能客服系统构建全流程，从数据准备、模型微调、性能优化到API部署和系统集成。

大熊计算机·2025-06-24 04:35

教师-学生协同知识蒸馏机制在私有化系统中的融合路径：架构集成、训练范式与部署实践

教师-学生协同知识蒸馏机制在私有化系统中的融合路径：架构集成、训练范式与部署实践关键词：私有化部署、知识蒸馏、教师模型、学生模型、协同蒸馏、蒸馏训练、边缘部署、模型压缩、国产大模型、自监督微调摘要：随着国产大模型在企业私有化环境中的广泛部署

观熵·2025-06-24 03:25

15.3 LLaMA 3+LangChain实战：智能点餐Agent多轮对话设计落地，订单准确率提升90%！

关键词：多轮对话设计、场景化提示工程、LLaMA3微调、LangChainAgent、饭店点餐场景建模饭店点餐场景的Agent方案设计通过分层架构实现复杂场景对话控制，系统设计包含5个核心模块：点餐咨询订单修改支付咨询用户输入意图识别菜品推荐订单管理支付流程多轮对话管理外部系统集成响应生成

少林码僧·2025-06-23 23:05

使用 ABAP 弹出 Windows 操作系统的通知消息

我们在Windows操作系统的设置面板里，能够对系统的通知行为进行各种微调：然后使用快捷键Win+N，能查看操作系统曾经收到的通知消息的历史记录:笔者虽然不知道

汪子熙·2025-06-23 19:05

十分钟带你入门Go语言(Golang)开发

概述Go语言是由Google的RobertGriesemer,RobPike及KenThompson开发的一种静态强类型、编译型语言。

gopyer·2025-06-23 17:23

NL2SQL实践系列(1)：深入解析Prompt工程在text2sql中的应用技巧

中的应用技巧NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集

汀、人工智能·2025-06-23 13:20

2025-微调 Qwen3 实战教程

一、概述unsloth微调Qwen3模型提供显著优势：训练速度提高2倍，VRAM使用减少70%，支持8倍长的上下文。Qwen3–30B-A3B仅需17.5GBVRAM即可运行。

·2025-06-23 12:17

二、【LLaMA-Factory实战】数据工程全流程：从格式规范到高质量数据集构建

一、引言在大模型微调中，数据质量直接决定模型性能。LLaMA-Factory提供了完整的数据工程工具链，支持从数据格式规范到清洗增强、注册验证的全流程管理。

陈奕昆·2025-06-23 11:40

BERT模型微调全攻略：从数据准备到模型部署

BERT模型微调全攻略：从数据准备到模型部署关键词：BERT模型、模型微调、数据准备、模型训练、模型部署摘要：本文全面介绍了BERT模型微调的整个流程，从数据准备开始，逐步讲解了数据预处理、模型训练以及最终的模型部署等关键步骤

AI智能探索者·2025-06-23 09:28

利用ms-swift微调LLaVA-OneVision

利用ms-swift微调LLaVA-OneVision资料合集环境安装目录详情训练模型下载模型准备训练(train)数据和验证集(validation)数据提前改一些小bug脚本Merged-LoRA脚本

moTcream·2025-06-23 07:16

推荐频道

BERT微调