BERT微调第4页

AI大模型学习路线（2025最新）神仙级大模型教程分享，非常详细收藏这一篇就够！

学习资料书籍：GilbertStrang，《线性代数及其应用》SheldonRos

AI大模型-大飞·2025-06-23 06:10

Python str.format() 函数在 LLM prompt 生成中的使用（微调、刷库等）

str.format()函数介绍：Pythonformat格式化函数，用于增强字符串格式化。在LLM中批量生成prompt的简单示例：template="我现在有一个用户问题和系统的答案,帮我把答案中和用户问题最直接的关键词提取出来。\n问题：“{query}”\n答案：“{answer}”"examples={'query':"秒换装教学",'answer':"在王者荣耀游戏中，秒换装的技巧主要

ctrl A_ctrl C_ctrl V·2025-06-23 05:29

DB-GPT-HUB Text-to-SQL微调

DB-GPT-HUBText-to-SQL微调项目介绍DB-GPT-Hub是一个利用LLMs实现Text-to-SQL解析的实验项目，主要包含数据集收集、数据预处理、模型选择与构建和微调权重等步骤，通过这一系列的处理可以在提高

__如风__·2025-06-23 04:56

大模型学习路线：这会是你见过最全最新的大模型学习路线【2025最新】

大模型学习路线建议先从主流的Llama开始，然后选用中文的Qwen/Baichuan/ChatGLM，先快速上手体验prompt工程，然后再学习其架构，跑微调脚本如果要深入学习，建议再按以下步骤，从更基础的

大模型入门学习·2025-06-23 00:56

pythonday50

作业：1.好好理解下resnet18的模型结构2.尝试对vgg16+cbam进行微调策略importtorchimporttorch.nnasnnimporttorch.optimasoptimimporttorchvisionimporttorchvision.transformsastransformsfromtorchvisionimportmodelsfromtorch.utils.dat

我爱音乐yyy·2025-06-23 00:51

ChatMusician：用大模型理解并创造音乐

ChatMusician由SkyworkAIPTE.LTD.和香港科技大学的研究团队共同开发，它基于持续预训练和微调的LLaMA2模型，并通过一种文本兼容的音乐表示法——ABC符号，将音乐作为第二语言来处理

人工智能大模型讲师培训咨询叶梓·2025-06-22 19:19

Python面向对象设计：SOLID原则详解

软件需求变化代码腐化维护成本增加开发效率下降系统重构SOLID原则是打破这一恶性循环的关键，由RobertC.Martin提出，包含五大核心原则：原则简称核心思想单一职责原则SRP一个类只有一个改变的理由开闭原则

Yant224·2025-06-22 17:07

RAG 和微调如何抉择

要选择RAG(Retrieval-AugmentedGeneration)还是微调(Fine-tuning)，或者两者结合，主要取决于如下数据特性应用场景资源限制模型行为的控制需求RAGvs.微调：如何选择

成都犀牛·2025-06-22 14:20

llamafactory 微调模型出现TypeError: argument of type ‘NoneType‘ is not iterable

问题介绍本文作者碰到的问题是File“/root/miniconda3/lib/python3.12/site-packages/transformers/modeling_utils.py”,line1969,inpost_initifvnotinALL_PARALLEL_STYLES:^^^^^^^^^^^^^^^^^^^^^^^^^^^^TypeError:argumentoftype‘No

成都犀牛·2025-06-22 14:19

DeepSpeed 深度学习学习笔记：高效训练大型模型

大型模型训练的挑战随着深度学习模型规模的爆炸式增长（从BERT的几亿参数到GPT-3的千亿参数，再到现在的万亿参数模型），传统的单GPU训练方式变得力不从心，即使是多GPU训练也面临巨大挑战：内存限制(

·2025-06-22 14:16

BERT-NER-Pytorch 深度学习教程

BERT-NER-Pytorch深度学习教程BERT-NER-PytorchChineseNER(NamedEntityRecognition)usingBERT(Softmax,CRF,Span)项目地址

富茉钰Ida·2025-06-22 10:52

从代码学习深度学习 - 预训练BERT PyTorch版

文章目录前言一、数据准备：为BERT量身打造“教科书”1.1数据处理工具函数(`utils_for_data.py`)1.2加载数据二、模型构建：从零搭建BERT2.1模型工具函数(`utils_for_model.py

飞雪白鹿€·2025-06-22 09:51

LinkedIn求职神器[特殊字符]AI驱动搜索让你轻松找到心仪工作！

这一功能通过利用提炼和微调的大型语言模型，在提升求职者求职体验上迈出了重要的一步。这项新功能让LinkedIn用户可以通过自然语言来进行职位搜索。例如，以往用户在输入

人工智能我来了·2025-06-22 07:36

Llama 4模型卡片及提示词模板

Llama4模型卡片及提示词模板Llama4模型卡及提示格式介绍Llama4模型概述Llama4是一系列预训练和指令微调的混合专家（Mixture-of-Experts,MoE）大语言模型，包含两种规模

大模型与Agent智能体·2025-06-21 23:44

大模型基础全解：转行大模型开发所需的知识体系、能力要求及学习路径总结

引言随着人工智能和大模型（如GPT-4、BERT等）技术的快速发展，越来越多的专业人士希望转行进入这一领域。大模型开发涉及复杂的技术体系和多样的应用场景，对从业者的知识和能力提出了较高要求。

程序员鑫港·2025-06-21 18:43

A基础语法.go

它由Google公司的RobertGriesemer、RobPike和KenThompson于2007年创建，旨在提高编程效率，简化并发编程，同时保持良好的性能。

是紫焅呢·2025-06-21 15:23

【大模型开发】Hugging Face的Transformers库详解介绍与案例

深入解析HuggingFaceTransformers及开源大模型微调实践HuggingFaceTransformers已成为自然语言处理（NLP）乃至多模态（跨语言、图像、音频等）应用中最为流行、功能最完备的开源框架之一

云博士的AI课堂·2025-06-21 11:01

生成本地微调 +强化学习 qwen3-4b 研究搭建流程步骤

在本地微调并应用强化学习（RL）对Qwen-3-4B模型进行研究和搭建，是一个复杂但可行的过程。以下是一个详细的流程步骤，涵盖从环境准备、数据准备、模型微调到强化学习应用的各个阶段。

行云流水AI笔记·2025-06-21 11:54

【无标题】

在本地对Qwen-3-4B模型进行微调，并结合强化学习（RL）以提高其从自然语言（TXT）到结构化查询语言（SQL）的转换能力（即TXT2SQL），是一个复杂但非常有价值的任务。

行云流水AI笔记·2025-06-21 11:54

什么是 QLoRA（Quantized Low-Rank Adaptation，量化低秩适配）

QLoRA（QuantizedLow-RankAdaptation，量化低秩适配）是LoRA（Low-RankAdaptation）的一种优化扩展，旨在进一步降低大语言模型微调的计算和内存需求。

彬彬侠·2025-06-21 06:23

三十年河东，三十年河西

你需要拼命学习你需要补不足，补短板最怕自己能力不足，还在自我安慰重新出发了，后端->大模型微调->AIGC顶峰相见了，以后没得摸了

·2025-06-20 23:44

LoRA、QLoRA是什么

一：LoRA（Low-RankAdaptation，低秩适应）是一种高效的大模型参数微调技术，由Meta在2021年提出。

爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ·2025-06-20 17:58

Code Coverage

市场上主要代码覆盖率工具：EmmaCoberturaJacocoClover(商用)这里简单介绍一下Jacoco覆盖率的概念：Jacoco包含了多种尺度的覆盖率计数器,包含：指令级（Instructions

ROBIN-KING·2025-06-20 17:28

【深度学习pytorch-88】BERT

BERT（BidirectionalEncoderRepresentationsfromTransformers）简介BERT是一种基于Transformer架构的预训练语言表示模型，旨在通过大规模无监督学习来提升下游自然语言处理

超华东算法王·2025-06-20 15:46

ROCm上来自Transformers的双向编码器表示（BERT）

14.8.来自Transformers的双向编码器表示（BERT）—动手学深度学习2.0.0documentation(d2l.ai)代码importtorchfromtorchimportnnfromd2limporttorchasd2l

109702008·2025-06-20 15:46

69 BERT预训练_BERT代码_by《李沐：动手学深度学习v2》pytorch版

系列文章目录文章目录系列文章目录BidirectionalEncoderRepresentationsfromTransformers(BERT)输入表示预训练任务掩蔽语言模型（MaskedLanguageModeling

醒了就刷牙·2025-06-20 15:45

[AI]怎么计算中文被bert模型切分的tokens数量

目录1.中文BERT的Tokenization原理2.使用HuggingFace库计算Token数3.特殊情况处理4.注意事项在BERT模型中，计算中文文本的Token数需要根据具体的中文BERT分词器

just-do-it-zzj·2025-06-20 14:10

TensorFlow深度学习实战——Transformer变体模型

TensorFlow深度学习实战——Transformer变体模型0.前言1.BERT2.GPT-23.GPT-34.Reformer5.BigBird6.Transformer-XL7.XLNet8.

盼小辉丶·2025-06-20 06:36

AI模型微调完整学习方案：从入门到精通

引言随着大语言模型(LLM)技术的快速发展，微调模型以适应特定任务或领域的需求变得越来越重要。微调是一种技术，通过对预训练模型进行进一步训练，使其能够更好地解决特定问题或在特定领域表现更佳。

奔四的程序猿·2025-06-20 05:34

词编码模型有哪些

词编码模型有哪些词编码模型在高维向量空间的关系解析与实例说明如Word2Vec、BERT、Qwen等一、高维向量空间的基础概念词编码模型（如Word2Vec、BERT、Qwen等）的核心是将自然语言符号映射为稠密的高维向量

ZhangJiQun&MXP·2025-06-20 05:04

llama_index chromadb实现RAG的简单应用

毕竟大模型本地化有利于微调，RAG使内容更有依据。为什么要用RAG？

victorwjw·2025-06-19 21:07

资深Java工程师的面试题目（八）AI大模型

解析：Encoder-Only（如BERT）：用于理解型任务（如文本分类、问答系统）。原理：通过

刘一说·2025-06-18 18:31

Qwen2.5：模型训练和推理核心参数介绍

原因：如果不去掉，在进行微调时，模型就会将数据集原始字段和新加的字段一起输入到模型，导致格式与期望的不一致。

艾墨舟启航·2025-06-18 04:51

YOLO进化史：从v1到v12的注意力革命 —— 实时检测的“快”与“准”如何兼得？

YOLOv2（2017）：引入锚框（AnchorBoxes），通过k-means聚类确定先验框尺寸新增高分辨率微调（448×448输入）使用Darknet-19主干，速度达67FPSYOLOv

摘取一颗天上星️·2025-06-17 23:49

LLM指令微调Prompt的最佳实践（二）：Prompt迭代优化

Prompt定义3.迭代优化——以产品说明书举例3.1产品说明书3.2初始Prompt3.3优化1:添加长度限制3.4优化2:细节纠错3.5优化3:添加表格4.总结5.参考1.前言前情提要：《LLM指令微调

SmallerFL·2025-06-17 22:11

Embedding 微调就是你的救星！

在AI时代，Embedding是NLP任务的基石，直接决定了你的模型是「聪明绝顶」还是「笨拙不堪」。你是否遇到过这些让人头疼的问题：做智能问答时，模型总是答非所问，用户一脸懵圈？做推荐系统时，用户翻遍推荐内容，还是觉得「没一个对味」？做语义搜索时，搜索结果五花八门，相关性差到让人抓狂？这些问题的罪魁祸首，往往就是你的Embedding不够精准！通用Embedding在特定领域常常「水土不服」：在电

大模型玩家·2025-06-17 13:41

大模型微调(Fine-tuning)概览

大模型微调（Fine-Tuning）是将预训练大模型（如GPT、LLaMA）适配到特定任务或领域的核心技术，其效率与效果直接影响大模型的落地价值。

MzKyle·2025-06-17 08:39

【GitHub开源项目实战】DINOv2 自监督视觉模型深度解构：多任务零微调性能与多分辨率表征架构解析

DINOv2自监督视觉模型深度解构：多任务零微调性能与多分辨率表征架构解析关键词DINOv2、自监督视觉模型、ViT、多分辨率表示、语义分割、深度估计、Zero-shot、图像表示学习、OpenCLIP

观熵·2025-06-17 01:15

实现AI数据高效评估的一种方法

在线评价阶段，则通过对synset进行微调，并结合特定的模型行为评估需求，快速构建出针对不同测试样本的影

mao_feng·2025-06-17 00:08

【AI大模型】15、从GPT-1到GPT-3：大语言模型核心技术演进与能力涌现全解析

一、GPT-1：预训练微调范式的奠基者（2018）（一）架构创新：单向Transformer解码器的诞生GPT-1首次将Transformer架构应用于语言模型领域，其核心采用12层Transformer

·2025-06-16 14:04

DeepSeek 遭美国攻击宕机，手把手教你本地部署，手机也支持！

自主控制与定制化可根据业务需求灵活调整模型参数、优化算法，或集成私有数据微调模型，适配特定场景。低延迟与高性能本地部署减少网络传输延迟，结合硬件优化（如GPU加速），提升实时处理效率。

MarkGosling·2025-06-16 11:45

【项目实训】【项目博客#06】大模型微调与推理优化（4.21-5.11）

【项目实训】【项目博客#06】大模型微调与推理优化（4.21-5.11）文章目录【项目实训】【项目博客#06】大模型微调与推理优化（4.21-5.11）项目博客概述一、整体架构设计二、QLora量化微调技术

elon_z·2025-06-16 05:07

Mozilla 开源 llamafile:大语言模型分发与部署新范式

引言随着ChatGPT、BERT等大型语言模型(LargeLanguageModel,LLM)在自然语言处理领域掀起巨大波澜,AI技术正以前所未有的速度走近大众生活。

codebat_raymond·2025-06-16 05:33

预训练、指令微调与RLHF如何塑造LLM

理解这个训练过程的核心环节——大规模无监督预训练（Pre-training）、指令微调（InstructionFine-Tuning,IFT）以及从人类反馈中强化学习（ReinforcementLearningfromHumanFeedback

由数入道·2025-06-15 16:15

2025年大模型学习路线图：史上最全、最新的大模型学习指南！非常详细收藏这一篇就够了！

大模型学习路线建议先从主流的Llama开始，然后选用中文的Qwen/Baichuan/ChatGLM，先快速上手体验prompt工程，然后再学习其架构，跑微调脚本前排提示，文末有大模型AGI-CSDN独家资料包哦

大模型教程·2025-06-15 16:42

S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal

核心方法包括：稀疏体表示（SparseVolumeRepresentation）：将多视图、多帧图像的视觉信息聚合到3D空间，通过轻量级投影和门控机制动态选择关键区域，增强模型的3D时空推理能力，且无需微调预训练的视觉

UnknownBody·2025-06-15 15:37

【项目实训】【项目博客#04】ArkTS代码切分与微调数据集提示词生成（4.7-4.20）

【项目实训】【项目博客#04】ArkTS代码切分与微调数据集提示词生成（4.7-4.20）文章目录【项目实训】【项目博客#04】ArkTS代码切分与微调数据集提示词生成（4.7-4.20）项目博客概述一

elon_z·2025-06-15 06:05

用 LoRA 对 Qwen2.5-VL 模型进行SFT - qwen2_5vl_lora_sft.yaml

1llamafactory-clitrainexamples/train_lora/qwen2_5vl_lora_sft.yamlqwen2_5vl_lora_sft.yaml││││└──SFT:有监督微调

二分掌柜的·2025-06-15 02:37

记录一个大模型逐层微调计算损失输出少了一个维度的小bug

1.假如针对的对象是lineardef_compute_mse_on_batch(layer:nn.Module,batch_iter:Iterator[Tuple[torch.Tensor,torch.Tensor]],**kwargs)->torch.Tensor:inps_batch,outs_batch=next(batch_iter)print("Initialinps_batch:",

绒绒毛毛雨·2025-06-14 21:31

Python打卡第50天

@浙大疏锦行知识点回顾：resnet结构解析CBAM放置位置的思考针对预训练模型的训练策略差异化学习率三阶段微调数据预处理+定义cbamimporttorchimporttorch.nnasnnimporttorch.optimasoptimfromtorchvisionimportdatasets

猛犸MAMMOTH·2025-06-14 16:25

推荐频道

BERT微调