LLM微调

Day44

1.预训练概念：在大规模数据上训练模型学习通用知识，再迁移到下游任务微调2.常见模型：图像有AlexNet、ResNet、ViT；NLP有BERT、GPT3.图像模型发展：从手工特征到深度学习，从CNN

·2025-07-04 12:19

大规模预训练语言模型的参数高效微调

人工智能咨询培训老师叶梓转载标明出处大规模预训练语言模型（PLMs）在特定下游任务上的微调和存储成本极高，这限制了它们在实际应用中的可行性。

·2025-07-04 10:37

RAG实战指南 Day 3：LangChain框架深度解析

LangChain已成为开发基于大语言模型(LLM)应用的事实标准，特别在检索增强生成(RAG)系统中扮演着关键角色。

在未来等你·2025-07-04 09:57

大模型私有化部署的系统性挑战与解决方案：企业视角的深度解析

然而，由于数据隐私、定制需求、合规政策等多重因素，私有化部署成为多数企业采用LLM的首选路径。企业选择私有部署大模型，通常基于以下几个原因：数据安全需求：业务数据敏感，禁止外发；可控

慌ZHANG·2025-07-04 08:51

大模型微调到底有没有技术含量？

今天给大家带来知乎好友@ybq的一篇回答-大模型微调到底有没有技术含量，或者说技术含量到底有多大？

DeepSeek-大模型系统教程·2025-07-04 05:02

LLM归因的几种评估方式

参考ASurveyofLargeLanguageModelsAttribution，LLM归因有以下几种有效的评估方式。1人工评估归因错误的检测难度大，所以评估主要依赖人工评价进行归因检测。

liliangcsdn·2025-07-04 03:23

LLM归因的限制和挑战

LLM归因虽然能提升任务性能和模型的可解释性，但面临多个方面的限制。

·2025-07-04 03:53

Python 快速入门教程：构建一个 A2A Agent

然后，您将看到一个集成了大型语言模型(LLM)的更高级示例。本实践指南将帮助您理解：A2A协议背后的基本概念。如何使用SDK为A2A开发设置Python环境。

@井九·2025-07-04 02:47

BAAI/BGE-VL多模态模型部署、原理、代码详解（实现图像文本混合检索），包含BEG-VL多模态模型的本地部署详细步骤及代码原理解析

：这里可以添加本文要记录的大概内容：包含四个模型及数据集，数据集未开源，四个模型可以分别下载：其中，BGE-VL-base/Large是基于CLIP训练的模型，BGE-VL-MLLM-S1/S2是基于LLM

令令小宁·2025-07-04 01:09

【Agent实战】用“前置编码器+LLM”复刻ChatGPT附件功能

1.引言：多模态LLM解耦原生多模态LLM将多种模态的处理能力“内化”于一个庞大的模型中，是技术的前沿。

kakaZhui·2025-07-03 23:56

LLM大模型命名规则与部署硬件实践手册

文章目录一、理论基础：从信息编码到系统设计1.1命名系统的信息论基础1.2硬件架构与模型运行的关系1.3量化技术的数学原理二、国际主流模型命名规则深度解析2.1OpenAI：极简主义与功能导向2.2AnthropicClaude：诗意命名的技术内涵2.3GoogleGemini：统一品牌下的分层架构2.4MetaLlama：开源社区的透明化命名三、国内主流模型命名规则与文化内涵3.1百度文心：知识

·2025-07-03 22:49

LoRA微调详解：如何为AIGC模型节省90%显存

LoRA微调详解：如何为AIGC模型节省90%显存关键词：LoRA、低秩适应、AIGC模型、参数高效微调、显存优化摘要：在AIGC（人工智能生成内容）领域，大模型（如GPT-3、LLaMA、StableDiffusion

SuperAGI2025·2025-07-03 19:00

借助 KubeMQ 简化多 LLM 集成

将多个大语言模型（LLM），如OpenAI和Anthropic的Claude集成到应用程序中是一项具有挑战性的任务。处理不同API和通信协议的复杂性，以及确保请求高效路由，都会带来诸多难题。

强哥之神·2025-07-03 18:18

科普语音交互所需开源技术方案

以下是ASR（自动语音识别）、LLM（大语言模型）和TTS（文本转语音）三者结合的应用场景及开源方案：一、应用场景智能语音助手如百聆（Bailing），支持语音输入、意图理解、任务管理及语音输出，端到端延迟仅

·2025-07-03 17:45

结合LangGraph、DeepSeek-R1和Qdrant 的混合 RAG 技术实践

传统RAG通过向量数据库存储文档嵌入并检索相关内容，结合大语言模型（LLM）生成回答，有效缓解了LLM的“幻觉”问题。

大模型之路·2025-07-03 17:45

LLM---大语言模型技术研究报告

摘要大语言模型（LLMs）已从技术突破走向产业规模化落地。2025年，全球LLMs进入“模型即服务”（MaaS）时代，参数量级突破万亿级，多模态能力、智能体协作、专业化细分成为主流趋势。中国大模型领域在DeepSeek、通义千问、讯飞星火等头部模型推动下，实现技术突破与场景创新。本报告基于截至2025年7月的最新数据，系统梳理LLMs的技术演进、应用场景、挑战与未来方向。一、大语言模型的演进与突破

·2025-07-03 14:23

解释LLM怎么预测下一个词语的

解释LLM怎么预测下一个词语的通过上文词的向量进行映射在Transformer架构的大语言模型（如GPT系列、BERT等）中，词语会先被转化为词向量。

ZhangJiQun&MXP·2025-07-03 14:23

大语言模型：是逐字生成还是一次多词？

大语言模型（LLM）既可以按顺序逐个生成单词（token），也能实现一次生成多个token核心差异源于解码策略与模型架构设计一、常规“逐个生成”模式（基础逻辑）多数入门级演示或简单文本生成中，LLM会默认按

ZhangJiQun&MXP·2025-07-03 14:51

微软：LLM训练数据组织框架DELT

标题：DataEfficacyforLanguageModelTraining来源：arXiv,2506.21545摘要数据是语言模型（LM）训练的基础。最近的研究一直致力于数据效率，其目的是通过选择训练数据的最小或最优子集来最大限度地提高性能。数据过滤、采样和选择等技术在这一领域起着至关重要的作用。为了补充这一点，我们定义了数据效能，它侧重于通过优化训练数据的组织来最大限度地提高性能，目前尚未得

大模型任我行·2025-07-03 13:17

思维树(Tree of Thoughts): 超越链式思维的AI推理新范式

引言在人工智能快速发展的今天，大语言模型(LLM)的推理能力一直是研究的热点。

司南锤·2025-07-03 13:45

云原生环境下部署大语言模型服务：以 DeepSeek 为例的实战教程

个人主页：一ge科研小菜鸡-CSDN博客期待您的关注一、引言随着DeepSeek、Qwen、ChatGLM等大语言模型（LLM）的开放与普及，企业将其私有化部署并服务化的需求愈发迫切。

一ge科研小菜菜·2025-07-03 13:42

用Firecrawl轻松获取网站数据，提升AI应用的效率！

它不仅能够将整个网站的数据转化为适用于大语言模型（LLM）的markdown或结构化数据，还能通过单一的API实现数据抓取、爬取和提取。从此，清晰、整洁的数据触手可及。什么是Firecrawl？

人工智能我来了·2025-07-03 12:33

探秘AI的秘密：leaked-system-prompts

揭秘：揭秘系统提示合集背后的秘密在当今这个人工智能技术迅速发展的时代，了解和使用大型语言模型（LLM）已成为技术爱好者、开发者和研究人员的共同目标。

人工智能我来了·2025-07-03 11:28

深入探索 Vanna：让数据库交互更智能

Vanna，一个基于Python的开源工具，通过结合检索增强（RetrievalAugmentation）和大型语言模型（LLM），为这一问题提供了一个创新的解决方案。本文将深入探讨Vanna

从零开始学习人工智能·2025-07-03 11:56

语言的钥匙：提示工程的艺术与驾驭AI的智慧

当大型语言模型（LLM）如GPT-4展现出令人惊叹的通用能力，却又伴随着“幻觉”、“黑箱”和“不可控”等阴影时，一个核心问题变得无比迫切：人类如何有效地与这些庞然大物沟通，引导它们可靠、安全、精准地完成任务

田园Coder·2025-07-03 10:51

VSCode-Copilot的系统提示词

title:VSCode-Copilot系统提示词date:2025-07-0211:05categories:技术tags:AI人工智能LLM大语言模型提示词Microsoft开源了VSCodeCopilotChat

youngqqcn·2025-07-03 10:19

深入剖析AI大模型：关于模型训练

一、使用开源预训练模型1、如何利用开源模型（如BERT、GPT）进行微调开源预训练模型就像是已经搭建好框架的摩天大楼，BERT、GPT等模型便是其中声名赫赫的标志性建筑。它们经过海量数据的“

chilavert318·2025-07-03 08:06

微调 || RAG，项目落地怎么选？LLM应用选型指南，适用场景全解析

基本定义微调：是指利用更小、更具针对性的数据集对经过预先训练的大语言模型进一步训练的过程。在这个过程中，模型基于新数据集修改权重和参数，学习特定于任务的模式，同时保留来自最初预训练模型的知识。

认知超载·2025-07-03 08:36

Python Day44

图像预训练模型的发展史4.预训练的策略5.预训练代码实战：resnet181.预训练的概念预训练（Pre-training）是指在大规模数据集上，先训练模型以学习通用的特征表示，然后将其用于特定任务的微调

别勉.·2025-07-03 07:57

零基础起步：基于GpuGeek的文本生成模型实战

目录一、GpuGeek平台使用流程详解1.注册与登录2.数据上传3.创建训练实例4.启动与使用实例5.关闭实例（手动&自动）二、文本生成实战任务：微调GPT-21.

昊昊该干饭了·2025-07-03 06:54

LangSmith 深度解析：构建企业级LLM应用的全生命周期平台

LangSmith深度解析：构建企业级LLM应用的全生命周期平台LangSmith是LangChain生态系统中的核心组件，为LLM应用提供从开发到生产的全链路支持。

小赖同学啊·2025-07-03 06:20

LangChain4j在Java企业应用中的实战指南-2

LangChain4j在Java企业应用中的实战指南文章标签langchain4j,JavaAI,RAG系统,智能应用开发,LangChain4j实战,企业级AI应用,Java微服务,检索增强生成文章简述随着大语言模型（LLM

在未来等你·2025-07-03 04:43

(论文总结)思维链激发LLM推理能力

研究背景&动机背景:扩大模型规模已被证实具有提升模型性能和模型效率的功效，但是LLM对于完成推理、算术任务仍有较大不足。

靈镌sama·2025-07-03 03:58

LangChain4j在Java企业应用中的实战指南-3

在Java企业应用中的实战指南】文章标签langchain4j,JavaAI,RAG系统,智能应用开发,LangChain4j实战,企业级AI应用,Java微服务,检索增强生成文章简述随着大语言模型（LLM

在未来等你·2025-07-03 02:24

DAY 45 Tensorboard使用介绍

DAY45Tensorboard使用介绍1.tensorboard的发展历史和原理2.tensorboard的常见操作3.tensorboard在cifar上的实战：MLP和CNN模型作业：对resnet18在cifar10上采用微调策略下

HINOTOR_·2025-07-03 01:10

千亿参数大模型轻量化实战：手机端LLM推理加速300%方案

点击跳转到网站《千亿参数大模型轻量化实战：手机端LLM推理加速300%方案》副标题：2025实测骁龙8Gen4+FP4稀疏量化技术，70B模型推理延迟低至127ms，重构移动端AI天花板封面图：[高通骁龙

·2025-07-03 00:33

大模型学习（Datawhale_Happy-LLM）笔记7: Encoder-Decoder PLM

大模型学习（Datawhale_Happy-LLM）笔记7:Encoder-DecoderPLM1.Encoder-Decoder架构概述1.1架构基础Encoder-DecoderPLM是基于原始Transformer

lxltom·2025-07-02 23:31

[AI笔记]-LLM中的3种架构:Encoder-Only、Decoder-Only、Encoder-Decoder

一、概述架构描述特点案例Encoder-Only仅包含编码器部分这类模型主要专注输入数据中提取特征或上下文信息，通常不需要生成新内容、只需要理解输入的任务，如：分类(文本分类、情感分析等)、信息抽取、序列标注等。在这种架构中，所有的注意力机制和网络层都集中在编码输入数据上，其输出通常是关于输入的复杂语义表示。谷歌的BERT、智谱AI发布的第四代基座大语言模型GLM4Decoder-Only也被称为

Micheal超·2025-07-02 23:29

提示技术系列——主动提示

提示工程是指通过设计、优化和迭代输入到大语言模型（LLM）的提示（Prompt），系统性提升模型输出质量（如相关性、准确性、可控性）的实践领域。

AIGC包拥它·2025-07-02 22:17

workflow的可编排协作模式

一、传统单一模式特点：使用标准框架进行线性编排所有任务按固定顺序执行适合简单、确定性强的流程适用场景：规则明确、步骤固定的业务流程自动化二、路由模式核心机制：LLM先识别用户意图根据意图路由到对应处理模块优势

思绪漂移·2025-07-02 21:41

AI agent开发出办公AI小助手的学习方案和路线

此方案参考当前主流大模型（LLM）及相关工具链生态，总体目标是从零开始了解所需知识体系与技能，并能在实践中构建自动化的客服AI或者办公辅助类AI助手。

云博士的AI课堂·2025-07-02 20:34

【T2I】R&B: REGION AND BOUNDARY AWARE ZERO-SHOT GROUNDED TEXT-TO-IMAGE GENERATION

在这项工作中，我们探索了使用扩散模型进行零样本接地T2I生成，即无需训练辅助模块或微调扩散模型就能生成与输入布局信息相对应的图像。我们提出了一种区域与边

Akttt·2025-07-02 17:13

构建下一代云原生大模型多租户平台：架构设计与关键挑战

个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：从单用户部署到多租户平台的转型趋势随着开源大语言模型（LLM）能力日益强大，企业部署与应用大模型已从“验证可行性”的早期阶段，逐步迈向“规模化服务

慌ZHANG·2025-07-02 16:08

GitHub已破4.5w star，从“零样本”到“少样本”TTS，5秒克隆声音，冲击传统录音棚！

GPT‑SoVITS应运而生，它让“5秒语音克隆”“1分钟微调自定义说话人”“多语言切换”变得轻而易举。让无论是主播、配音师，还是科技爱好者，都能轻松拥有定制化声音输出。痛点场景配

小华同学ai·2025-07-02 15:28

vLLM调度部署Qwen3

其核心目标是通过创新的软件和算法设计，大幅提升LLM在生成文本时的吞吐量和效率，尤其适用于处理高并发的推理请求。从各种基准

你好，此用户已存在·2025-07-02 10:19

初学Spring AI 笔记

目录SpringAI简介依赖与环境配置基础概念集成OpenAI（或其他LLM提供商）Prompt模板引擎Embedding与向量数据库SpringAIChatClient使用SpringAI和LangChain

笑衬人心。·2025-07-02 05:14

【机器学习&深度学习】适合微调的模型选型指南

目录一、不同规模模型微调适用性二、微调技术类型对显存的影响三、选择建议（根据你的硬件）四、实际模型推荐五、不同模型适合人群六、推荐几个“非常适合微调”的模型七、推荐使用的微调技术八、场景选择示例场景1：

一叶千舟·2025-07-02 05:12

基于langchain的法律助手工作流的搭建

该工作流有四个llm组成，包括三个worker以及一个planner。planner用于识别用户输入，将其划分为具体任务并调用相应的worker。

一尾清风915·2025-07-02 04:04

LLM大语言模型学习笔记（1）

1.概念大语言模型（LLM，LargeLanguageModel），也称大型语言模型，是一种旨在理解和生成人类语言的人工智能模型。

Arixs666·2025-07-02 03:31

大语言模型LLM原理篇

大模型席卷全球，彷佛得模型者得天下。对于IT行业来说，以后可能没有各种软件了，只有各种各样的智体（Agent）调用各种各样的API。在这种大势下，笔者也阅读了很多大模型相关的资料，和很多新手一样，开始脑子里都是一团乱麻，随着相关文章越读越多，再进行内容梳理，终于理清了一条清晰的脉络。笔者写原理篇时心情是有些惴惴不安的，因为毕竟对大模型的研究有限，缺乏深度。但是，还是觉得有必要记录一下学习理解心得，

·2025-07-02 03:59

推荐频道