LLM微调第10页

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型

m0_74823683·2025-01-21 20:08

Spring AI提示词模板PromptTemplate的使用

本文重点介绍Prompt提示词和PromptTemplate提示词模板，在SpringAI框架里，Prompt类的设计旨在简化与LLM之间的交互过程，同时提供了足够的灵活性来满足不同类型的对话需求。

大龄码农有梦想·2025-01-21 19:27

AI大模型：开启智能革命新纪元

1.AI大模型技术：智能革命的新引擎自2022年11月30日OpenAI推出ChatGPT以来，这一大型语言模型（LLM）迅速走红，标志着AI领域进入了一个新的发展阶段，即AI大模型时代。

洋洋科创星球·2025-01-21 17:09

大模型GUI系列论文阅读 DAY2续：《一个具备规划、长上下文理解和程序合成能力的真实世界Web代理》

我们提出WebAgent，一个由LLM驱动的智能代理，能够通过自我学习的方式，在真实网站上按照自然语言指令完成任务。WebAgent通过将指令提前规划，将其分解为子指

feifeikon·2025-01-21 15:19

构建知识图谱：从文本到结构化数据的转化

从文本中提取结构化信息主要依赖于大语言模型（LLM），如OpenAI的GPT-4，其能力在于解析和分类

sagvWSRJHMNEB·2025-01-21 11:14

构建一个针对SQL数据的问答系统

在这篇文章中，我们将探索如何使用大型语言模型(LLM)创建一个问答系统来查询SQL数据库中的表格数据。我们将通过对比链条和代理的实现来理解不同的建模策略。

safHTEAHE·2025-01-21 09:24

AIGC - 深度洞察如何对大模型进行微调以满足特定需求

网罗开发（视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：COC上海社区主理

网罗开发·2025-01-21 08:22

LLaMA-Factory 基于 LoRA 的 SFT 指令微调及相关功能梳理

1.数据准备微调数据的格式为Alpaca或ShareGPT格式，需进行以下步骤：自定义数据集转换：将原始数据集转换成指定格式（JSON格式）。

Ambition_LAO·2025-01-21 07:42

LLM - 大模型 ScallingLaws 的 CLM 和 MLM 中不同系数(PLM) 教程(2)

欢迎关注我的CSDN：https://spike.blog.csdn.net/本文地址：https://spike.blog.csdn.net/article/details/145188660免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。ScalingLaws(缩放法则)是大模型领域中，用于描述模型性能(Loss)与模型规模N、数据量D、计算资源C之间关系的经验规

ManonLegrand·2025-01-21 04:10

AI 2025：技术飞跃与应用鸿沟——AI代码生成器引领未来？

大型语言模型（LLM）的能力显著提升，成本大幅下降，多模态应用成为主流。然而，令人担忧的是，技术进步与实际应用普及之间存在着巨大的鸿沟。“智能体”等概念被热炒，但实际应用却远未达到预期。

·2025-01-21 03:33

探索前沿AI技术：什么是LLM框架?什么是Agent应用?什么是Workflow架构?一篇文章带你全部搞懂

探索前沿AI技术：什么是LLM框架?什么是Agent应用?什么是Workflow架构?前排提示，文末有大模型AGI-CSDN独家资料包哦！文章目录探索前沿AI技术：什么是LLM框架?

大模型学习路线·2025-01-21 01:39

大模型的RAG微调与Agent：提升智能代理的效率与效果

目录编辑引言RAG模型概述检索阶段生成阶段RAG模型的微调数据集选择损失函数设计微调策略超参数调整RAG模型在智能代理中的应用客户服务信息检索内容创作决策支持：结论引言在人工智能的快速发展中，大型预训练模型

WeeJot·2025-01-21 00:57

【LLM】Ollama：本地大模型 WebAPI 调用

Ollama快速部署安装Docker：从Docker官网下载并安装。部署Ollama：使用以下命令进行部署：dockerrun-d-p11434:11434--nameollama--restartalwaysollama/ollama:latest进入容器并下载qwen2.5:0.5b模型：进入Ollama容器：dockerexec-itollamabash在容器内下载模型：ollamapull

T0uken·2025-01-20 23:22

OpenBayes 一周速览｜微软 Phi-4 发布，降低更多成本实现高效推理；Terra 时空数据集上线

公共资源速递5个数据集：Terra多模态时空数据集ChineseCouplets中文对联数据集AqueousSolubility无机化合物数据集HumanLikeDPODataset大模型对话微调数据集

·2025-01-20 23:55

企业落地大模型的路径选择：微调、RAG、提示词工程

一、大模型的特点1）不确定性与传统应用不同，模型的输出是不确定的，即使多次问它一样的问题，给出的结果也可能不一样。这种特性对于日常应用业务OK，但是如果要在企业内用来处理具体业务问题，就必须提高这个稳定性，否则影响生产经营，例如产线操作人员通过模型获取操作步骤或者参数，如果步骤或者数据不对可能会导致产品出现质量问题等等。2）静态性模型一旦训练好，就无法再补充数据，因此模型不会了解你自己组织内部的年

AGI-杠哥·2025-01-20 22:46

使用LangChain构建简单LLM翻译应用

技术背景介绍在本教程中，我们将学习如何使用LangChain构建一个简单的语言模型（LLM）应用程序，该应用程序用于将文本从英语翻译成其他语言。

fGVBSAbe·2025-01-20 22:13

OpenBayes 一周速览｜微软 Phi-4 发布，降低更多成本实现高效推理；Terra 时空数据集上线

公共资源速递5个数据集：Terra多模态时空数据集ChineseCouplets中文对联数据集AqueousSolubility无机化合物数据集HumanLikeDPODataset大模型对话微调数据集

·2025-01-20 22:08

【AI论文】迈向大型推理模型：大型语言模型增强推理综述

大型语言模型（LLM）的突破激发了利用这些模型解决复杂推理任务的浓厚研究兴趣。研究人员已经超越了简单的自回归词元生成，引入了“思维”的概念——即代表推理过程中间步骤的词元序列。

东临碣石82·2025-01-20 19:09

Flex.1-Alpha - 可进行适当微调的新修改通量模型。

最初的目标是训练一个可以在训练过程中激活的LoRA，以便对步长压缩模型进行微调。

吴脑的键客·2025-01-20 15:05

使用MoA(Mixture of Agents)混合智能体技术,结合多个开源大语言模型如Llama3、phi-3和Mistral,实现一个强大的AI智能体

1.简介论文简介:论文提出了一种称为混合智能体(Mixture-of-Agents,MoA)的方法,利用多个大语言模型(LLM)的集体智慧来提高自然语言理解和生成任务的性能。

fc&&fl·2025-01-20 14:56

使用Llama 3.2-Vision多模态LLM与您的图像聊天

介绍将视觉能力与大型语言模型（LLMs）结合的多模态LLM（MLLM）正在通过多模态LLM革命性地改变计算机视觉领域。这些模型结合了文本和视觉输入，展示了在图像理解和推理方面的出色能力。

AI程序猿人·2025-01-20 12:01

手把手教你 AI 顾投：在 Ollama 中使用 Python 调用金融 API 服务

写在前面的话：尽管Ollama本身不是一个大型语言模型（LLM）开发工具，而是一个LLM的平台。

老余捞鱼·2025-01-20 08:55

玩转大模型的第一步——提示词(Prompt)工程【抛砖篇】

Prompt编写框架我们可以简单的看一下，分别使用下面两个Prompt在LLM的输出中分别会得到

AI大模型老林·2025-01-20 03:37

实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B（多模态）

VLLM是一种高效的深度学习推理库，通过PagedAttention算法有效管理大语言模型的注意力内存，其特点包括24倍的吞吐提升和3.5倍的TGI性能，无需修改模型结构，专门设计用于加速大规模语言模型（LLM

学术菜鸟小晨·2025-01-20 02:50

使用Python实现LLM的文本生成：风格迁移与内容控制

文章目录引言1.大型语言模型（LLM）概述1.1Transformer架构1.2预训练与微调2.文本生成基础2.1无条件生成2.2条件生成3.风格迁移3.1风格迁移的基本原理3.2使用Python实现风格迁移

二进制独立开发·2025-01-20 02:46

工业大模型市场图谱：53个工业大模型全面梳理

根据沙丘智库发布的《2024年中国工业大模型应用跟踪报告》，工业大模型是指在通用基础大模型（例如文心一言、通义千问等）的基础上，结合行业&场景数据进行预训练和微调，并进行模型压缩（裁剪、蒸馏等）所形成的大模型

大模型常客·2025-01-19 19:21

透过生活小故事，轻松理解大模型开发的五种核心方法

本文将以贴近生活的五个场景，通俗易懂地讲解大模型开发中的五种核心方法：提示词工程和外部函数、Agent设计、RAG设计（检索增强生成）、微调以及预训练。让我们一同走进这些故事，揭开大模型

·2025-01-19 19:54

Cognitive Architectures for Language Agents

本文是LLM系列文章，针对《CognitiveArchitecturesforLanguageAgents》的翻译。

UnknownBody·2025-01-19 16:57

认知架构 cognitive architecture

认知架构应用的两个组件：（1）如何提供上下文给应用（2）应用如何推理不同级别的认知架构：（1）单个LLM、仅得到输出（2）一连串LLM、仅得到输出（3）LLM作为路由、选择要使用的操作（工具、检索器、提示

谁怕平生太急·2025-01-19 16:20

从零开始的 AI Infra 学习之路

从零开始的AIInfra学习之路文章目录从零开始的AIInfra学习之路一、概述二、AI算法应用2.1机器学习2.2深度学习2.3LLM三、AI开发体系3.1编程语言四、AI训练框架&推理引擎4.1PyTorch4.2llama.cpp4.3vLLM

SSS不知-道·2025-01-19 15:15

探索LLMonitor：全面提升AI应用可观测性的开源平台

引言在构建和部署大型语言模型（LLM）和聊天模型时，开发者通常面临数据追踪、使用情况分析、成本控制等各种挑战。LLMonitor是一个开源的可观测性平台，专注于解决这些挑战。

afTFODguAKBF·2025-01-19 14:05

深入解读ChatGPT的工作原理及底层逻辑

通过预训练和微调，模型能够理解语言的语法和语义，并能够根据上下文生成符合语境的文本回复。基本原理ChatGPT是一种基于自然语言处理（NLP）和深度学习技术的聊天机器人。

NAR_鱼丸·2025-01-19 13:59

深度剖析 DeepSeek V3 技术报告：架构创新与卓越性能表现

随着人工智能（AI）技术的不断发展，各种大规模语言模型（LLM）层出不穷，DeepSeekV3作为其中的一员，凭借其出色的性能表现和创新的架构设计，吸引了广泛关注。

微凉的衣柜·2025-01-19 09:27

深度学习-45-大型语言模型LLM之本地化部署运行自己的大模型

文章目录1深度学习1.1神经网络和深度学习1.2神经网络的工作原理1.3神经网络的专业术语2LLM概述2.1大模型的"大"是指什么?2.2训练大模型有多烧钱？2.3如何入门大模型？

皮皮冰燃·2025-01-19 04:58

Knowledge Boundary of Large Language Models: A Survey

本文是LLM系列文章，针对《KnowledgeBoundaryofLargeLanguageModels:ASurvey》的翻译。

UnknownBody·2025-01-19 03:52

吴恩达系列——微调（Fine-tuning）与生成模型的应用

微调（Fine-tuning）是指在已有预训练模型的基础上，对模型进行进一步训练，以适应特定任务或需求。

疯狂小料·2025-01-18 21:04

OpenSPG docker 安装教程

文章目录前言自述一、OpenSPG1.介绍二、安装步骤1.安装服务端2.客户端部署前言自述我最近是想结合chatglm3-6b和知识图谱做一个垂直领域的技术规范的问答系统，过程中也遇到了很多困难，在模型微调上

@comefly·2025-01-18 21:29

ChatGPT大模型极简应用开发-目录

ChatGPT背后的LLM技术使普通人能够通过自然语言完成过去只能由程序员通过编程语言实现的任务，这是一场巨大的变革。然而，人类通常容易高估技术的短期影响而低估长期影响。

uncle_ll·2025-01-18 20:55

思维图GOT：用大语言模型解决复杂问题

思维图（GoT）是一个框架，提高大型语言模型（LLM）中的提示功能，超出思维链或思维树(ToT)等范式所提供的能力。GoT的关键思想和主要优势是能够将LLM生成的信息建模为任意图，其中信息单位

硅谷秋水·2025-01-18 19:05

无缝融入，即刻智能[二]：Dify-LLM平台(聊天智能助手、AI工作流)快速使用指南，42K+星标见证专属智能方案

无缝融入，即刻智能[二]：Dify-LLM平台(聊天智能助手、AI工作流)快速使用指南，42K+星标见证专属智能方案1.快速创建应用你可以通过3种方式在Dify的工作室内创建应用：基于应用模板创建（新手推荐

汀、人工智能·2025-01-18 18:58

1.Spring AI 从入门到实践

应用程序3.ChatClient&ChatModel简化与AI模型的交互4.SpringAIPrompt:与大模型进行有效沟通5.结构化输出大模型响应6.实战:AI聊天机器人Ben技术站关注Java技术，LLM

laopeng301·2025-01-18 18:57

第79期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

云起无垠·2025-01-18 17:22

第60期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

云起无垠·2025-01-18 17:22

【LLM】大语言模型（LLMs）

大型语言模型（LargeLanguageModel，LLM）是基于深度学习的自然语言处理模型，能够理解和生成自然语言文本。

林九生·2025-01-18 17:21

第83期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

云起无垠·2025-01-18 16:11

【大模型LoRa微调】Qwen2.5 Coder 指令微调【代码已开源】

本文需要用到的代码已经放在GitHub的仓库啦，别忘了给仓库点个小心心~~~https://github.com/LFF8888/FF-Studio-Resources第001个文件哦~一、引言：大语言模型与指令微调

FF-Studio·2025-01-18 07:31

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型

XianxinMao·2025-01-18 05:21

第78期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

·2025-01-18 05:13

ACL 2024 | 美团技术团队精选论文解读

本文精选了美团技术团队被ACL2024收录的4篇论文进行解读，论文内容覆盖了训练成本优化、投机解码、代码生成优化、指令微调（IFT）等技术领域。这些论文是美团技术团队跟高校、科研机构合作的成果。

·2025-01-18 05:12

GitHub每日最火火火项目（1.17）

OpenBMB/MiniCPM-o项目名称：OpenBMB/MiniCPM-o用途：MiniCPM-o2.6是一个适用于手机的视觉、语音和多模态直播的GPT-4o级别大语言模型（LLM）。

FutureUniant·2025-01-18 04:12

推荐频道

LLM微调

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

Spring AI提示词模板PromptTemplate的使用

AI大模型：开启智能革命新纪元

大模型GUI系列论文阅读 DAY2续：《一个具备规划、长上下文理解和程序合成能力的真实世界Web代理》

构建知识图谱：从文本到结构化数据的转化

构建一个针对SQL数据的问答系统

AIGC - 深度洞察如何对大模型进行微调以满足特定需求

LLaMA-Factory 基于 LoRA 的 SFT 指令微调及相关功能梳理

LLM - 大模型 ScallingLaws 的 CLM 和 MLM 中不同系数(PLM) 教程(2)

AI 2025：技术飞跃与应用鸿沟——AI代码生成器引领未来？

探索前沿AI技术：什么是LLM框架?什么是Agent应用?什么是Workflow架构?一篇文章带你全部搞懂

大模型的RAG微调与Agent：提升智能代理的效率与效果

【LLM】Ollama：本地大模型 WebAPI 调用

OpenBayes 一周速览｜微软 Phi-4 发布，降低更多成本实现高效推理；Terra 时空数据集上线

企业落地大模型的路径选择：微调、RAG、提示词工程

使用LangChain构建简单LLM翻译应用

OpenBayes 一周速览｜微软 Phi-4 发布，降低更多成本实现高效推理；Terra 时空数据集上线

【AI论文】迈向大型推理模型：大型语言模型增强推理综述

Flex.1-Alpha - 可进行适当微调的新修改通量模型。

使用MoA(Mixture of Agents)混合智能体技术,结合多个开源大语言模型如Llama3、phi-3和Mistral,实现一个强大的AI智能体

使用Llama 3.2-Vision多模态LLM与您的图像聊天

手把手教你 AI 顾投：在 Ollama 中使用 Python 调用金融 API 服务

玩转大模型的第一步——提示词(Prompt)工程【抛砖篇】

实战千问2大模型第五天——VLLM 运行 Qwen2-VL-7B（多模态）

使用Python实现LLM的文本生成：风格迁移与内容控制

工业大模型市场图谱：53个工业大模型全面梳理

透过生活小故事，轻松理解大模型开发的五种核心方法

Cognitive Architectures for Language Agents

认知架构 cognitive architecture

从零开始的 AI Infra 学习之路

探索LLMonitor：全面提升AI应用可观测性的开源平台

深入解读ChatGPT的工作原理及底层逻辑

深度剖析 DeepSeek V3 技术报告：架构创新与卓越性能表现

深度学习-45-大型语言模型LLM之本地化部署运行自己的大模型

Knowledge Boundary of Large Language Models: A Survey

吴恩达系列——微调（Fine-tuning）与生成模型的应用

OpenSPG docker 安装教程

ChatGPT大模型极简应用开发-目录

思维图GOT：用大语言模型解决复杂问题

无缝融入，即刻智能[二]：Dify-LLM平台(聊天智能助手、AI工作流)快速使用指南，42K+星标见证专属智能方案

1.Spring AI 从入门到实践

第79期 | GPTSecurity周报

第60期 | GPTSecurity周报

【LLM】大语言模型（LLMs）

第83期 | GPTSecurity周报

【大模型LoRa微调】Qwen2.5 Coder 指令微调【代码已开源】

Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析

第78期 | GPTSecurity周报

ACL 2024 | 美团技术团队精选论文解读

GitHub每日最火火火项目（1.17）