LLM微调第2页

清华大学KVCache.AI团队联合趋境科技联合的KTransformers开源项目为什么那么厉害

KTransformers是一个由清华大学KVAV.AI团队开发的开源项目，旨在优化大语言模型（LLM）的推理性能，特别是在有限显存资源下运行大型模型。

魔王阿卡纳兹·2025-02-16 03:52

LangChain开发【NL2SQL】应用（few-shot优化）

这篇文章来讲一下优化什么是few-shot使用这些少量的、调整后的样本对预训练模型进行微调其实就是给LLM少量示例关于few-shot的研究：https://medium.com/ubiai-nlp/step

向羿燃·2025-02-15 22:48

大模型prompt实例：知识库信息质量校验模块

写代码的中青年·2025-02-15 22:45

1.5 企业级AI大模型四阶技术全景解析：从Prompt到Pre-training的进化路径

企业级AI大模型四阶技术全景解析：从Prompt到Pre-training的进化路径一、技术演进金字塔：四阶技术如何构建AI新范式▲预训练│（万亿参数基建）├─大模型微调│（领域知识注入）├─AI智能体

少林码僧·2025-02-15 21:08

零代码！只需3步用DeepSeek+Ollama+AnythingLLM打造免费AI本地专属知识库（含原理）

本文将拆解本地知识库的三大核心技术（嵌入模型/向量数据库/LLM智能问答），将详细介绍如何用DeepSeek+Ollama+AnythingLLM组合，无需任何编程基础，只需3步即可免费零代码搭建全流程私有化智能知识库

少喝冰美式·2025-02-15 15:22

【开发日志】数字人+LLM：从概念到实现的全程记录！

数字人是各种技术的集合，所以文章尽可能完整的介绍，项目中涉及的大小模型均可在本地部署并在我本人机器上运行。系统环境：CPU:i91490016GBGPU:GTX40608GBSYS:Windows11WSL:Ubuntu22.04本文章使用到的技术内容:数字人框架:LiveTalking大模型:Llama3.1TTS:GPT-SoVits语音转视频:Wav2Lip前端展示：WebRTC项目整体架构

AI大模型-王哥·2025-02-15 13:11

本地部署的DeepSeek-R1-32B与DeepSeek-R1-7B模型效果对比

本地部署的DeepSeek-R1-32B与DeepSeek-R1-7B模型效果对比在当今人工智能快速发展的时代，大语言模型（LargeLanguageModel,LLM）的应用场景日益广泛。

MaxCode-1·2025-02-15 12:35

23. AI-大语言模型

文章目录前言一、LLM1.简介2.工作原理和结构3.应用场景4.最新研究进展5.比较二、Transformer架构1.简介2.基本原理和结构3.应用场景4.最新进展三、开源1.开源概念2.开源模式3.模型权重四

真上帝的左手·2025-02-15 12:34

RWKV Runner：让RNN-LLM模型触手可及

在这个信息爆炸的时代，人工智能（AI）已经成为我们生活中不可或缺的一部分，尤其是大语言模型（LLM）在自然语言处理中的广泛应用。

步子哥·2025-02-15 11:57

使用CerebriumAI进行大规模语言模型的推理

传统的CPU在处理大规模语言模型（LLM）时效率较低，GPU成为了首选。然而，自行搭建GPU环境成本高昂且维护复杂。

qahaj·2025-02-15 07:54

AI大模型DeepSeek本地部署及使用

二：认识Ollama1.什么是OllamaOllama是一个开源的LLM（大型语言模型）服务工具&#

zy_xingdian·2025-02-15 02:41

焦损函数（Focal Loss）与RetinaNet目标检测模型详解

焦损函数（FocalLoss）与RetinaNet目标检测模型详解阅读时长：19分钟发布时间：2025-02-14近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM

·2025-02-14 22:31

DeepSeek与Python语言关系深度探索

文章目录一、技术整合逻辑二、案例分析**案例1：调用DeepSeekAPI实现智能问答系统****案例2：使用Python微调DeepSeek垂直领域模型****案例3：基于DeepSeek与Python

学堂在线·2025-02-14 18:08

LLM大模型中文开源数据集集锦（三）

文章目录1ChatGLM-Med:基于中文医学知识的ChatGLM模型微调1.1数据集1.2ChatGLM+P-tuningV2微调1.3Llama+Alpaca的Lora微调版本2LawGPT_zh：

悟乙己·2025-02-14 13:01

大语言模型(LLM)快速理解

自2022年，ChatGPT发布之后，大语言模型（LargeLanguageModel），简称LLM掀起了一波狂潮。作为学习理解LLM的开始，先来整体理解一下大语言模型。

大模型猫叔·2025-02-14 13:59

LLM大语言模型书籍教程推荐：《大模型时代》+《开源大模型食用指南》！附文档

哈喽大家好！很久都没有更新大模型这块的书了，今天给大家说一下这本：《大模型时代》，本书对大模型时代的技术、应用和产业变化进行了深入的分析和阐述。《本书》深入探讨了大型模型时代的技术演进、应用场景和产业变革。生动地阐释了ChatGPT背后的工作原理，深入解析了这一推动技术和产业变革的关键力量书中对国内外大型模型产业的布局和发展趋势进行了剖析，并对潜在的风险和泡沫进行了预警。作者简介龙志勇：曾任阿里巴

Langchain·2025-02-14 09:32

探索DeepSeek：开源大模型领域的中国力量

在人工智能技术迅猛发展的今天，大语言模型（LLM）已成为全球科技竞争的焦点。来自中国的深度求索（DeepSeek）团队凭借其开源模型系列，正在为这一领域注入新的活力。

机器学习司猫白·2025-02-14 09:29

云原生AI Agent应用安全防护方案最佳实践（上）

当下，AIAgent代理是一种全新的构建动态和复杂业务场景工作流的方式，利用大语言模型（LLM）作为推理引擎。

佛州小李哥·2025-02-14 08:56

Ollama与Vllm使用对比与优劣

Ollama和vLLM是两个用于优化大型语言模型（LLM）推理的框架，它们在性能、资源利用率、部署复杂性等方面各有优劣。

魔王阿卡纳兹·2025-02-14 08:55

使用LangChain与OpenAI API进行向量嵌入和搜索的实战教程

技术背景介绍LangChain是一个用于构建大型语言模型(LLM)应用的强大工具集，能够帮助开发者快速构建智能应用。结合Ope

bBADAS·2025-02-14 06:06

ViT：2 理解CLIP

若在某个环节出现卡点，可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技（Mamba,xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步

庞德公·2025-02-14 05:33

ALBERT：轻量级的BERT，用于语言表征的自监督学习

ALBERT：轻量级的BERT，用于语言表征的自监督学习阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎

·2025-02-14 05:05

DeepSeek与Web3：科技融合的新纪元

作为新一代LLM（大型语言模型），DeepSeek不仅在推理质量和成本上展现出优势，还重新定义了去中心化智能代理（AIAgent）的发展方向。

TechubNews·2025-02-14 04:25

一杯咖啡的时间学习大模型（LLM）：LLaMA解读之旋转编码RoPE（含代码实现）

文章目录一、LLaMA的核心改进全景二、旋转位置编码（RoPE）2.1改进动机2.2数学原理2.3源码实现一、LLaMA的核心改进全景Meta开源的LLaMA模型凭借其卓越的性能表现成为大模型发展的重要里程碑。相较于标准Transformer架构，LLaMA主要在以下几个方面进行了关键改进：位置编码升级：采用旋转位置编码（RotaryPositionEmbedding,RoPE）归一化革新：对每个

Bug_makerACE·2025-02-14 02:52

Aider: 人工智能辅助编程的革命性工具

Aider是一个强大的AI辅助编程工具,它能让开发者在终端中与大型语言模型(LLM)进行结对编程,极大地提升编码效率和质量。让我们深入了解这个令人兴奋的项目,看看它如何改变着软件开发的未来。

2401_87189860·2025-02-14 02:20

RAG中的双编码器与跨编码器模型

RAG中的双编码器与跨编码器模型阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【

·2025-02-14 01:01

深度学习-108-大语言模型LLM之基于langchain的结构化输出功能提取结构化信息

文章目录1langchain的结构化输出1.1推荐的使用流程1.2模式定义1.3返回结构化输出1.3.1工具调用(方式一)1.3.2JSON模式(方式二)1.3.3结构化输出法(方式三)2提取结构化信息2.1定义数据模型2.2配置提示模板2.3设置执行链3参考附录1langchain的结构化输出对于许多应用程序，例如聊天机器人，模型需要直接用自然语言响应用户。然而，在某些情况下，我们需要模型以结构

皮皮冰燃·2025-02-14 01:44

真正通俗易懂的Langchain入门学习（一）

定义：基于语言模型（LLM）构建应用程序的框架。核心功能：连接LLM与外部数据/工具、管理对话流程、自动化复杂任务。典型应用场景：聊天机器人、文档问答、数据分析助手、自动化工作流。

caridle·2025-02-14 00:42

AI Agent智能应用从0到1定制开发Langchain+LLM全流程解决方案与落地实战

大模型微调实战：精通、指令微调、开源大模型微调、对齐与垂直领域应用29套AI全栈大模型项目实战，人工智能视频课程-多模态大模型，微调技术训练营，大模型多场景实战，AI图像处理，AI量化投资，OPenCV

AI知识分享官·2025-02-14 00:41

GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节

核心突破：通过海量文本预训练+任务微调，GPT展示了强大的泛化能力。GPT-

Ash Butterfield·2025-02-14 00:08

如何微调（Fine-tuning）大语言模型？看完这篇你就懂了！！

前言本文介绍了微调的基本概念，以及如何对语言模型进行微调。从GPT3到ChatGPT、从GPT4到GitHubcopilot的过程，微调在其中扮演了重要角色。什么是微调（fine-tuning）？

datian1234·2025-02-13 23:05

自学人工智能大模型，满足7B模型的训练和微调以及推理，预算3万，如何选购电脑

如果你的预算是3万元人民币，希望训练和微调7B参数规模的人工智能大模型（如LLaMA、Mistral等），你需要一台高性能的深度学习工作站。

岁月的眸·2025-02-13 23:03

解码DeepSeek家族系列：大语言模型赛道上的黑马传奇

DeepSeek自成立之初，便专注于开发先进的大语言模型（LLM）及相关技术，致力于通过数据蒸馏技术提取更精炼、有用的数据，以提升模型性能。在发展历程中，DeepSeek

大F的智能小课·2025-02-13 22:52

【必看】凭啥？DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能

其核心策略包括减少监督微调（SFT）步骤，仅依赖强化学习（RL）技术。DeepSeek-R1-Zero版本完全跳过SFT，仅通过RL进行训练。

大F的智能小课·2025-02-13 21:51

DeepSeek R1：开启AI推理新时代，强在哪里？

DeepSeekR1：开启AI推理新时代阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎

·2025-02-13 20:19

从零开始大模型开发与微调：Miniconda的下载与安装

从零开始大模型开发与微调：Miniconda的下载与安装1.背景介绍随着人工智能和机器学习技术的快速发展,大型语言模型(LargeLanguageModel,LLM)已经成为当前研究和应用的热点。

AGI大模型与大数据研究院·2025-02-13 18:30

如何训练LLMs进行“思考”（如o1和DeepSeek-R1）

如何训练LLMs进行“思考”（如o1和DeepSeek-R1）阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM

·2025-02-13 16:07

【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）

它能够通过大量无监督数据预训练，然后微调（Fine-tuning）以适应特

IT古董·2025-02-13 16:15

DeepSeek与Web3：科技融合的新纪元

作为新一代LLM（大型语言模型），DeepSeek不仅在推理质量和成本上展现出优势，还重新定义了去中心化智能代理（AIAgent）的发展方向。

·2025-02-13 15:02

从零开始构建一个大语言模型-第七章第一节

第七章目录7.1指令微调简介7.2为有监督的指令微调准备数据集7.3将数据整理成训练批次7.4为指令数据集创建数据加载器7.5加载预训练的大语言模型7.6在指令数据上对大语言模型进行微调7.7提取并保存回复

释迦呼呼·2025-02-13 15:07

大语言模型LLM代码：PyTorch库与ChatGLM模型

文章目录通过阅读大语言模型的代码，熟悉并理解PyTorch大语言模型LLM代码：PyTorch库与ChatGLM模型大语言模型中的PyTorchChatGLM3-6B模型代码ChatGLMModel类总览

North_D·2025-02-13 12:48

LLM大模型产品经理学习指南【2025全新版】：极致详细，一篇搞定！

前言·随着人工智能技术的蓬勃发展，尤其是大模型（LargeModel）的强势兴起，越来越多的企业对这一领域愈发重视并加大投入。作为大模型产品经理，需具备一系列跨学科的知识与技能，方能有效地推动产品的开发、优化以及市场化进程。以下是一份详尽的大模型产品经理学习路线，旨在助力你构建所需的知识体系，实现从零基础到精通的蜕变。一、基础知识阶段（一）计算机科学基础数据结构与算法：深入理解基本的数据结构（如数

大模型入门学习·2025-02-13 11:08

使用Neo4j-Cypher-FT与自然语言交互

老铁们，今天我们来聊聊如何通过自然语言与Neo4j图数据库进行互动，利用的是OpenAI的LLM技术。这波操作可以说是相当丝滑，能让你通过自然的提问生成Cypher查询语句，执行后返回语言化的结果。

qq_37836323·2025-02-13 09:50

大语言模型的分类及本地部署所需的硬件配置要求

1、大语言模型概念及作用大语言模型：（LargeLanguageModel,LLM）是一种基于深度学习的人工智能模型，它能够理解和生成自然语言[1]。

Kelaru·2025-02-13 07:01

硅基流动多模型工作流应用平台，免费2000万Token来了

硅基流动是一家专注于大规模AI计算的技术公司,提供高性能LLM推理和训练解决方案,助力企业高效部署AI应用。目前注册可获的2000万Token，可以使用将近60种文字对话、语音、图像生成等主流大模型。

yuntianming3906·2025-02-13 05:53

硅基流动开放模型微调（可使用赠送金额）

就这几天硅基流动上线了模型微调目前仅开放这两个模型，价格也在上面，最重要的是可以使用赠送的额度。网站链接：https://cloud.siliconflow.cn/i/wLHLnn22

2401_82750289·2025-02-13 04:16

初学者怎么入门大语言模型（LLM）

大语言模型（LLM）作为人工智能（AI）领域的核心技术之一，近年来受到了广泛的关注。对于初学者来说，入门LLM并非难事，但需要从理论学习、数学基础到实践操作逐步深入。

·2025-02-13 02:43

LLM+Embedding构建问答系统的局限性及优化方案

LangChain+LLM方案的局限性：LLM意图识别准确性较低，交互链路长导致时间开销大；Embedding不适合多词条聚合匹配等。

lichunericli·2025-02-13 01:52

win10 llamafactory模型微调相关① || Ollama运行微调模型

我的巨剑能轻松搅动潮汐·2025-02-12 22:31

一文读懂RAG

架构数据准备阶段应用阶段：五、RAG分类基础RAG(NaiveRAG)缺点高级RAG(AdvancedRAG)模块化RAG(ModularRAG)六、RAG(检索增强生成)vsFine-Tuning(微调

wangziling123456·2025-02-12 22:58

推荐频道

LLM微调

清华大学KVCache.AI团队联合趋境科技联合的KTransformers开源项目为什么那么厉害

LangChain开发【NL2SQL】应用（few-shot优化）

大模型prompt实例：知识库信息质量校验模块

1.5 企业级AI大模型四阶技术全景解析：从Prompt到Pre-training的进化路径

零代码！只需3步用DeepSeek+Ollama+AnythingLLM打造免费AI本地专属知识库（含原理）

【开发日志】数字人+LLM：从概念到实现的全程记录！

本地部署的DeepSeek-R1-32B与DeepSeek-R1-7B模型效果对比

23. AI-大语言模型

RWKV Runner：让RNN-LLM模型触手可及

使用CerebriumAI进行大规模语言模型的推理

AI大模型DeepSeek本地部署及使用

焦损函数（Focal Loss）与RetinaNet目标检测模型详解

DeepSeek与Python语言关系深度探索

LLM大模型中文开源数据集集锦（三）

大语言模型(LLM)快速理解

LLM大语言模型书籍教程推荐：《大模型时代》+《开源大模型食用指南》！附文档

探索DeepSeek：开源大模型领域的中国力量

云原生AI Agent应用安全防护方案最佳实践（上）

Ollama与Vllm使用对比与优劣

使用LangChain与OpenAI API进行向量嵌入和搜索的实战教程

ViT：2 理解CLIP

ALBERT：轻量级的BERT，用于语言表征的自监督学习

DeepSeek与Web3：科技融合的新纪元

一杯咖啡的时间学习大模型（LLM）：LLaMA解读之旋转编码RoPE（含代码实现）

Aider: 人工智能辅助编程的革命性工具

RAG中的双编码器与跨编码器模型

深度学习-108-大语言模型LLM之基于langchain的结构化输出功能提取结构化信息

真正通俗易懂的Langchain入门学习（一）

AI Agent智能应用从0到1定制开发Langchain+LLM全流程解决方案与落地实战

GPT 系列模型发展史：从 GPT 到 ChatGPT 的演进与技术细节

如何微调（Fine-tuning）大语言模型？看完这篇你就懂了！！

自学人工智能大模型，满足7B模型的训练和微调以及推理，预算3万，如何选购电脑

解码DeepSeek家族系列：大语言模型赛道上的黑马传奇

【必看】凭啥？DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能

DeepSeek R1：开启AI推理新时代，强在哪里？

从零开始大模型开发与微调：Miniconda的下载与安装

如何训练LLMs进行“思考”（如o1和DeepSeek-R1）

【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）

DeepSeek与Web3：科技融合的新纪元

从零开始构建一个大语言模型-第七章第一节

大语言模型LLM代码：PyTorch库与ChatGLM模型

LLM大模型产品经理学习指南【2025全新版】：极致详细，一篇搞定！

使用Neo4j-Cypher-FT与自然语言交互

大语言模型的分类及本地部署所需的硬件配置要求

硅基流动多模型工作流应用平台，免费2000万Token来了

硅基流动开放模型微调（可使用赠送金额）

初学者怎么入门大语言模型（LLM）

LLM+Embedding构建问答系统的局限性及优化方案

win10 llamafactory模型微调相关① || Ollama运行微调模型

一文读懂RAG