LLM微调第8页

从HuggingFace下载千问模型、数据、微调并运行

视频链接（1）3.从HuggingFace下载千问模型、数据、微调并运行（上）_哔哩哔哩_bilibili在本课程中，我们将带你下载并本地运行一个大模型，进行模型的微调训练等,视频播放量525、弹幕量0

ApiChain·2025-02-18 20:45

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别

SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别STF（SupervisedFine-Tuning）和RLHF（ReinforcementLearningfromHumanFeedback）

钟小宇·2025-02-18 18:11

AI大模型学习之白话笔记（一）-- GPT和LLM

前言2022年底第一次听说chatGPT,从最初的对话，到如今的文生视频Sora，带来的效果，越来越超出我们的想象。在2023年，我尝试去了解GPT可以干什么，有什么作用，该怎么用，不过变化太快，最终也没有找到一个好的方式干进去。为什么变化这么快，说到底，是AI大模型带来的巨变。现在很多大厂都在降薪裁员，也有不少公司在AllinAI，我们都有一个预感，要变天了。你想想，如果有一天，一款游戏的所有美

Langchain·2025-02-18 18:09

【带你 langchain 双排系列教程】1. langchian 基本架构与环境配置（siliconFlow Deepseek接入）

LangChain是一个用于构建和部署大模型应用的框架，涵盖了从语言模型（LLM）到检索增强生成（RAG）、OpenAI集成以及智能体（Agent）的全套工具链。

夜里慢慢行456·2025-02-18 17:35

使用OpenAI LLM与Neo4j数据库进行自然语言交互

技术背景介绍在现代数据分析和应用开发中，图数据库以其独特的强大功能越来越受到重视。其中，Neo4j是最受欢迎的图数据库之一。结合自然语言处理（NLP），可以使数据查询变得更加直观和便捷。本篇文章将介绍如何使用OpenAI的语言模型将自然语言问题转换成Cypher查询，并通过Neo4j数据库执行该查询，并给出自然语言的响应。核心原理解析我们的目标是实现一个系统，该系统能够接受自然语言输入，将其转换为

bBADAS·2025-02-18 16:53

LLM 参数解析：使用 OpenAI API 在 Python 中的实用指南（含示例）

当你使用大语言模型（LLM）时，可能会注意到，即使提交相同的请求，多次运行后仍然会得到不同的回应。这是因为LLM具有概率性，它们的输出基于所学到的模式和概率，而不是固定规则。

真智AI·2025-02-18 14:09

deepseek本地部署后做微调训练实现智能对话的一些建议

在本地部署大模型后，进行微调和训练以实现智能对话，通常需要按照以下步骤操作。以下是详细的指导内容：1.准备数据集在微调大模型之前，需要准备适合的训练数据集。

慧香一格·2025-02-18 14:34

在linux 中搭建deepseek 做微调，硬件配置要求说明

搭建可参考使用deepseek-CSDN博客官方网站：DeepSeekDeepSeek是一个基于深度学习的开源项目，旨在通过深度学习技术来提升搜索引擎的准确性和效率。如果你想在Linux系统上搭建DeepSeek，你可以遵循以下步骤。这里我将提供一个基本的指导，帮助你从零开始搭建一个基础的DeepSeek环境。1.安装依赖首先，确保你的Linux系统上安装了Python和pip。DeepSeek主

慧香一格·2025-02-18 14:04

Windows Docker Desktop部署MaxKB详细教程

MaxKB（MaxKnowledgeBase）是一款基于大语言模型（LLM）和检索增强生成（RAG）技术的开源知识库问答系统，旨在帮助企业、教育机构及研究组织高效管理知识并提供智能问答服务。

Roc-xb·2025-02-18 13:28

Docker安装分布式vLLM

Docker安装分布式vLLM1介绍vLLM是一个快速且易于使用的LLM推理和服务库，适合用于生产环境。单主机部署会遇到显存不足的问题，因此需要分布式部署。

MasonYyp·2025-02-18 13:49

使用Python中的LangChain库优化消息长度：从聊天历史到模型性能的全面指南

使用Python中的LangChain库优化消息长度：从聊天历史到模型性能的全面指南在现代人工智能应用中，大语言模型（LLM）扮演着越来越重要的角色，尤其是在对话系统、智能助理和其他自然语言处理任务中。

m0_57781768·2025-02-18 03:10

基于AWS云平台的法律AI应用系统开发方案

技术栈规划层级技术组件说明存储层AWSS3AmazonOpenSearch(向量数据库)存储原始PDF文件支持向量检索的法律知识库AI服务层OpenAIGPT-4APIAmazonSageMaker(LLM

weixin_30777913·2025-02-18 03:04

【LLM】大模型基础--大规模预训练语言模型的开源教程笔记

1.引言本文以DataWhale大模型开源教程为学习路线，进行一整个大模型的入门操作什么是语言模型语言模型是一种对词元序列（token）的概率分布，可以用于评估文本序列的合理性并生成新的文本。从生成文本的方式来看，LM（languagemodle）可以简单的分为：自回归模型非自回归模型特点逐字生成文本，每个词的生成都依赖于上文，关联性好一次性生成整个文本序列，不捕捉上文信息优点内容质量高生成速度快

Langchain·2025-02-18 02:00

大语言模型（LLM）如何实现上下文的长期记忆？

传统LLM的上下文长度通常受限于计算资源和架构设计（如注意力机制），这限制了其处理长文档或保持复杂对话连续性的能力。本篇文章将深入探讨大语言模型的上下文记忆问题，分析其技术难点，并

·2025-02-18 00:06

Python中LLM的稀疏Transformer架构：Longformer与BigBird

文章目录1.Transformer架构的挑战2.稀疏Transformer架构的提出2.1Longformer2.1.1局部注意力2.1.2全局注意力2.1.3实现2.2BigBird2.2.1随机注意力2.2.2局部注意力2.2.3全局注意力2.2.4实现3.稀疏Transformer架构的优势4.稀疏Transformer架构的挑战5.未来发展方向5.1更高效的稀疏注意力机制5.2自适应稀疏注

二进制独立开发·2025-02-17 22:36

AIMv2：多模态自回归预训练的视觉新突破

AIMv2：多模态自回归预训练的视觉新突破阅读时长：19分钟发布时间：2025-02-17近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM

·2025-02-17 20:28

边缘AI架构提升LLM应用的响应速度

边缘AI架构提升LLM应用的响应速度关键词边缘计算、边缘AI、LLM、响应速度、模型压缩、分布式计算摘要本文探讨了如何通过边缘AI架构提升大型语言模型（LLM）应用的响应速度。

AI天才研究院·2025-02-17 15:08

如何在不依赖函数调用功能的情况下结合工具与大型语言模型

当大型语言模型（LLM）原生不支持函数调用功能时，如何实现智能工具调度？本文通过自然语言解析+结构化输出控制的方法来实现。

Jason9510·2025-02-17 15:01

笔记-《A Survey of Large Language Models》- 尾声

尾声:尾声:本综述是由我们研究团队在一次讨论会上计划的,我们旨在总结LLM的最新进展,为我们的团队成员提供一份高度可读性的报告。

L_serein·2025-02-17 13:46

使用多模态大语言模型进行深度学习的图像、文本和语音数据增强

然而，现有的综述文章主要集中于机器学习和深度学习技术或有限的模态（如文本或图像），在涵盖LLM方法的最新进展和多模态应用方面仍存在空白。

数行天下·2025-02-17 12:42

LLM 大模型学习必知必会系列(一)：大模型基础知识篇

LLM大模型学习必知必会系列(一)：大模型基础知识篇魔搭ModelScope开源的LLM模型魔搭ModelScope欢迎各个开源的LLM模型在社区上做开源分享。

汀、人工智能·2025-02-17 12:40

《深入浅出LLM基础篇》（三）：大模型结构分类

GoAI·2025-02-17 12:39

本地部署 DeepSeek：环境准备 + 详细步骤 + 高级部署方案 + 可视化工具集成 + 故障排除手册 + 性能优化建议

前言随着人工智能技术的迅猛发展，大语言模型（LLM）在多个行业中的应用日益广泛，从自然语言处理、内容生成到智能客服、医疗诊断等领域，AI正在深刻改变传统的工作方式和业务流程。

Katie。·2025-02-17 12:08

基于DeepSeek-R1的高效推理优化实战：从API封装到动态批处理

引言在LLM（大语言模型）应用中，推理延迟和计算资源消耗是核心痛点。

竹木有心·2025-02-17 11:29

知识图谱大模型系列之 11什么是 Neo4j LLM 知识图谱构建器？

简介LLM知识图谱构建器是Neo4j的GraphRAG生态系统工具之一，可让您将非结构化数据转换为动态知识图谱。它与检索增强生成(RAG)聊天机器人集成，可实现自然语言查询和对数据的可解释洞察。

知识大胖·2025-02-17 07:53

直肠癌远处转移预测模型临床影响力研究Protocol

直肠癌远处转移预测模型临床影响力研究Protocol举例说明AI工具，包括LLM模型和临床预测模型，的临床影响力研究的流程，这是AI工具进入临床实践之前必要的评估流程，如果AI工具与现有的临床工具相比，

医学AppMatrix·2025-02-17 06:47

DeepSeek R1 与 OpenAI O1：机器学习模型的巅峰对决

点赞收藏❤一、引言在机器学习的广袤天地中，大型语言模型（LLM）无疑是最为璀璨的明珠。它们凭借卓越的语言理解与生成能力，正以前所未有的方式重塑着我们与信息交互的模式。

学无止尽5·2025-02-17 04:59

KTransformers：告别天价显卡！国产框架让单卡24G显存跑DeepSeek-R1 671B大模型：推理速度飙升28倍

如果你也经历过——看着API调用账单瑟瑟发抖，微调一次模型吃掉半月算力预算️盯着OOM报错抓狂，为了

蚝油菜花·2025-02-17 00:32

基于 LLM 的智能运维 Agent 系统设计与实现

摘要本文详细介绍了一个基于大语言模型(LLM)的智能运维Agent系统的设计与实现。该系统采用多Agent协同的架构，通过事件驱动的方式实现了自动化运维流程。

LLM教程·2025-02-16 22:51

事件驱动架构促进LLM应用的解耦与扩展

事件驱动架构概述1.1.1事件驱动架构的定义事件驱动架构（Event-DrivenArchitecture，EDA）是一种软件架构模式，它基于事件来驱动应用程序的运行。在这种架构中，事件被视为数据传输的基本单位，它们可以由系统内部或外部的源生成，并触发相应的处理逻辑。事件可以是一个用户操作、系统状态变更、硬件设备信号或其他任何可以由系统感知和响应的信息。事件驱动架构的核心思想是将系统的行为与事件分

AI天才研究院·2025-02-16 22:20

python后端调用Deep Seek API

python后端调用DeepSeekAPI需要依次下载●Ollama●DeepseekR1LLM模型●嵌入模型nomic-embed-text/bge-m3●AnythingLLM参考教程：DeepseekR1

YY_oot·2025-02-16 22:20

【AI论文】随机鹦鹉在大型语言模型（LLM）之肩：物理概念理解的总结性评估

摘要：我们以系统的方式探讨了一个被广泛提及的问题：大型语言模型（LLM）真的理解它们所说的话吗？这与人们更为熟悉的术语“随机鹦鹉”息息相关。

东临碣石82·2025-02-16 21:16

理论一、大模型—概念

大模型全称是大型语言模型（LLM，LargeLanguageModel），这个“大”主要指模型结构容量大，结构中的参数多，用于预训练大模型的数据量大。一个大模型可以

伯牙碎琴·2025-02-16 20:31

一、大模型微调的前沿技术与应用

大模型微调的前沿技术与应用随着大规模预训练模型（如GPT、BERT、T5等）的广泛应用，大模型微调（Fine-Tuning,FT）成为了提升模型在特定任务中性能的关键技术。

伯牙碎琴·2025-02-16 20:31

根据deepseek模型微调训练自动驾驶模型及数据集的思路

以下是使用DeepSeek模型微调训练自动驾驶模型的详细步骤和代码示例。本流程假设你已有自动驾驶领域的数据集（如驾驶指令、传感器数据等），并基于PyTorch框架实现。

ywfwyht·2025-02-16 19:28

大语言模型常用微调与基于SFT微调DeepSeek R1指南

概述大型语言模型（LLM，LargeLanguageModel）的微调（Fine-tuning）是指在一个预训练模型的基础上，使用特定领域或任务的数据对模型进行进一步训练，以使其在该领域或任务上表现更好

知来者逆·2025-02-16 16:08

（15-3）DeepSeek混合专家模型初探：模型微调

3.4模型微调在本项目中，微调脚本文件finetune.py提供了一套全面的工具，用于对DeepSeek-MoE预训练语言模型进行微调。

码农三叔·2025-02-16 16:35

InfiniteHiP - 在单个GPU上扩展 LLM 上下文至300万tokens

InfiniteHiP:ExtendingLanguageModelContextUpto3MillionTokensonaSingleGPUPaper:https://huggingface.co/papers/2502.08910Sourcecode:https://github.com/DeepAuto-AI/hip-attention/SGLangIntegrationavailablen

伊织code·2025-02-16 14:18

本地DeepSeek模型GGUF文件转换为PyTorch格式

，我们在本地Windows系统上，基于GGUF文件部署了DeepSeek模型（DeepSeek-R1-Distill-Qwen-1.5B.gguf版本），但是GGUF是已经量化的版本，我们除了对其进行微调之外

搏博·2025-02-16 14:48

AIGC 实战：如何使用 Docker 在 Ollama 上离线运行大模型（LLM）

Ollama简介Ollama是一个开源平台，用于管理和运行各种大型语言模型(LLM)，例如Llama2、Mistral和Tinyllama。它提供命令行界面(CLI)用于安装、模型管理和交互。

surfirst·2025-02-16 04:04

大模型参数高效微调（PEFT）技术解析及微调加速实践

2023年，大模型如雨后春笋般爆发，58同城TEG-AILab作为AI平台部门，紧跟大语言模型技术发展步伐，打造了大语言模型平台，支持大语言模型训练和推理部署，并基于大语言模型平台构建了58同城生活服务领域（房产、招聘、汽车、黄页）垂类大模型灵犀大语言模型（ChatLing），支撑了业务方大模型应用的探索落地。灵犀大语言模型在公开评测集和实际应用场景下，效果均优于开源通用大语言模型以及商用通用大语

AI产品经理·2025-02-16 03:53

清华大学KVCache.AI团队联合趋境科技联合的KTransformers开源项目为什么那么厉害

KTransformers是一个由清华大学KVAV.AI团队开发的开源项目，旨在优化大语言模型（LLM）的推理性能，特别是在有限显存资源下运行大型模型。

魔王阿卡纳兹·2025-02-16 03:52

LangChain开发【NL2SQL】应用（few-shot优化）

这篇文章来讲一下优化什么是few-shot使用这些少量的、调整后的样本对预训练模型进行微调其实就是给LLM少量示例关于few-shot的研究：https://medium.com/ubiai-nlp/step

向羿燃·2025-02-15 22:48

大模型prompt实例：知识库信息质量校验模块

写代码的中青年·2025-02-15 22:45

1.5 企业级AI大模型四阶技术全景解析：从Prompt到Pre-training的进化路径

企业级AI大模型四阶技术全景解析：从Prompt到Pre-training的进化路径一、技术演进金字塔：四阶技术如何构建AI新范式▲预训练│（万亿参数基建）├─大模型微调│（领域知识注入）├─AI智能体

少林码僧·2025-02-15 21:08

零代码！只需3步用DeepSeek+Ollama+AnythingLLM打造免费AI本地专属知识库（含原理）

本文将拆解本地知识库的三大核心技术（嵌入模型/向量数据库/LLM智能问答），将详细介绍如何用DeepSeek+Ollama+AnythingLLM组合，无需任何编程基础，只需3步即可免费零代码搭建全流程私有化智能知识库

少喝冰美式·2025-02-15 15:22

【开发日志】数字人+LLM：从概念到实现的全程记录！

数字人是各种技术的集合，所以文章尽可能完整的介绍，项目中涉及的大小模型均可在本地部署并在我本人机器上运行。系统环境：CPU:i91490016GBGPU:GTX40608GBSYS:Windows11WSL:Ubuntu22.04本文章使用到的技术内容:数字人框架:LiveTalking大模型:Llama3.1TTS:GPT-SoVits语音转视频:Wav2Lip前端展示：WebRTC项目整体架构

AI大模型-王哥·2025-02-15 13:11

本地部署的DeepSeek-R1-32B与DeepSeek-R1-7B模型效果对比

本地部署的DeepSeek-R1-32B与DeepSeek-R1-7B模型效果对比在当今人工智能快速发展的时代，大语言模型（LargeLanguageModel,LLM）的应用场景日益广泛。

MaxCode-1·2025-02-15 12:35

23. AI-大语言模型

文章目录前言一、LLM1.简介2.工作原理和结构3.应用场景4.最新研究进展5.比较二、Transformer架构1.简介2.基本原理和结构3.应用场景4.最新进展三、开源1.开源概念2.开源模式3.模型权重四

真上帝的左手·2025-02-15 12:34

RWKV Runner：让RNN-LLM模型触手可及

在这个信息爆炸的时代，人工智能（AI）已经成为我们生活中不可或缺的一部分，尤其是大语言模型（LLM）在自然语言处理中的广泛应用。

步子哥·2025-02-15 11:57

推荐频道

LLM微调