(LLM) 第2页

LLM推理和优化（1）：基本概念介绍

一、LLM推理的核心过程：自回归生成LLM（如DeepSeek、ChatGPT、LLaMA系列等）的推理本质是自回归生成：从初始输入（如[CLS]或用户prompt）开始，逐token预测下一个词，直到生成结束符

AndrewHZ·2025-03-14 23:50

云原生周刊：基于 KubeSphere LuBan 架构打造DeepSeek 插件

·2025-03-14 22:37

【大模型LLM面试合集】分布式训练_总结

9.总结1.数据并行数据并行，由于其原理相对比较简单，是目前使用最广泛的分布式并行技术。数据并行不仅仅指对训练的数据并行操作，还可以对网络模型梯度、权重参数、优化器状态等数据进行并行。我们首先以PyTorch数据并行的发展（DataParallel、DistributedDataParallel、FullyShardedDataParallel）为主线进行讲述了数据并行的技术原理。同时，也简述了D

X.AI666·2025-03-14 17:28

Python和FastAPI框架开发和容器化部署AWS上支持多种LLM和向量数据库的微服务API

用FastAPI创建一个输入提示词和所使用的LLM名称和向量搜索方式的API，返回LLM输出文本，其中用到OpenAIGPT4o3和AWSBedrock上的多个LLM模型的API，通过内部的类配置使用的模型和向量数据搜索类型

weixin_30777913·2025-03-14 13:26

LLM：RMSNorm

importtorchimporttorch.nnasnnclassLayerNorm(nn.Module):def__init__(self,dim:int,eps:float):super(LayerNorm,self).__init__()self.dim=dimself.eps=epsself.weight=nn.Parameter(torch.ones(self.dim))self.bi

微风❤水墨·2025-03-14 12:23

LLM大语言模型书籍：《大模型时代》开启人工智能狂潮！（附文档）

哈喽大家好！很久都没有更新大模型这块的书了，今天给大家说一下这本：《大模型时代》，本书对大模型时代的技术、应用和产业变化进行了深入的分析和阐述。近2年GPT风靡全球，然而真正的智慧“心脏”却是大型语言模型（LargeLanguageModel）！生成式大型模型正引领我们进入一个崭新的时代。《本书》深入探讨了大型模型时代的技术演进、应用场景和产业变革。生动地阐释了ChatGPT背后的工作原理，深入解

Langchain·2025-03-14 08:51

打卡代码随想录第17天：LeetCode654.最大二叉树、617.合并二叉树、700.二叉搜索树中的搜索、98.验证二叉搜索树

学习资料：代码随想录文中含LLM生成内容，不一定对654.最大二叉树力扣题目地址思路：不断寻找该部分的最大值去切割数组，不断递归，到在左闭右开区间不成立时，返回空节点。

jingjingjing1111·2025-03-14 07:08

【GPT入门】第18课 langchain介绍与API初步体验

提示工程支持6.可扩展性2.langchain核心组件架构图3.最简单的helloworld入门1.langchain介绍LangChain是一个用于开发由语言模型驱动的应用程序的开源框架，它在大语言模型（LLM

*星星之火*·2025-03-14 05:26

医疗诊断 AI Agent：LLM 在临床决策支持中的角色

《医疗诊断AIAgent：LLM在临床决策支持中的角色》文章撰写步骤撰写一篇深度、思考、见解的专业技术博客文章，需要严谨的逻辑思维和结构化的内容组织。

AGI大模型与大数据研究院·2025-03-14 04:17

LLM 为什么需要 tokenizer？

文章目录1.LLM预训练目的1.1什么是语言模型2.Tokenizer一般处理流程（了解）3.进行Tokenizer的原因3.1one-hot的问题3.2词嵌入4.结语1.LLM预训练目的我们必须知道一个预训练目的

SmallerFL·2025-03-14 03:45

pop_dialog_state(state: State)弹出对话栈并返回到主助手，让整个对话流程图可以明确追踪对话流，并将控制权委派给特定的子对话图。

messages=[]ifstate["messages"][-1].tool_calls:#注意：目前没有处理llm并行调用工具的边缘情况messages.append(ToolMessage(cont

背太阳的牧羊人·2025-03-14 02:07

从零开始：基于LLM大模型构建智能应用程序的完整指南

目录从零开始：基于LLM大模型构建智能应用程序的完整指南什么是LLM大模型如何利用LLM大模型构建智能应用程序1.收集和准备数据2.构建LLM大模型3.集成和部署4.监测和维护使用特定于私有领域的数据增强

AI天才研究院·2025-03-14 00:27

第81期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。

·2025-03-13 20:59

【LLM大模型】大模型涌现能力及 Prompt Engineering提示词

涌现能力GPT3是第一批拥有“涌现能力”的大语言模型，即模型未经特定任务的训练，但在适当的提示下，仍然能够解决某些特定领域的问题。例如大语言模型可以解答数学问题、辅助进行编程、甚至是进行问答等，其实都属于模型的涌现能力。作为概率模型，大语言模型甚至不知道数字代表的真实含义，模型只是在学习了无数的语料之后，发现了一些数学结论之间的潜在概率关系，才最终涌现出了数学运算或者复杂推理的能力。但是“涌现能力

Langchain·2025-03-13 18:15

揭秘Prompt Engineering 提示词工程（附学习文档）

PromptEngineering概览何为Prompt在自然语言处理领域，尤其是与大型语言模型（LLM）互动时，Prompt起着至关重要的作用。

LLM.·2025-03-13 18:43

LLM Weekly（2025.03.03-03.09）

网络新闻QwQ-32B：拥抱强化学习的力量。研究人员推出了QwQ-32B，这是一个拥有320亿参数的模型，它利用强化学习来提升推理能力。尽管参数较少，但通过整合类似智能体的推理和反馈机制，QwQ-32B的表现可与更大规模的模型相媲美。该模型可在HuggingFace平台上获取。**人工智能领域的先驱安德鲁·巴托（AndrewBarto）和理查德·萨顿（RichardSutton）因对强化学习的开创

UnknownBody·2025-03-13 16:29

第二十八个问题-Dify、RAG-Flow、FastGPT 核心特点对比

Dify、RAG-Flow、FastGPT核心特点对比以下基于搜索结果，从功能定位、技术架构、适用场景等维度总结三者的核心特点：1.Dify定位：开源的LLM应用开发平台，强调低代码与快速构建生成式AI

释迦呼呼·2025-03-13 15:18

开启AI开发新时代——全解析Dify开源LLM应用开发平台

开启AI开发新时代——全解析Dify开源LLM应用开发平台在人工智能迅速发展的今天，如何快速将创意转化为高效可用的应用成为开发者亟待解决的问题。

gs80140·2025-03-13 09:36

LLM - 白话AI Agent

文章目录一、AIAgent：让大模型从"思考者"变为"行动者"二、Agent的基本工作原理三、Agent系统的基本组成四、Agent面临最大的挑战五、Java版智能体实战：竞品分析助手一、AIAgent：让大模型从"思考者"变为"行动者"大模型已经非常强大，能够生成内容、回答问题甚至协助编程。那为什么我们还需要AIAgent？简单的说，大模型就像一个“超级大脑”，知识丰富、能力强大，但它的问题是“

小小工匠·2025-03-13 09:30

LLM填坑：训练自己的分词器-Tokenizer

说明：文本搬运以下文章，略微调整，有需求可参考原文。paper:https://zhuanlan.zhihu.com/p/625715830code:Chatterbox/example/TrainTokenizersExample/train_tokenizers.pyatmain·enze5088/Chatterbox·GitHubHuaggingface教程：

微风❤水墨·2025-03-13 08:53

LLM填坑：训练自己的分词器-Tokenizer 2

本文记录另外一个例子，例子中涉及如何手动配置config，实现与Huaggingface兼容。merges.txtmerges文件存放的是训练tokenizer阶段所得到的合并词表结果，就是tokenizer.json中，model.merges下的内容。tokenizer_config.json分词器的配置信息，定义了分词器的版本、额外添加的标记（tokens）、结构/代码和模型参数等信息，比如

微风❤水墨·2025-03-13 08:53

RAG(检索增强生成)系统实践与调优

（RetrievalAugmentedGeneration,RAG）是一种结合信息检索和生成式人工智能的技术，它通过从外部数据源中检索相关信息，来辅助大语言模型（LargeLanguageModel,LLM

python_知世·2025-03-13 07:16

训练大模型LLM选择哪种开发语言最好

训练大型语言模型（LLM）时，选择合适的编程语言主要取决于效率、生态支持、开发便利性以及特定需求（如性能优化或硬件适配）。

大0马浓·2025-03-13 05:09

使用 UpTrain 提升 LLM 应用效果的实战指南

随着大语言模型（LLM）的广泛应用，如何评估和改进这些应用的性能成为了一个关键问题。

qahaj·2025-03-13 04:30

大语言模型（LLM）的微调与应用

一、微调与应用的核心区别目标差异微调（Fine-tuning）：针对预训练模型进行参数调整，使其适应特定任务或领域（如医疗问答、法律文本分析）。需通过有监督微调（SFT）或低秩适配（LoRA）等技术优化模型权重。应用（Application）：基于现有模型的能力构建实际系统（如智能客服、文档摘要），侧重于工程化集成和交互设计，通常不修改模型参数，而是通过Prompt工程、RAG（检索增强生成）或A

AI Echoes·2025-03-13 03:50

LLM大模型技术实战6：一文总结大模型微调方法

大模型会成为AI时代的一项基础设施。作为像水、电一样的基础设施，预训练大模型这样的艰巨任务，只会有少数技术实力强、财力雄厚的公司去做。绝大多数人，是水、电的应用者。对这部分人来说，掌握如何用好大模型的技术，更加重要。用好大模型的第一个层次，是掌握提示词工程(PromptEngineering)用好大模型的第二个层次，是大模型的微调(FineTuning)，这也是今天这篇文章的主题。为什么要对大模型

AIG暴躁猫叔·2025-03-12 22:16

LangChain教程 - Agent -之 ZERO_SHOT_REACT_DESCRIPTION

LangChain提供了AgentType.ZERO_SHOT_REACT_DESCRIPTION，它结合了ReAct（Reasoning+Acting）策略，使得LLM可以基于工具的描述智能选择合适的工具进行推理和执行

花千树-010·2025-03-12 21:40

【安当产品应用案例100集】040-TDE保护私有模型文件

1.引言随着大语言模型（LLM,LargeLanguageModel）在各行各业的广泛应用，其安全性和隐私保护变得尤为重要。

安当加密·2025-03-12 18:19

DeepSeek开源第一弹！突破H800性能上限，FlashMLA重磅开源

FlashMLA通过优化MLA解码和分页KV缓存，能够提高LLM（大语言模型）推理效率，尤其是在H100/H800这样的高端GPU上发挥出极致性能。

开源项目精选·2025-03-12 14:54

LLM大模型技术实战4：热门开源LLMs对比和选型

一、大语言模型的特点和能力LLM(LargeLanguageModel,大型语言模型)是指那些规模庞大、参数数量众多的深度神经网络模型，用于理解和生成自然语言文本。

大模型学习教程·2025-03-12 08:44

如何使用 SparkLLM 进行自然语言处理

技术背景介绍大规模语言模型（LLM）近年来在各个领域中获得了广泛的应用，它们在处理自然语言任务时表现出色。iF

shuoac·2025-03-12 04:36

使用Trubrics进行LLM用户分析和反馈管理

Trubrics是一个强大的LLM用户分析平台，能够帮助开发者收集、分析和管理用户的提示和反馈。本文将介绍如何使用Trubrics平台，结合实际代码展示其安装、设置及应用。

dgay_hua·2025-03-12 04:35

长文本生成的“中间迷途”：当AI在信息洪流中迷失与觉醒

长文本生成的困境：当AI在信息洪流中迷失在人工智能领域，大型语言模型（LLM）如同拥有无限记忆的超级读者，能轻松消化整座图书馆的藏书。

步子哥·2025-03-12 03:30

【基于KG的大模型对话系统（fastapi）完整可上手】

查询解析：将用户输入解析为知识图谱查询，并结合LLM生成回答。主要功能：解析用户输入：检查用户输入是否包含知识图谱查询内容。执行Cypher查询：如果用户问题涉及知识图谱，向

放飞自我的Coder·2025-03-12 02:50

初识LangChain的快速入门指南

它简化了LLM（大型语言模型）应用程序生命周期的各个阶段，包括开发、生产化和部署。LangChain通过其六大组件和多个开源库，为用户提供了一个强大而灵活的系统，以支持各种复杂的语言模型应用。

109702008·2025-03-12 00:10

DeepSeek大语言模型下几个常用术语

科幻电影里在人脑中植入芯片或许在当下无法实现，但当下可以借助AI人工智能实现人类第二脑”（大概是这个意思）更多内容，可关注公众号“一名程序媛”，我们一起从0-1学编程基本概念AI人工智能NLP自然语言处理LLM

曲幽·2025-03-11 21:36

LLM大语言模型项目知识点总结——Gunicorn、Flask和Docker

一、Flask框架1.1Blueprint流程：创建蓝图对象；在蓝图上定义路由和视图函数；在应用程序对象上注册蓝图(url_prefix参数指定蓝图的URL前缀)1.2CORS(app)Cross-OriginResourceSharing处理跨域的需求[email protected]_request钩子函数,在正常执行的时候插入一些东西，先执行这个东西然后再正常执行（hook）；并且先执行flas

NLP的小Y·2025-03-11 20:00

用flask做个简单llm-api

5000端口apifromflaskimportFlask,jsonify,requestapp=Flask(__name__)fromutils.llmimportload_llmllms=load_llm

格瑞Lxf·2025-03-11 20:28

AI 问答系统实战：用 Python + Flask + LLM 打造你的智能对话机器人！

随着大语言模型（LLM）的快速发展，打造一个智能问答系统已经成为可能！

Leaton Lee·2025-03-11 20:57

Manus联创澄清：我们并未使用MCP技术

公司明确表示并未使用Anthropic的MCP（模型上下文协议）技术，并强调MCP是一个旨在标准化应用程序与大型语言模型（LLM）之间上下文交互的开放标准。

耶耶Norsea·2025-03-11 17:10

【LLM】预训练的具体流程

分词器训练预训练模型：就像你已经学会了一些基础知识的“大脑”，我们可以在这个基础上继续学习新东西。比如，有些模型已经学会了英语，但中文学得不够好。中文预训练：为了让这个“大脑”更好地理解中文，我们需要用大量的中文数据继续训练它。分词器（Tokenizer）：它的作用是把一句话拆分成一个个小单元（比如词语或字）。比如，“我喜欢学习”会被拆成“我/喜欢/学习”。这些拆分后的单元会被转换成数字，方便模型

FOUR_A·2025-03-11 17:05

从零开始构建大模型(LLM)应用

大模型（LLM）已经成为当前人工智能的重要部分。但是，在这个领域还没有固定的操作标准，开发者们往往没有明确的指导，需要不断尝试和摸索。

和老莫一起学AI·2025-03-11 15:22

【LLM】从零开始实现 LLaMA3

分词器在这里，我们不会实现一个BPE分词器（但AndrejKarpathy有一个非常简洁的实现）。BPE（BytePairEncoding，字节对编码）是一种数据压缩算法，也被用于自然语言处理中的分词方法。它通过逐步将常见的字符或子词组合成更长的词元（tokens），从而有效地表示文本中的词汇。在自然语言处理中的BPE分词器的工作原理如下：初始化：首先，将所有词汇表中的单词分解为单个字符或符号。例

FOUR_A·2025-03-11 15:21

大语言模型(LLM)入门学习路线图_llm教程，从零基础到精通，理论与实践结合的最佳路径！

Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。

AGI学习社·2025-03-11 14:08

“大语言模型微调”（Fine-tuning）与“大语言模型应用”（LLM Applications）之间的区别

1.概念与定义大语言模型微调微调指的是在一个经过大规模预训练的通用语言模型基础上，利用针对性较强的小规模数据集对模型进行进一步训练，从而使模型在特定领域或任务上表现得更优秀。目标：使模型更好地适应特定任务（如医疗问答、法律咨询、编程辅助等），提高准确性和专业性。方法：可以是全参数微调，也可以采用参数高效微调（如LoRA、Adapter、PrefixTuning等），后者只调整部分参数而保持原有权重

AI Echoes·2025-03-11 09:06

【大模型开发】大模型背后的基础组件与生态概览

支撑大模型开发与部署的关键组件与生态系统当今大模型（LLM,LargeLanguageModel）在工业与学术界的应用日益广泛，从ChatGPT、BERT到DeepSeek等新兴模型，背后离不开一整套成熟的技术生态和工具链支持

云博士的AI课堂·2025-03-11 08:56

LangChain 发布政策详解

技术背景介绍LangChain是一个用于构建和部署大型语言模型（LLM）应用的生态系统。

VYSAHF·2025-03-11 08:25

领域大模型之微调技术和最佳实践

在本指南中，您将了解LLM架构、微调过程以及如何为NLP任务微调自己的预训练模型。-介绍-大型语言模型（LLM）的特别之处可以概括为两个关键词——大型和通用。

程序员莫玛·2025-03-11 07:17

LangChain大模型应用开发指南-大模型Memory不止于对话

【一一AGI大模型学习所有资源获取处一一】①人工智能/大模型学习路线②AI产品经理资源合集③200本大模型PDF书籍④超详细海量大模型实战项目⑤LLM大模型系统学习

喝不喝奶茶丫·2025-03-11 06:45

如何对大模型进行微调？从原理到实战全解析

随着大语言模型（LLM）的快速发展，微调（Fine-tuning）已成为将通用模型转化为垂直领域专家的核心技术。

挣扎与觉醒中的技术人·2025-03-11 05:32

推荐频道

(LLM)