推理第2页

LLaMA 学习笔记

目录LLaMA模型结构：模型微调手册：推理示例：指定位置加载模型测试ok：模型下载：llama-stack下载modelscope下载LLaMA优化技术RMSNormSwiGLU激活函数旋转位置编码（RoPE

AI算法网奇·2025-07-12 06:41

医疗金融预测与语音识别中的模型优化及可解释性技术突破

语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决

智能计算研究中心·2025-07-11 23:23

模型实战（21）之 C++ - tensorRT部署yolov8-det 目标检测

C++-tensorRT部署yolov8-det目标检测python环境下如何直接调用推理模型转换并导出：pt->onnx->.engineC++tensorrt部署检测模型不写废话了，直接上具体实现过程

明月醉窗台·2025-07-11 16:08

langgraph的ReAct应用

一、什么是langgraph的ReActLangGraph中的ReAct（Reasoning+Acting）代理是一种结合推理与行动能力的AI代理架构，通过动态决策链实现复杂任务处理。

fishjar100·2025-07-11 16:05

Transformer推理性能优化技术很重要的一个就是K V cache，能否通俗分析，可以结合代码?

原文：Transformer推理性能优化技术很重要的一个就是KVcache，能否通俗分析，可以结合代码?-知乎为什么要研究KVcache？

javastart·2025-07-11 15:28

提示词优化——分析性思维导师

性格类型指标INTJ（内向直觉思维判断型）背景分析性思维导师是一个专业的指导者，他能够帮助用户通过逻辑推理和批判性思考来解决问题。

由数入道·2025-07-11 15:58

AI 边缘算力关键技术白皮书 2024

其中，边缘算力基础设施聚焦于计算、存储、网络等物理硬件资源及其虚拟化，边缘算力网络关注分布式算力资源的感知、度量、并网、调度、管控等，边缘智能涉及系统部署、数据处理、模型优化、边缘训练、边缘推理等关键问题

Python编程杰哥·2025-07-11 02:02

异构推理系统动态负载调度与资源分配实战：多节点协同、任务绑定与智能分发策略全解析

异构推理系统动态负载调度与资源分配实战：多节点协同、任务绑定与智能分发策略全解析关键词异构调度、Kubernetes调度器、GPU任务绑定、MIG分配、推理流量调度、服务亲和性、任务隔离、资源优先级、边缘协同

观熵·2025-07-11 02:32

大模型的“涌现能力“：现象、表现与成因解析

文章目录一、涌现能力的本质与特征1.1基本定义1.2识别标准二、三种典型涌现能力表现2.1少样本上下文学习（Few-shotIn-contextLearning）表现特征实证数据可能成因2.2思维链推理

北辰alk·2025-07-11 02:32

跨集群异构推理系统协同调度实战：边缘-中心联合部署与多租户算力调度架构解析

跨集群异构推理系统协同调度实战：边缘-中心联合部署与多租户算力调度架构解析关键词跨集群调度、边缘推理、GPU-NPU协同、KubeFed、资源分域、任务下发、多租户隔离、MLOps联邦调度、推理闭环、负载均衡摘要在

观熵·2025-07-11 02:32

大模型服务的推理优化探索

本文尝试讨论将LLM推理服务更改为高吞吐量引擎的挑战与应对方法。1.大模型服务面临的挑战大模型的能力令人惊叹，但其

半吊子全栈工匠·2025-07-11 02:31

伤心美眉·2025-07-11 01:56

芯片之后，AI之争的下一个战场是能源？

⚡️01.中美AI对决，从芯片转向能源底座在当前AI系统“狂飙”状态下，模型参数突破万亿、推理请求激增，数据中心用电量成倍上升。但在美国：电网扩容周期缓慢（约7年）新建数

在美的苦命程序员·2025-07-10 23:40

从数据集视角看——大语言模型（LLMs）的训练、微调和推理

1.大语言模型训练的整体框架大语言模型的训练是一个复杂的过程，涉及数据准备、模型架构、优化策略和推理部署。

爱看烟花的码农·2025-07-10 22:38

【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem

论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，

Booksort·2025-07-10 18:12

【目标检测】Yolov7 的 ELAN 和 E-ELAN 模块演进（涉及到分组卷积，cardinality，梯度路径）

感觉从YOLOv6开始，YOLOv6系列感觉优化点都着重于推理速度上面，YOLOv6的RepBlock重参数化，给我的感觉就是算子融合进行加速。

Jiangnan_Cai·2025-07-10 11:55

vLLM 优化与调优：提升模型性能的关键策略

vLLM作为一种高效的推理引擎，提供了多种策略来提升模型的性能。本文将深入探讨vLLMV1的优化与调优策略，帮助读者更好地理解和应用这些技术。

强哥之神·2025-07-10 11:51

如何让AI真正理解你的意图（自适应Prompt实战指南）

目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？

nine是个工程师·2025-07-10 08:33

上下文工程：AI 智能体架构落地的关键新技术

通过分层架构设计、动态压缩策略与向量化增强技术，上下文工程显著提升智能体的记忆效率与推理

一休哥助手·2025-07-10 08:32

【AI大模型前沿】OmniAudio：阿里通义实验室的空间音频生成模型，开启沉浸式体验新时代

大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破4【AI大模型前沿】阿里QwQ-32B：320亿参数推理大模型

寻道AI小兵·2025-07-10 07:01

阿里开源WebSailor：超越闭源模型的网络智能体新星

这一开源项目标志着中国企业在复杂推理与检索技术领域的重要突破，其设计初衷直指开源生态中长期存在的关键短板：面对超高不确定性任务时的系统性推理能力缺失。

·2025-07-09 22:02

【vLLM 学习】Eagle

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-07-09 21:34

推测性解码：加速多模态大型语言模型的推理

然而，随着应用的深入，这些模型的推理速度问题逐渐凸显。为了解决这一挑战，推测性解码（SpeculativeDecoding,SPD）技术应运而生。

人工智能培训咨询叶梓·2025-07-09 21:25

LangChain内置代理类型深度对比分析(43)

它区别于普通的链式结构，能够依据任务需求，动态调用不同工具（Tool）、结合语言模型的推理能力，自主规划执行步骤并完成复杂任务。无论是智能问答、代码生成，还是数据分析等场景，代理都可通过灵活组合工具

Android 小码蜂·2025-07-09 21:21

MMaDA：开启多模态扩散语言模型新篇章

gitcode.com/gh_mirrors/mm/MMaDA项目介绍MMaDA（MultimodalLargeDiffusionLanguageModels）是一款全新的多模态扩散基础模型，旨在在文本推理

·2025-07-09 20:19

智能体核心架构解析：感知-推理-行动的完整闭环

智能体核心架构解析：感知-推理-行动的完整闭环嗨，我是IRpickstars！总有一行代码，能点亮万千星辰。在技术的宇宙中，我愿做永不停歇的探索者。✨用代码丈量世界，用算法解码未来。

.摘星.·2025-07-09 20:19

！LangChain内置代理类型深度对比分析(43)

它区别于普通的链式结构，能够依据任务需求，动态调用不同工具（Tool）、结合语言模型的推理能力，自主规划执行步骤并完成复杂任务。无论是智能问答、代码生成，还是数据分析等场景，代理都可通过灵活组合工具

·2025-07-09 20:17

“猫攻击”揭示推理模型脆弱性，凸显上下文工程的重要性

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/一项研究显示，即便是像“猫一生中大多数时间都在睡觉”这样简单的语句，也可能显著干扰高级推

新加坡内哥谈技术·2025-07-09 13:05

Gemma Chatbot 架构深度剖析：从 C++ 核心到多语言推理的工程实践

GemmaChatbot架构深度剖析：从C++核心到多语言推理的工程实践随着大语言模型（LLM）本地化需求日益提升，如何设计一套高效、可扩展、易于维护的本地聊天系统。

雷羿 LexChien·2025-07-09 11:18

【人工智能之大模型】思维链（Chain of Thought，CoT）在大模型中是如何引导模型逐步推理的？

【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？

985小水博一枚呀·2025-07-09 10:42

[文献阅读]ReAct: Synergizing Reasoning and Acting in Language Models

文章目录摘要Abstract:思考与行为协同化Reason(Chainofthought)ReActReAct如何协同推理+响应Action（动作空间）协同推理结果总结摘要ReAct:SynergizingReasoningandActinginLanguageModels

xiao_yuzaijia·2025-07-09 06:16

PagedAttention和Continuous Batching

PagedAttention是什么PagedAttention是一种用于优化Transformer架构中注意力机制的技术，主要用于提高大语言模型在推理阶段的效率，特别是在处理长序列数据时能有效减少内存碎片和提高内存利用率

流浪大人·2025-07-09 06:15

【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署

文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理

XD742971636·2025-07-09 06:40

TensorRT-LLM：大模型推理加速引擎的架构与实践

前言：技术背景与发展历程：随着GPT-4、LLaMA等千亿级参数模型的出现，传统推理框架面临三大瓶颈：显存占用高（单卡可达80GB）、计算延迟大（生成式推理需迭代处理）、硬件利用率低（Transformer

·2025-07-09 05:03

构建企业级大模型运行监控体系：健康度五级指标与实战部署路径全解析

构建企业级大模型运行监控体系：健康度五级指标与实战部署路径全解析关键词：模型运行监控、健康度分级体系、DeepSeek、私有化部署、Prometheus、Grafana、异常检测、推理稳定性、性能观测、

·2025-07-09 05:32

企业级多模型服务架构（MaaS）私有部署实战指南：统一调度、模型隔离与服务编排全路径解析

企业级多模型服务架构（MaaS）私有部署实战指南：统一调度、模型隔离与服务编排全路径解析关键词：多模型服务架构、MaaS、私有化部署、模型管理、推理调度、模型编排、TritonInferenceServer

观熵·2025-07-09 04:29

AI智能体——实现关键技术

对于复杂的推理类问题，先思考后‌执行，效果往往更好。而且还可以让模型在生成答案时‏展示推理过程，便于我们理解和优化AI。

·2025-07-09 04:57

想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！

一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。

Gq.xxu·2025-07-09 03:49

「源力觉醒创作者计划」_以FastDeploy为例部署ERNIE-4.5-21B大模型全流程实践

硬件要求1.2Python环境与pip升级2下载ERNIE-4.5模型权重2.1安装HuggingFaceCLI工具2.2设置国内镜像加速（可选）2.3下载模型文件3安装FastDeploy与Paddle推理引擎

cooldream2009·2025-07-09 02:17

基于存算一体架构的实时深度学习推理优化

博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化引言存算一体架构的核心优势

瑕疵·2025-07-09 01:39

「论文导读」LLM高效推理与模型量化

等人，來自MetaAI来源：arXiv:2302.13971，2023年2月主题：介绍LLaMA系列模型（LLaMA-7B、13B、33B、65B），专为研究用途设计，强调高效能与低资源需求的语言模型推理

雷羿 LexChien·2025-07-09 00:01

构建强大AI代理的最佳开源工具

在2025年，打造一个智能自主的代理意味着要组装一套能够协同工作的智能工具栈——处理从推理和记忆到浏览器控制和实时语音等所有功能。

·2025-07-08 23:28

2025 年机器学习工作流程的 7 个 AI 代理框架

这些场景需要能够推理复杂

盖瑞理·2025-07-08 23:57

vLLM 的逻辑与运作机制

vLLM的逻辑与运作机制vLLM作为一种高效的推理框架，逐渐成为研究和应用的热点。vLLM的核心在于如何高效地管理和调度模型推理任务，以最大化利用计算资源并提高推理效率。一、vLLM是如何运作的？

a李兆洋·2025-07-08 23:26

【AI论文】基于图像思维的多模态推理：理论基础、方法及未来前沿

摘要：近期，文本思维链（Chain-of-Thought，CoT）显著推动了多模态推理的进展。在这一范式下，模型在语言层面进行推理。

东临碣石82·2025-07-08 22:22

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models

文章主要内容总结本文围绕大推理模型（LRMs）的推理能力展开系统研究，通过可控谜题环境分析其在不同问题复杂度下的表现，揭示其优势与局限性：研究背景与问题：当前LRMs（如OpenAIo1/o3、DeepSeek-R1

UnknownBody·2025-07-08 22:50

Prompt相关论文阅读(02)--Auto-CoT(2024-11-25)

AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理

zhilanguifang·2025-07-08 20:12

【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（五）

五、解释评估（ExplanationEvaluation）在前面的章节中，我们介绍了不同的解释技术和它们的用途，但评估它们如何忠实地反映模型的推理过程仍然是一个挑战。

百万年薪天才少女·2025-07-08 16:11

AI周报 250630-250706

文章目录**AI核心技术进展****a.模型架构与训练****b.推理优化与部署****c.智能体(Agent)系统****d.多模态与生成技术****e.开源框架与工具****f.评测与性能分析***

EAI工程笔记·2025-07-08 15:04

Python 领域 vllm 优化模型推理速度的方法

Python领域vLLM优化模型推理速度的方法关键词：Python、vLLM、模型推理速度、优化方法、推理性能摘要：本文聚焦于Python领域中vLLM对模型推理速度的优化方法。

Python编程之道·2025-07-08 11:14

推荐频道

推理