tensorrt推理第2页

Qwen2-Audio：通义千问音频大模型技术解读

引言：从llm到mlm（audio）大型语言模型（LLM）的发展日新月异，它们在文本理解、生成、推理等方面展现出惊人的能力。

kakaZhui·2025-03-21 01:41

【AI论文】RWKV-7“鹅”模型，具备富有表现力的动态状态演化能力

然而，RWKV-7模型仅需常量内存使用和每个标记的常量推理时间。RWKV-7引入了一种新泛化的delta规则，该规则具有向量值门控和上

东临碣石82·2025-03-21 00:02

Dify 项目开源大模型应用开发平台

其核心功能包括：可视化工作流构建通过可视化画布（如ReactFlow）编排AI工作流，支持多步骤任务处理，例如文档解析、模型推理和

魔王阿卡纳兹·2025-03-20 23:30

开源模型应用落地-qwen模型小试-调用Qwen2-7B-Instruct-进阶篇（十二）

本文将介绍如何使用Transformers库进行模型推理（相较于qwen1系列，使用方式上有较大的调整），现在，我们赶紧跟上脚步，去体验一下新版本模型

开源技术探险家·2025-03-20 19:23

LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人

它提供了一个灵活的框架，使得开发者可以构建具有上下文感知能力和推理能力的应用程序，这些应用程序可以利用公司的数据和APIs。这个框架由几个部分组成。

南七小僧·2025-03-20 18:44

已解决：python多线程使用TensorRT输出为零？附tensorrt推理代码

设备：cuda12.1,cudnn8.9.2,tensorrt8.6.11.问题tensorrt的推理没输出？？？

李卓璐·2025-03-20 18:11

Hugging Face 模型格式全解析：从 PyTorch 到 GGUF

HuggingFace模型格式全解析：从PyTorch到GGUFHuggingFace生态支持多种模型格式，以满足不同场景下的存储、部署和推理需求。

mingo_敏·2025-03-20 17:37

用LangChain构建自愈式生成式AI：颠覆传统知识库的智能问答系统实战

本文将揭秘如何通过LangChain框架构建具有自进化能力的智能问答系统，实现企业知识库的实时动态更新与智能推理。通过本文，您将掌握一套让AI系统在运行中持续学习、自主优化的创新架构。

煜bart·2025-03-20 13:32

复旦：过程奖励优化多模态推理

2503.10291摘要我们引入了VisualPRM，这是一种具有8B参数的高级多模态过程奖励模型（PRM），它通过Best-of-N（BoN）评估策略提高了现有多模态大型语言模型（MLLM）在不同模型尺度和族之间的推理能力

大模型任我行·2025-03-20 13:59

有了大模型为何还需要Agent智能体

其核心架构如下：大脑（LLM）：负责语言理解、逻辑推理、知识问答等认知任务。感官（工具链）：通过API、传感器或数据库获取实时数据（如天气、股价）。

全栈你个大西瓜·2025-03-20 09:59

Manus详细介绍

其名称源自拉丁语“MensetManus”，意为“手脑并用”，强调将大模型的逻辑推理能力转化为实际生产力。

accurater·2025-03-20 09:28

deepseek具体应用场景

以下是基于证据的详细总结：金融领域DeepSeek在金融领域的应用表现突出，例如通过其大语言模型（如DeepSeekLLM67Bt）提供数学、逻辑推理等能力，帮助金融机构提升服务效率。

ahyouxiang·2025-03-20 06:06

【AI Agent教程】各种Agent开发框架都是如何实现ReAct思想的？深入源码学习一下

ReAct方式是AIAgent最常用的实现思路之一，它强调在执行任务时结合推理（Reasoning）和行动（Acting）两个方面，使得Agent能够在复杂和动态的环境中更有效地工作。

同学小张·2025-03-20 05:29

Tree of Thought Prompting（思维树提示）

TreeofThoughtPrompting（思维树提示）是一种新兴的提示工程技术，旨在通过模拟人类解决问题时的多步推理过程，提升大型语言模型（LLM）在复杂任务中的表现。

大数据追光猿·2025-03-20 02:28

Deepseek的本地化部署软件工具包

选择模型版本参数规模硬件要求（最低）适用场景1.5B/7B8GB内存，无专用GPU文本处理、简单问答14B16GB内存+12GB显存代码生成、逻辑推理32B/70B24GB显存+32GB内存企业级复杂任务执行命令

哈拉少12·2025-03-19 20:14

使用LangChain实现大规模语言模型自发现推理结构

使用LangChain实现大规模语言模型自发现推理结构在现代自然语言处理(NLP)的研究中，大规模语言模型（LLMs）已经展示了强大的能力。然而，在应对复杂的推理问题时，传统的提示方法常常力不从心。

VYSAHF·2025-03-19 20:43

现在的AI，到底是背答案的高手，还是真正的会思考

这让我也产生了一个疑问：现在的AI究竟是背答案的复读机呢，还是真会推理的最强大脑？于是我搜索了很多资料来了解这件事。毕竟这事儿可不单单跟作业有关系——它对未来的AI起着决

沐凡资源·2025-03-19 19:06

A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第9部分——应用

应用尽管预训练为大型语言模型（LLMs）赋予了强大的基础能力，但在部署于专业领域时，LLMs仍经常遇到持续的限制，包括上下文长度受限、容易产生幻觉（hallucination）、推理能力欠佳和固有的偏见

王金-太想进步了·2025-03-19 19:31

知识蒸馏：从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新)

知识蒸馏通过迁移教师模型（复杂）的知识到学生模型（轻量），实现模型压缩与性能平衡。核心在于利用教师模型的软标签（概率分布）替代独热编码标签，学生模型不仅学习到教师模型输出数据的类别信息，还能够捕捉到类别之间的相似性和关系，从而提升其泛化能力核心概念知识蒸馏的核心目标是实现从教师模型到学生模型的知识迁移。在实际应用中，无论是大规模语言模型（LLMs）还是其他类型的神经网络模型，都会通过softmax

AI仙人掌·2025-03-19 17:20

KV 缓存简介

KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成）中，用于加速推理过程的核心技术。

dev.null·2025-03-19 17:49

探索AI知识库的无限潜力：定义、应用与未来展望

它不仅包含了大量的结构化、半结构化和非结构化数据，还具备智能检索、推理分析、自我学习和优化等高级功能。

·2025-03-19 16:15

GPT-4o mini小型模型具备卓越的文本智能和多模态推理能力

GPT-4omini在学术基准测试中，无论是在文本智能还是多模态推理方面，都超越了GPT-3.5Turbo和其他小型模型，并支持与GPT-4o相同的语言范围。

FlowUs息流使用宝典·2025-03-19 14:55

推理速度超快！vLLM本地部署Mistral-Small 3.1+全方位测试多模态大模型！超越Gemma3.1，最适合企业项目的大模型！中文OCR能力也不弱

本篇笔记所对应的视频https://www.bilibili.com/video/BV1Q9XLYiEwD/MistralAI最新推出的MistralSmall3.1模型无疑是近期科技界的一大亮点。这款由法国AI实验室MistralAI开发的开源多模态模型，以其卓越的性能和灵活性，为开发者、企业和研究人员带来了全新的可能性。凭借24B参数、对文本与图像的处理能力，以及在多个关键指标上的突破，Mis

AI超元域·2025-03-19 12:14

未来5年AI人工智能与信息技术领域发展趋势

以Transformer为核心的序列建模技术持续迭代，字节跳动云雀模型通过动态结构优化，在保持语言理解能力的同时将参数量压缩至GPT-4的1/10，推理速度提升3倍。

海宁不掉头发·2025-03-19 11:03

使用 DeepSeek-R1 为 RAG 运行本地 Gradio 应用程序

第1步：先决条件在深入研究实现之前，我们确保已安装以下工具和库：Python3.8+Python3.8+版Langchain：用于构建由大型语言模型（）LLMs提供支持的应用程序的框架，支持轻松检索、推理和工具集成

呱牛 do IT·2025-03-19 10:53

OctoTools：一个具有复杂推理可扩展工具的智体框架

解决复杂的推理任务可能涉及视觉理解、域知识检索、数值计算和多步骤推理。现有方法使用外部工具增强大语言模型(LLM)，但仅限于专业领域、有限的工具类型或需要额外的训练数据。

三谷秋水·2025-03-19 09:09

【大模型开发】ONNX 格式的大模型在 Android 上的部署与测试

最后会给出一些针对在移动设备上部署ONNX推理的优化方法和未来建议。

云博士的AI课堂·2025-03-19 08:05

Linux中部署DeepSeek R1

DeepSeek-R1本地部署硬件需求表模型规模GPU需求CPU需求内存需求存储需求备注1.5B-GTX16504GB（可选）四核i5/Ryzen3000+16GBDDR450GBSSD需4-bit量化，CPU推理延迟约

Java探索者 °·2025-03-19 07:26

Ubuntu20.04 RTX4060 AI环境搭建

下面记录在Ubuntu20.04环境下，使用ASUSATS-RTX4060-O8G-V2显卡，搭建NvidiaTensorRT开发环境。

stxinu·2025-03-19 05:03

自建智能算力中心 vs 第三方算力租赁：AI企业的算力博弈与最优解

从ChatGPT到DeepSeek，从自动驾驶到智能医疗，AI模型的训练和推理需求呈现指数级增长。在这场技术革命中，算力已成为企业竞争的“命脉”。

·2025-03-19 03:50

理解深度学习1-简介

它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。

shangjg3·2025-03-18 21:35

程序员必看！DeepSeek全栈开发实战指南：从代码生成到性能优化

这两项技术突破对程序员群体意义重大：通信效率飞跃：DeepEP通过NVLink优化实现GPU间158GB/s传输速度，后端开发者训练大模型时可节省60%集群资源推理性能突破：R1模型在H

AI创享派·2025-03-18 20:59

五、AIGC大模型_05模型的vLLM部署与LangChain调用

0、概述要搭建一个大模型应用服务，通常需要包含以下五层结构，即：基础环境、模型层、推理层、对外接口、外挂应用在了解了模型的微调训练之后，本文将以vLLM、OpenAI、LangChain为例，介绍大模型的推理部署以及对外接口开放调用

学不会lostfound·2025-03-18 19:20

3D-AFFORDANCELLM: HARNESSING LARGE LANGUAGE MODELS FOR OPEN-VOCABULARY AFFORDANCE DETECTION

为了解决这些限制，我们将传统的可及性检测范式重新定义为指令推理可及性分割（IRAS）任务。该任务旨在根据查询推理文本输出可及性掩码区域，避免了输入标签的固定类别。相应地，我们提出了

UnknownBody·2025-03-18 16:00

yolov4

从数据层面和网络设计层面来进行改善消融实验，感觉能做的都让他给做了，这工作量不轻全部实验都是单GPU完成，不用太担心设备了Bagoffreebies(BOF)只增加训练成本，但是能显著提高精度，并不影响推理速度数据增强

zzh-·2025-03-18 16:28

llama.cpp 和 LLM（大语言模型）

它通过海量文本数据训练，能够生成连贯、语义丰富的文本，完成问答、创作、推理等任务。特点：参数规模大：如GPT-3（1750亿参数）、Llama-65B（650亿参数）等。

这个懒人·2025-03-18 14:12

Elasticsearch：为推理端点配置分块设置

推理端点对一次可处理的文本量有限，具体取决于模型的输入容量。分块（Chunking）是指将输入文本拆分成符合这些限制的小块的过程，在将文档摄取到semantic_text字段时会进行分块。

Elastic 中国社区官方博客·2025-03-18 13:35

Yolov11目标检测(ultralytics)

Yolov11目标检测（ultralytics）1.克隆仓库2.安装环境依赖3.训练、验证、推理以及onnx模型导出1.克隆仓库从官网下载Yolov11到本地。

@M_J_Y@·2025-03-18 13:02

TorchServe详解和应用

TorchServer是PyTorch的一个组件，它是一个轻量级的服务框架，用于部署和管理PyTorch模型，以便在生产环境中提供高效、可扩展的推理服务。

易之阴阳·2025-03-18 11:43

Flink流式计算系统

本文将以这些概念为基础，逐一介绍Flink的发展背景、核心概念、时间推理与正确性工具、安装部署、客户端操作、编程API等内容，让开发人员对Flink有较为全面的认识并拥有一些基础操作与编程能力。

xyzkenan·2025-03-18 07:13

ChatGPT推理模型&通用模型大解析！

很多人知道通用模型和推理模型了，那么ChatGPT的哪些模型是通用模型，哪些又是推理模型呢？

即兴小索奇·2025-03-18 00:38

【技术解密】本地部署 DeepSeek-V3：完整指南

目录引言运行环境需求下载与安装推理部署总结参考资源引言随着人工智能的快速发展，开源大模型正逐步改变着技术生态。

海棠AI实验室·2025-03-17 22:54

【大模型实战篇】使用GPTQ量化QwQ-32B微调后的推理模型

低精度运算（如INT8）在GPU等硬件上计算效率更高，推理速度可提升2~4倍。我们的任务是，将QwQ-32B微调后的推理模型，也就是bf16的精度，通过量化，压缩到int4。

源泉的小广场·2025-03-17 21:19

LLM-PowerHouse: 一站式大型语言模型定制训练与推理指南

LLM-PowerHouse:解锁大型语言模型的潜力在人工智能和自然语言处理领域,大型语言模型(LargeLanguageModels,LLMs)正在掀起一场革命。随着GPT、BERT等模型的出现,LLMs展现出了惊人的能力,可以执行各种复杂的语言任务。然而,如何有效地训练和使用这些强大的模型仍然是一个挑战。针对这一需求,GitHub上的LLM-PowerHouse项目应运而生,为开发者、研究人员

Nifc666·2025-03-17 21:43

s1K 数据集：是一个用于提升语言模型推理能力的高质量数据集。

2025-02-07，由斯坦福大学、华盛顿大学等研究机构创建了s1K数据集，该数据集包含1,000个精心挑选的问题，并配以推理轨迹和答案，为语言模型推理能力的提升提供了重要的数据基础。

·2025-03-17 14:37

Ollama 基本概念

Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。

Mr_One_Zhang·2025-03-17 13:47

DeepSeek 在代码生成方面的优势解析

文章将详细解析DeepSeek在代码生成方面的优势，包括模型架构、数据训练、优化策略、编程语言支持、推理效率等核心技术点。1.DeepSeek-Coder的模型架构优化DeepSeek-Code

草莓屁屁我不吃·2025-03-17 08:15

Google Gemini 大模型技术架构剖析

Gemini系列包括Ultra、Pro和Nano三种尺寸，适用于从复杂的推理任务到设备内存受限的应用场景。GeminiUltra是最强大的模型，可在各种高度复杂的任务（包括推理和多

musicml·2025-03-17 08:15

文心一言提前免费，高性能大模型全面入局该咋看？

文心大模型4.5作为首个原生多模态大模型，在多模态理解、文本和逻辑推理能力上的显著提升，使其在多项测试中表现优于GPT4.5，这体现了百度在AI技术研发上的深厚积累。同时，文心大模型X1作为深度思

江瀚视野·2025-03-17 07:06

DeepSeek-R1模型1.5b、7b、8b、14b、32b、70b和671b有啥区别？

码笔记mabiji.com分享：1.5B、7B、8B、14B、32B、70B是蒸馏后的小模型，671B是基础大模型，它们的区别主要体现在参数规模、模型容量、性能表现、准确性、训练成本、推理成本和不同使用场景

facaixxx2024·2025-03-17 06:01

推荐频道

tensorrt推理