推理第3页

LLM Weekly（2025.03.03-03.09）

研究人员推出了QwQ-32B，这是一个拥有320亿参数的模型，它利用强化学习来提升推理能力。尽管参数较少，但通过整合类似智能体的推理和反馈机制，QwQ-32B的表现可与更大规模的模型相媲美。

UnknownBody·2025-03-13 16:29

支持 40+ 插件，Spring AI Alibaba 简化智能体私有数据集成

RAG通过结合检索技术和生成模型的强大能力，使智能体能够实时从外部数据源获取信息，并在生成过程中增强其知识深度和推理能力。通过这种方式，智能体不仅能依赖于模型的预

阿里云云原生·2025-03-13 16:29

SaaS+AI应用架构：业务场景、智能体、大模型、知识库、传统工具系统

本节将详细介绍其五个核心层次：业务场景层：发现和确定业务场景智能体层：构建可复用的智能应用大模型层：采用最合适的大模型，作为思考推理的核心知识库：管理企业的核心知识资产传统工具：传统的运营工具和业务系统业务场景层

公众号-AI架构师汤师爷·2025-03-13 16:26

本地部署时，如何通过硬件加速（如 CUDA、TensorRT）提升 DeepSeek 的推理性能？不同显卡型号的兼容性如何测试？

本地部署DeepSeek模型的硬件加速优化与显卡兼容性测试指南一、硬件加速技术实现路径CUDA基础环境搭建版本匹配原则：根据显卡架构选择CUDA版本（如NVIDIARTX50系列需CUDA12+，V100需CUDA11.x），并通过nvcc--version验证安装。GPU加速验证：运行以下代码检查硬件加速状态：importtensorflowastfprint("可用GPU数量：",len(tf

百态老人·2025-03-13 14:43

【图像去噪】论文复现：TPAMI 2025！全面提升单图像去噪泛化性！像素级零样本去噪方法Pixel2Pixel的Pytorch源码复现，跑通源码，修改各种报错，框架详解，注释详细！

本文亮点：跑通Pixel2Pixel全部源码，包含数据集准备、制作像素库(PixelBank)、训练和推理等，

十小大·2025-03-13 14:11

(4-8)基于DeepSeekMoE架构的DeepSeek-V3：测试模型

加载完成后，模型被设置为评估模式，并移动到GPU上以加速推理过程。在生成文本时，用户可以输入提示文本，模型会根据这些提示生成相应的文本输出。

码农三叔·2025-03-13 13:37

人工智能 - TensorRT与DeepDP终极指南：释放GPU潜能的深度学习推理优化之道

TensorRTTensorRT（TensorRuntime）是英伟达（NVIDIA）推出的高性能深度学习推理（Inference）优化器和运行时库，专为在NVIDIAGPU上高效部署深度学习模型而设计

天机️灵韵·2025-03-13 13:36

模型训练和推理

训练时需要梯度，推理时不需要怎么理解“梯度”？

一杯水果茶！·2025-03-13 12:02

【YOLOv11[基础]】目标检测OD | 导出ONNX模型 | ONN模型推理以及检测结果可视化 | python

本文将导出YOLO11.pt模型对应的ONNX模型，并且使用ONNX模型推理以及结果的可视化。话不多说，先看看效果图吧！！！目录一导出ONNX模型二推理及检测结果可视化1代码2效果图

Jackilina_Stone·2025-03-13 12:02

onnx处理和TensorRT量化推理相关代码工具

一.说明在模型量化过程中，经常要使用一些工具对onnx或者量化后的模型（这里以TensorRT为例）进行推理，往往需要一些处理工具，比如：拆分或者合并onnx；修改onnx中的量算子QuantizeLinear

天亮换季·2025-03-13 12:26

图像识别技术与应用课后总结（18）

·YOLO-V3RetinaNet系列，YOLO-V3在不同变体（如YOLOV3-320、YOLOV3-416等）下，在推理时间和精度上有不同的表现，展示了其在速度和准确性上的平衡。

一元钱面包·2025-03-13 11:20

深度学习基础-onnxruntime推理模型

以下是一个完整的示例，展示如何加载ONNX模型、获取模型信息并运行推理：importonnxruntimeimportnumpyasnp#模型路径bev_head_onnx_path="path/to/

yuweififi·2025-03-13 11:49

书生大模型全链路开源体系，学习

浦语大模型全链路开源开放体系_哔哩哔哩_bilibili实战营地址书生·浦语(intern-ai.org.cn)https://internlm.intern-ai.org.cn/developers/activity领先的推理能力性能

小方abc·2025-03-13 01:37

CUDA12.1 cudnn9.0.1 python3.10.12配置TensorRT8.6.1，完成yolov12tensorRT推理完整过程

一、配置TensorRT8.6.11.下载TensorRT8.6.1包TensorRT完全依赖CUDA，因此下载其版本时一定要考虑CUDA的版本。具体应该下载哪一版本的TensorRT呢，这里我问的秘塔AI，你们也可以问问它。官网地址-tensorRT8.6.1安装包下载2.解压安装包这里要注意，如果你和我一样是给win下的但是要在Linux服务器上使用。千万不要在win的环境下进行安装包的解压操

李卓璐·2025-03-13 01:33

第二十七个问题-AI Agent 与 RAG 的核心区别

以下从多个维度对比分析：1.核心目标维度AIAgentRAG主要目标自主执行复杂任务（感知、决策、行动闭环）通过检索外部知识增强生成结果的准确性智能性强调自主推理、多步规划与动态调整能力依赖检索与生成的静态组合

释迦呼呼·2025-03-12 22:46

VLRMBench ：一个涵盖数学推理、幻觉理解、多图像理解等多种任务的视觉-语言奖励模型基准测试数据集

是一个专门用于评估视觉-语言奖励模型的综合性基准测试，包含12,634个问题，覆盖数学推理、幻觉理解和多图像理解三大领域。为视觉-语言奖励模型的全面评估提供了新的标准，推动了该领域的发展。

·2025-03-12 22:23

2024-05-21 问AI: 介绍一下大语言模型的推理过程。

文心一言大语言模型的推理过程是一个复杂而精细的序列，它结合了深度学习和自然语言处理的技术，旨在理解和生成人类可以理解的自然语言文本。

BigSharkTech 必杀技·2025-03-12 22:14

LangChain教程 - Agent -之 ZERO_SHOT_REACT_DESCRIPTION

LangChain提供了AgentType.ZERO_SHOT_REACT_DESCRIPTION，它结合了ReAct（Reasoning+Acting）策略，使得LLM可以基于工具的描述智能选择合适的工具进行推理和执行

花千树-010·2025-03-12 21:40

【大模型篇】推理模型大作战（QwQ-32B vs DeepSeek-R1）

大家好，我是大F，深耕AI算法十余年，互联网大厂技术岗。分享AI算法干货、技术心得。欢迎关注《大模型理论和实战》、《DeepSeek技术解析和实战》，一起探索技术的无限可能！写在前面当我让QwQ-32BvsDeepSeek-R1写一封未来自己的信大家更喜欢哪种风格？QwQ-32B模型介绍及使用指南一、模型简介（一&

大F的智能小课·2025-03-12 19:56

【AI论文】SEAP: 无训练稀疏专家激活修剪，解锁大型语言模型的潜力

摘要：大型语言模型在各种自然语言处理任务中取得了显著成功，然而其在推理过程中的高计算成本仍然是一个主要瓶颈。

东临碣石82·2025-03-12 19:53

AI双轨革命：DeepSeek与Manus

一、技术架构与核心能力DeepSeek：知识型“最强大脑”技术架构：基于混合专家模型（MoE），参数规模达6710亿，专注于语言模型的极致优化，擅长知识推理、文本生成与专业问题解答。

·2025-03-12 18:44

vLLM框架：使用大模型推理框架

vLLM专为高效部署大规模语言模型设计，尤其适合高并发推理场景，关于对vLLM的介绍请看这篇博文。以下从安装配置、基础推理、高级功能、服务化部署到多模态扩展逐步讲解。

CITY_OF_MO_GY·2025-03-12 17:12

算力服务器主要是指什么？

算力服务器对于人工智能领域来说，在深度学习模型的训练和推理过程中扮演着非常重要的角色，算力服务器可以执行大规模的矩阵计算，加速神经网络的训练和推理过程，帮助企业使得模型训练的时间大幅度缩短。

wanhengidc·2025-03-12 16:38

大模型问答机器人如何实现自然交互

大模型问答机器人如何实现自然交互关键词：大模型问答机器人,自然语言处理(NLP),深度学习,深度对话,多轮对话,意图理解,信息检索,逻辑推理1.背景介绍1.1问题由来近年来，随着人工智能技术的飞速发展，

杭州大厂Java程序媛·2025-03-12 16:02

保姆级教程：阿里QwQ-32B模型本地部署与企业级应用实战（附万字指南+工具链）

保姆级教程：阿里QwQ-32B模型本地部署与企业级应用实战（附万字指南+工具链）目录QwQ-32B核心优势与技术突破本地部署全攻略：从环境配置到模型运行六大企业级应用场景深度解析实战案例：数学推理/代码生成

emmm形成中·2025-03-12 15:59

2025最新QwQ-32B模型使用教程：从部署到实战，手把手教你玩转AI推理模型（附保姆级指南）

emmm形成中·2025-03-12 15:59

【QwQ-32B-Preview】阿里通义QwQ登场MATH测试超OpenAI o1,开源AI推理新王,为数不多可以与OpenAI o1媲美的模型之一

阿里通义千问今天（11月28日）发布《QwQ:思忖未知之界》博文，推出了QwQ-32B-Preview实验性研究模型，在数学和编程领域，尤其在需要深度推理的复杂问题上，具备卓越的AI推理能力。

Yukuii_0v0·2025-03-12 14:26

DeepSeek开源第一弹！突破H800性能上限，FlashMLA重磅开源

FlashMLA通过优化MLA解码和分页KV缓存，能够提高LLM（大语言模型）推理效率，尤其是在H100/H800这样的高端GPU上发挥出极致性能。

开源项目精选·2025-03-12 14:54

微软的OmniParser简介

介绍AI代理可以通过一系列思维过程分解高度模糊的问题，类似于人类的推理，从而处理这些问题。这些代理可以使用各种工具（包括程序、API、网络搜索等）来执行任务并寻找解决方案。

RA AI衍生者训练营·2025-03-12 14:54

在整个大模型LoRA微调中，哪些方法可以提升和优化模型训练后推理效果？

环境：LoRA微调问题描述：在整个大模型LoRA微调中，哪些方法可以提升和优化模型训练后推理效果？

玩人工智能的辣条哥·2025-03-12 11:38

P1784 数独(搜索与回溯)

数独是根据9×9盘面上的已知数字，推理出所有剩余空格的数字，并满足每一行、每一列、每一个粗线宫内的数字均含1−9，不重复。

I AM_SUN·2025-03-12 10:59

从需求文档到测试点：基于 OCR 和智能接口的高效图片信息提取与分析

为了帮助测试工程师高效、精准地提取图片信息，并结合智能分析技术实现测试点推理，本文将分享一套完整的技术解

Python测试之道·2025-03-12 10:55

AI系统架构

关键组成计算硬件GPU（如NVIDIAA100、H100）TPU（GoogleTensorProcessingUnit）NPU（如华为昇腾、寒武纪等）CPU（用于轻量级推理任务）

flying robot·2025-03-12 07:32

Faster R-CNN原理详解以及Pytorch实现模型训练与推理

阿_旭·2025-03-12 05:51

DeepSeek该选蒸馏版还是满血版

针对不同版本的DeepSeek，需要从多个维度综合分析：1.模型规模与基础能力671B模型在理论上具备更强的底层推理能力：更大参数量意味着更强的模式识别、逻辑推理和知识储备能力，尤其在跨领域、开放域任务中优势显著

飞翔的FOX·2025-03-12 04:35

【xinference部署大模型超详细教程 gemma-it为例子】

pipconfigsetglobal.index-urlhttps://mirrors.pku.edu.cn/pypi/web/simple第一步安装xinference和vLLM：vLLM是一个支持高并发的高性能大模型推理引擎

放飞自我的Coder·2025-03-12 02:50

OPPO机器学习算法岗（AI智能体）内推

专注于以端设备为中心的AI智能体研究与应用，研究方向包括但不限于智能体与多智能体框架、大模型推理与规划、大模型工具使用等。

飞300·2025-03-11 23:19

人工智能混合编程实践：C++调用Python ONNX进行YOLOv8推理

人工智能混合编程实践：C++调用PythonONNX进行YOLOv8推理前言相关介绍Python简介C++简介ONNX简介YOLOv8简介前提条件实验环境项目结构C++调用PythonONNX进行YOLOv8

FriendshipT·2025-03-11 22:48

H800实战应用深度解析endofsentence

下表展示了H800在不同场景下的性能表现对比：场景类型训练速度提升推理延迟降低能效比提升自然语言处理35%22%40%计算机视觉28%18%33%推荐系统41%29%37%资深系统架构师指出："H800

智能计算研究中心·2025-03-11 22:12

DeepSeek高效AI创作成本革新endofsentence

其混合专家架构采用动态路由机制，实现参数利用率提升40%以上，在保持模型容量的同时将推理成本降低68%。在代码生成任务中，DeepSeekCoder在HumanEval基准测试中达到83.1%的准确

智能计算研究中心·2025-03-11 22:12

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

关注前沿科技量子位挑战多图数学推理新基准，大模型直接全军覆没？！事情是这样的。

·2025-03-11 20:10

10 大中文医学数据集汇总：涵盖神农中医药、中医药古籍、医学推理、医学问答……

医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发，再到个性化医疗，数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。医学数据集的形式多样，涵盖了不同维度和领域的数据资源。例如，在疾病诊断领域，像RJUA-QA这样的问答数据集推动了复杂医学知识的自动化应用；而在中医药领域，神农中医药数据集整合了传统中医药文献、临床案例和药方数据。针对于此，本文整理了医学领域的1

·2025-03-11 20:07

DeepSeek赋能机器人革命：从推理引擎到行业落地的全栈技术实践

——解析大模型如何重塑机器人产业的智能化未来引言：机器人产业的技术范式转移在2025年全球机器人市场规模突破2000亿美元的关键节点，DeepSeek凭借其创新的"推理优先"技术架构，正在重构机器人产业的智能化路径

量子纠缠BUG·2025-03-11 19:52

AI应用基于DJL开发WEB应用对鞋分类进行预测和推理------AI

packagecom.alatus.djl.app;importai.djl.MalformedModelException;importai.djl.translate.TranslateException;importcom.alatus.djl.service.InterferenceService;importcom.alatus.djl.service.TrainService;impo

旧约Alatus·2025-03-11 18:49

RoboVQA：机器人多模态长范围推理

本文提出一种可扩展、自下而上且本质多样化的数据收集方案，该方案可用于长期和中期的高级推理，与传统的狭窄自上而下的逐步收集相比，其吞吐量提高2.2倍。

三谷秋水·2025-03-11 18:49

HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发

通过分布式机器学习，开发者可以充分利用多设备的计算资源，实现复杂模型的训练与推理。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的分布式机器学习应用，涵盖从基础概念到高级技巧的全面讲解。

·2025-03-11 11:52

如何在DigitalOcean的H100 GPU服务器上运行DeepSeek R1 模型

其中一个最关键的能力就是“推理”，也就是用合乎逻辑、讲得通的方式思考问题。以前，大语言模型的表现比较单一。

DO_Community·2025-03-11 10:44

基于llama_cpp 调用本地模型（llama）实现基本推理

零基础实践本地推理模型基本应用：基于llama_cpp的本地模型调用。本文先安装llama_cpppython库，再编写程序，利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。

月光技术杂谈·2025-03-11 10:40

通过 Ollama 本地部署 DeepSeek-r1:1.5b 模型后，用 Python 调用推理并生成基于 pytest + PO 设计模式的 Playwright 自动化测试文件

Ollama提供的本地推理服务默认可通过HTTPAPI访问，地址通常为：ht

Python测试之道·2025-03-11 09:00

DeepSeek + Cline：编程如何加速引擎

以下是具体实现方式及技术要点：一、智能规划与代码生成问题分析与规划（Plan模式）DeepSeek-R1模型擅长处理复杂逻辑推理，开发者可在Cline的Plan模式下用自然语言描述需求（如“用Python

meisongqing·2025-03-11 08:58

推荐频道

推理