DNN推理

【Qualcomm】高通SNPE框架简介、下载与使用

的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架

Jackilina_Stone·2025-07-12 13:00

模型训练与部署注意事项篇---resize

图像大小的影响在YOLOv系列模型的训练和推理部署过程中，图像大小的选择是影响模型性能（精度、速度、泛化能力）的关键因素之一。

Atticus-Orion·2025-07-12 12:56

Qualcomm Hexagon DSP 与 AI Engine 架构深度分析：从微架构原理到 Android 部署实战

QualcommHexagonDSP与AIEngine架构深度分析：从微架构原理到Android部署实战关键词QualcommHexagon、AIEngine、HTA、HVX、HMX、Snapdragon、DSP推理加速

观熵·2025-07-12 12:55

24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化

当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。

知识大胖·2025-07-12 11:21

上海交大：工具增强推理agent

标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评

·2025-07-12 11:46

LLM 大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战

LLM大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战1.环境准备GPU设备:A10,3090,V100,A100均可.

汀、人工智能·2025-07-12 10:09

目标检测中的NMS算法详解

问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes

·2025-07-12 10:08

[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal

现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法

0x211·2025-07-12 10:38

【实战AI】macbook M1 本地ollama运行deepseek

请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral

东方鲤鱼·2025-07-12 08:24

思维链革命：让大模型突破“机器思考”的边界

以下是对LilianWeng思维链技术深度解析文章（原文链接）的博客化重构，融合技术本质与应用实践：思维链革命：让大模型突破“机器思考”的边界——解析ChainofThought技术体系与下一代推理架构一

John Song·2025-07-12 07:13

LLM Agent在多模态任务中的推理机制详解

文章目录一、引言二、多模态LLMAgent的基本架构2.1系统组成2.2工作流程图三、多模态表示与对齐3.1跨模态嵌入空间3.2模态对齐技术四、多模态推理策略4.1基于提示的推理(Prompt-basedReasoning

·2025-07-12 06:12

在mac m1基于llama.cpp运行deepseek

lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。

·2025-07-12 06:41

LLaMA 学习笔记

目录LLaMA模型结构：模型微调手册：推理示例：指定位置加载模型测试ok：模型下载：llama-stack下载modelscope下载LLaMA优化技术RMSNormSwiGLU激活函数旋转位置编码（RoPE

AI算法网奇·2025-07-12 06:41

医疗金融预测与语音识别中的模型优化及可解释性技术突破

语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决

智能计算研究中心·2025-07-11 23:23

模型实战（21）之 C++ - tensorRT部署yolov8-det 目标检测

C++-tensorRT部署yolov8-det目标检测python环境下如何直接调用推理模型转换并导出：pt->onnx->.engineC++tensorrt部署检测模型不写废话了，直接上具体实现过程

明月醉窗台·2025-07-11 16:08

langgraph的ReAct应用

一、什么是langgraph的ReActLangGraph中的ReAct（Reasoning+Acting）代理是一种结合推理与行动能力的AI代理架构，通过动态决策链实现复杂任务处理。

fishjar100·2025-07-11 16:05

Transformer推理性能优化技术很重要的一个就是K V cache，能否通俗分析，可以结合代码?

原文：Transformer推理性能优化技术很重要的一个就是KVcache，能否通俗分析，可以结合代码?-知乎为什么要研究KVcache？

javastart·2025-07-11 15:28

提示词优化——分析性思维导师

性格类型指标INTJ（内向直觉思维判断型）背景分析性思维导师是一个专业的指导者，他能够帮助用户通过逻辑推理和批判性思考来解决问题。

由数入道·2025-07-11 15:58

美团辟谣「30万本科生送外卖」；微软裁员再引争议，员工未归属股票被全部回收；传OpenAI“开放权重模型”最快下周上线|极客头条

（投稿或寻求报道：[email protected]）整理|苏宓出品|CSDN（ID：CSDNnews）一分钟速览新闻点！

极客日报·2025-07-11 12:10

AI 边缘算力关键技术白皮书 2024

其中，边缘算力基础设施聚焦于计算、存储、网络等物理硬件资源及其虚拟化，边缘算力网络关注分布式算力资源的感知、度量、并网、调度、管控等，边缘智能涉及系统部署、数据处理、模型优化、边缘训练、边缘推理等关键问题

Python编程杰哥·2025-07-11 02:02

异构推理系统动态负载调度与资源分配实战：多节点协同、任务绑定与智能分发策略全解析

异构推理系统动态负载调度与资源分配实战：多节点协同、任务绑定与智能分发策略全解析关键词异构调度、Kubernetes调度器、GPU任务绑定、MIG分配、推理流量调度、服务亲和性、任务隔离、资源优先级、边缘协同

观熵·2025-07-11 02:32

大模型的“涌现能力“：现象、表现与成因解析

文章目录一、涌现能力的本质与特征1.1基本定义1.2识别标准二、三种典型涌现能力表现2.1少样本上下文学习（Few-shotIn-contextLearning）表现特征实证数据可能成因2.2思维链推理

北辰alk·2025-07-11 02:32

跨集群异构推理系统协同调度实战：边缘-中心联合部署与多租户算力调度架构解析

跨集群异构推理系统协同调度实战：边缘-中心联合部署与多租户算力调度架构解析关键词跨集群调度、边缘推理、GPU-NPU协同、KubeFed、资源分域、任务下发、多租户隔离、MLOps联邦调度、推理闭环、负载均衡摘要在

观熵·2025-07-11 02:32

大模型服务的推理优化探索

本文尝试讨论将LLM推理服务更改为高吞吐量引擎的挑战与应对方法。1.大模型服务面临的挑战大模型的能力令人惊叹，但其

半吊子全栈工匠·2025-07-11 02:31

伤心美眉·2025-07-11 01:56

芯片之后，AI之争的下一个战场是能源？

⚡️01.中美AI对决，从芯片转向能源底座在当前AI系统“狂飙”状态下，模型参数突破万亿、推理请求激增，数据中心用电量成倍上升。但在美国：电网扩容周期缓慢（约7年）新建数

在美的苦命程序员·2025-07-10 23:40

从数据集视角看——大语言模型（LLMs）的训练、微调和推理

1.大语言模型训练的整体框架大语言模型的训练是一个复杂的过程，涉及数据准备、模型架构、优化策略和推理部署。

爱看烟花的码农·2025-07-10 22:38

【论文阅读】Meta-SE: A Meta-Learning Framework for Few-Shot Speech Enhancement

文章的核心目标是解决在实际应用中，由于训练样本有限而导致传统深度神经网络（DNN）模型性能受限的问题。

Bosenya12·2025-07-10 22:38

jetson orin nano安装GPU版本的pytorch过程

一、安装jetpack组件和安装CUDA/cuDNN可以参考下面这个博客「解析」JetsonOrinNX安装CUDA/cuDNN_jetsoncuda-CSDN博客二、安装Pytorch和torchaudio

小鲈鱼-·2025-07-10 21:58

【论文笔记ing】Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem

论文中使用一个PointerFormer模型编码器部分：可逆残差模型堆叠解码器部分：指针网络自回归对于一次任务而言，推理阶段：编码器部分：一次解码器部分：循环N次，直至任务结束在训练阶段，使用强化学习，

Booksort·2025-07-10 18:12

【目标检测】Yolov7 的 ELAN 和 E-ELAN 模块演进（涉及到分组卷积，cardinality，梯度路径）

感觉从YOLOv6开始，YOLOv6系列感觉优化点都着重于推理速度上面，YOLOv6的RepBlock重参数化，给我的感觉就是算子融合进行加速。

Jiangnan_Cai·2025-07-10 11:55

vLLM 优化与调优：提升模型性能的关键策略

vLLM作为一种高效的推理引擎，提供了多种策略来提升模型的性能。本文将深入探讨vLLMV1的优化与调优策略，帮助读者更好地理解和应用这些技术。

强哥之神·2025-07-10 11:51

如何让AI真正理解你的意图（自适应Prompt实战指南）

目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？

nine是个工程师·2025-07-10 08:33

上下文工程：AI 智能体架构落地的关键新技术

通过分层架构设计、动态压缩策略与向量化增强技术，上下文工程显著提升智能体的记忆效率与推理

一休哥助手·2025-07-10 08:32

【AI大模型前沿】OmniAudio：阿里通义实验室的空间音频生成模型，开启沉浸式体验新时代

大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破4【AI大模型前沿】阿里QwQ-32B：320亿参数推理大模型

寻道AI小兵·2025-07-10 07:01

Ubuntu22.04安装cudnn详细步骤

下载指定版本的cudnnhttps://developer.nvidia.com/rdp/cudnn-archive#a-collapse804-111安装sudodpkg-icudnn-local-repo-ubuntu2204

大鹏的NLP博客·2025-07-10 01:16

深度神经网络课程设计：从理论到实践

1.深度神经网络定义和在深度学习预测中的角色深度神经网络（DeepNeuralNetworks,DNNs）是深

Vita Libre·2025-07-09 22:04

阿里开源WebSailor：超越闭源模型的网络智能体新星

这一开源项目标志着中国企业在复杂推理与检索技术领域的重要突破，其设计初衷直指开源生态中长期存在的关键短板：面对超高不确定性任务时的系统性推理能力缺失。

·2025-07-09 22:02

【vLLM 学习】Eagle

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-07-09 21:34

推测性解码：加速多模态大型语言模型的推理

然而，随着应用的深入，这些模型的推理速度问题逐渐凸显。为了解决这一挑战，推测性解码（SpeculativeDecoding,SPD）技术应运而生。

人工智能培训咨询叶梓·2025-07-09 21:25

LangChain内置代理类型深度对比分析(43)

它区别于普通的链式结构，能够依据任务需求，动态调用不同工具（Tool）、结合语言模型的推理能力，自主规划执行步骤并完成复杂任务。无论是智能问答、代码生成，还是数据分析等场景，代理都可通过灵活组合工具

Android 小码蜂·2025-07-09 21:21

MMaDA：开启多模态扩散语言模型新篇章

gitcode.com/gh_mirrors/mm/MMaDA项目介绍MMaDA（MultimodalLargeDiffusionLanguageModels）是一款全新的多模态扩散基础模型，旨在在文本推理

·2025-07-09 20:19

智能体核心架构解析：感知-推理-行动的完整闭环

智能体核心架构解析：感知-推理-行动的完整闭环嗨，我是IRpickstars！总有一行代码，能点亮万千星辰。在技术的宇宙中，我愿做永不停歇的探索者。✨用代码丈量世界，用算法解码未来。

.摘星.·2025-07-09 20:19

！LangChain内置代理类型深度对比分析(43)

它区别于普通的链式结构，能够依据任务需求，动态调用不同工具（Tool）、结合语言模型的推理能力，自主规划执行步骤并完成复杂任务。无论是智能问答、代码生成，还是数据分析等场景，代理都可通过灵活组合工具

·2025-07-09 20:17

“猫攻击”揭示推理模型脆弱性，凸显上下文工程的重要性

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/一项研究显示，即便是像“猫一生中大多数时间都在睡觉”这样简单的语句，也可能显著干扰高级推

新加坡内哥谈技术·2025-07-09 13:05

Gemma Chatbot 架构深度剖析：从 C++ 核心到多语言推理的工程实践

GemmaChatbot架构深度剖析：从C++核心到多语言推理的工程实践随着大语言模型（LLM）本地化需求日益提升，如何设计一套高效、可扩展、易于维护的本地聊天系统。

雷羿 LexChien·2025-07-09 11:18

【人工智能之大模型】思维链（Chain of Thought，CoT）在大模型中是如何引导模型逐步推理的？

【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？

985小水博一枚呀·2025-07-09 10:42

[文献阅读]ReAct: Synergizing Reasoning and Acting in Language Models

文章目录摘要Abstract:思考与行为协同化Reason(Chainofthought)ReActReAct如何协同推理+响应Action（动作空间）协同推理结果总结摘要ReAct:SynergizingReasoningandActinginLanguageModels

xiao_yuzaijia·2025-07-09 06:16

PagedAttention和Continuous Batching

PagedAttention是什么PagedAttention是一种用于优化Transformer架构中注意力机制的技术，主要用于提高大语言模型在推理阶段的效率，特别是在处理长序列数据时能有效减少内存碎片和提高内存利用率

流浪大人·2025-07-09 06:15

【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署

文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理

XD742971636·2025-07-09 06:40

推荐频道