DNN推理第4页

Linux|ubuntu22.04安装CUDA最新完整教程

和型号查看GCC版本*下载gcc12*检查驱动二、安装CUDAToolkit*安装驱动三、安装后的工作必要操作推荐的操作开启守护进程模式删除本地下载安装包四、验证删除CUDA常见问题及解决方案还需要安装cuDNN

·2025-07-04 07:43

LangChain检索器的核心功能与查询逻辑源码级分析(81)

其核心价值在于将用户输入与知识库中的内容进行匹配，为语言模型的推理提供上下文支持。例如，在问答系统中，检索器会根据用户提问从文档库中筛选出最相关的段落，避免语言模型因缺乏背景信息

Android 小码蜂·2025-07-04 07:11

Ubuntu22.04安装CUDA12.1 cuDNN8.9.7 pytorch2.2.2

当前安装的电脑配置:电脑名称：暗影精灵5系统名称：Ubuntu22.04.4LTS操作系统类型：64位内存：8.0Gib处理器：Intel®Core™[email protected]显卡：NVIDIACorporationTU117M[GeForceGTX1650Mobile/Max-Q]MesaI...安装前准备：需要安装对应的NVIDIA驱动程序、配置CUDA依赖环境g++gccm

快乐的笨笨·2025-07-04 06:08

CentOS系统高效部署fastGPT全攻略

资源限制调整五、服务启动与管理直接启动方式系统服务化部署;日志监控方案六、验证与测试健康检查端点测试API功能测试用例压力测试方案一、引言fastGPT是一款高效、灵活的大语言模型应用框架，凭借其出色的推理速度和良好的扩展性

挑战者666888·2025-07-04 05:34

基于昇腾910B部署Qwen3-embedding-8B模型（通过vllm 推理引擎部署）

目前基于知识库搭建，会涉及到embedding和rerank模型，目前阿里通义千问Qwen3-embedding-8B模型在网上测评效果还不错，本文基于vllm部署Qwen3-embedding-8B模型，使用的国产化算力910B2-64G单卡资源。1、环境要求：软件支持版本CANN>=8.1.RC1torch-npu>=2.5.1torch>=2.5.1Python>=3.9,<3.122、to

萌新--加油·2025-07-04 04:56

增刊第5章：模型性能优化

在大模型推理场景下，性能优化主要关注两个核心指标：推理速度（Latency）和吞吐量（Throughput）。本章将详细介绍几种关键的优化技术，帮助您在现有硬件条件下，榨干模型的每一滴性能。

技术与健康·2025-07-04 03:52

Llama改进之——RoPE旋转位置编码

之前在[论文笔记]ROFORMER中对旋转位置编码的原始论文进行了解析，重点推导了旋转位置编码的公式，本文侧重实现，同时尽量简化数学上的推理，详细推理可见最后的参考文章。复数与极坐标复数

愤怒的可乐·2025-07-04 01:37

【Rust日报】Rust稳定2024版本将于 2025年2月20日发布

使用@pykeio/ort进行高性能的ONNX推理。使用@huggingface/tokenizers进行快速编码。支持使用@rayon-rs/rayon进行批量嵌入生成和并行计算。

·2025-07-04 00:32

【Agent实战】用“前置编码器+LLM”复刻ChatGPT附件功能

而我们这里讨论的“前置编码器+LLM”方案，则是一种解耦的设计哲学：LLM专注于语言：让强大的文本LLM继续做它最擅长的事情——理解和生成高质量的文本、进行逻辑推理和遵循复杂指令。

kakaZhui·2025-07-03 23:56

Gemini 2.5 Pro API恢复免费，每分钟5次、25万tokens及每日100次请求的免费额度

Gemini2.5Pro作为谷歌的旗舰AI模型，在多模态处理、推理能力和长上下文窗口等方面具有显著优势。其API定价在付费层级为输入每百万token1.25美元

·2025-07-03 22:18

谷歌正式推出 Gemini 2.5 系列模型，使 AI 推理性能提升30%。

谷歌于2025年6月正式推出‌Gemini2.5系列模型‌，核心聚焦推理效率与多模态能力升级，具体要点解读如下：‌一、三大模型定位与技术亮点‌‌Gemini2.5Pro‌‌角色定位‌：主攻复杂推理与多模态分析

我的学校你进不来·2025-07-03 22:48

讯飞星火深度推理模型X1，为教育医疗带来革新

科大讯飞作为人工智能领域的佼佼者，其研发的星火深度推理模型X1，凭借独特的技术优势和强大的功能，为教育和医疗两大关乎国计民生的领域带来了前所未有的革新。

·2025-07-03 21:42

OpenBayes 一周速览丨OmniGen2「双轨架构」实现文本/图像分工协作，效果直逼GPT-4O

公共资源速递4个公共数据集：ReasonMed医学推理数据集Miriad-5.8M医学问答数据集WebClick网页理解基准数据集OCRBench文本识别基准数据集2个公共模型：MiniCPM4-8BKimi-Dev

·2025-07-03 19:37

【Torch】nn.Dropout算法详解

其核心思想是在训练阶段随机“丢弃”（置零）部分神经元的输出，以减少网络对特定神经元的过度依赖；在推理阶段则保持所有神经元输出不变。

油泼辣子多加·2025-07-03 17:11

【YOLOv11】ultralytics最新作品yolov11 AND 模型的训练、推理、验证、导出以及使用

Jackilina_Stone·2025-07-03 16:36

思维树(Tree of Thoughts): 超越链式思维的AI推理新范式

引言在人工智能快速发展的今天，大语言模型(LLM)的推理能力一直是研究的热点。

司南锤·2025-07-03 13:45

云原生环境下部署大语言模型服务：以 DeepSeek 为例的实战教程

它涉及：模型推理框架（如vLLM）的集成；WebAPI封装（FastAPI等）；容器化部署与资源调度；可扩展性设计与

一ge科研小菜菜·2025-07-03 13:42

DeepSeek打破AI天花板：MoE架构+RL推理，效率提升5倍的底层逻辑

文章目录一、引言二、MoE架构：高效计算的核心支撑（一）MoE架构概述（二）DeepSeekMoE架构的创新点（三）MoE架构的代码实现示例三、RL推理：智能提升的关键驱动（一）RL推理概述（二）R1的训练流程

m0_74825409·2025-07-03 08:08

产品背景知识——在线推理和离线推理

产品背景知识——在线推理和离线推理一、核心区别：从4个维度对比1.数据处理方式与时效性在线推理（实时推理）数据特点：处理实时流入的单条或小批量数据（如用户点击、交易请求）。

爱吃芝麻汤圆·2025-07-03 04:12

(论文总结)思维链激发LLM推理能力

研究背景&动机背景:扩大模型规模已被证实具有提升模型性能和模型效率的功效，但是LLM对于完成推理、算术任务仍有较大不足。

靈镌sama·2025-07-03 03:58

推荐文章：探索深度学习的不确定性边界 —— SDE-Net 开源项目解析

EquippingDeepNeuralnetworkwithUncertaintyEstimates项目地址:https://gitcode.com/gh_mirrors/sd/SDE-Net在当今的人工智能领域，深度神经网络(DNN

史多苹Thomas·2025-07-03 02:51

D-FINE使用pth权重批量推理可视化图片

悠悠海风·2025-07-03 00:05

千亿参数大模型轻量化实战：手机端LLM推理加速300%方案

点击跳转到网站《千亿参数大模型轻量化实战：手机端LLM推理加速300%方案》副标题：2025实测骁龙8Gen4+FP4稀疏量化技术，70B模型推理延迟低至127ms，重构移动端AI天花板封面图：[高通骁龙

·2025-07-03 00:33

多模态进化论：GPT-5V图文推理能力在工业质检中的颠覆性应用

点击跳转到网站《多模态进化论：GPT-5V图文推理能力在工业质检中的颠覆性应用》副标题：2025年实测报告显示误检率降至0.0038%，重构制造业质量标准体系封面建议：GPT-5V识别微米级电路板缺陷的对比图

HeartException·2025-07-03 00:02

报告下载丨北京大学：2025年DeepSeek在教育和学术领域的应用场景与案例（上）报告下载丨德勤：2025年生成式AI档案报告下载丨SuperCLUE 中文大模型基准测评 2025

DeepSeek在2024-2025年推出的模型引发国际关注，其通过提升推理能力、全量开源、降低成本及国产自主研发等优势，在教育行业推动了范式革命。

智能计算研究中心·2025-07-02 23:02

无需多卡集群，单卡运行扩散模型的技术突破与实践

然而，传统扩散模型往往依赖多卡集群（如8×A100）进行高效训练与推理，这使得个人开发者和中小团队的应用受限。

源客z·2025-07-02 20:35

Spring Boot + ONNX Runtime模型部署

文章目录前言一、模型导出二、Java推理引擎选型三、SpringBoot实战3.1核心架构3.2分层架构详细实现1.Controller层-请求入口2.Service层-核心业务流程3.关键组件深度优化四

·2025-07-02 16:04

贝叶斯网络与深度学习的结合：图像识别和分类

贝叶斯网络与深度学习的结合：图像识别和分类关键词：贝叶斯网络、深度学习、图像识别、图像分类、概率推理、卷积神经网络、不确定性建模文章目录贝叶斯网络与深度学习的结合：

AI天才研究院·2025-07-02 15:55

pytorch底层原理学习--PyTorch 架构梳理

PyTorch完整架构流程图关键组件详解完整执行流程示例PyTorch架构梳理PyTorch完整架构流程图硬件层后端层C++部署层核心引擎(libtorchC++)绑定层Python层加载调用训练模式编译模式推理模式生成

xinxiangwangzhi_·2025-07-02 14:21

vLLM调度部署Qwen3

vLLM介绍在之前的文章中，我们介绍了如何使用ollama部署qwen3，一般而言，ollama适合个人部署使用，在面对企业级的模型部署时，一般更建议使用vLLMvLLM（高效大语言模型推理库）是一个专为大语言模型

你好，此用户已存在·2025-07-02 10:19

浙大IInftyThink（无限深度推理引擎）原理解析及应用场景

InftyThink（无限深度推理引擎）是由浙江大学与北京大学联合研发的大模型推理范式创新，通过“分段思考+中间总结”机制突破传统模型的上下文与计算瓶颈。

DK_Allen·2025-07-02 10:17

从源码编译 ONNX Runtime GPU 1.18.2 并验证 CUDA 推理成功

文章目录从源码编译ONNXRuntimeGPU1.18.2并验证CUDA推理成功【实测环境+完整步骤】✅环境信息（实测成功）第一步：获取源码️第二步：编译命令参数说明（重点）第三步：安装构建好的`.whl

草莓奶忻·2025-07-02 09:41

OpenAI租用谷歌TPU，降低推理计算成本

OpenAI近期开始租用谷歌TPU芯片，这是该公司首次大规模使用非英伟达芯片。除了OpenAI外、苹果、SafeSuperintelligence和Cohere等公司也一直租用谷歌云的TPU。英伟达的芯片主导地位正被侵蚀，OpenAI租用谷歌TPU，为首次大规模使用“非英伟达”芯片。周六，据媒体报道，作为全球最大的人工智能芯片客户之一，OpenAI近期开始租用谷歌的TPU芯片为ChatGPT等产品

加百力·2025-07-02 06:49

【机器学习&深度学习】本地部署 vs API调用：关键看显存！

1️⃣零依赖网络和外部服务，更可靠稳定2️⃣无调用次数限制，更适合高频或批量推理3️⃣避免长期API费用，节省成本4️⃣保护用户隐私和数据安全5️⃣可自定义、深度优化6️⃣加载一次即可复用，低延迟高性能

一叶千舟·2025-07-02 03:34

FastGPT与MCP：解锁AI新时代的技术密码

FastGPT，以其高效的推理

挑战者666888·2025-07-01 23:04

1、快速上手 [代码级手把手解析diffusers库]

快速上手Pipeline内部执行步骤后续更新计划diffusers是HuggingFace推出的一个diffusion库，它提供了简单方便的diffusion推理训练pipe，同时拥有一个模型和数据社区

Yuezero_·2025-07-01 22:55

Mac mini 跑 DeepSeek R1 及 QwQ-32B模型实测报告

测试对象：2025款Macmini（M4/M4Pro芯片）测试模型：DeepSeek-R1（14B/32B）、QwQ-32B（原版/量化版）测试目标：硬件性能适配性、推理速度、内存占用及优化方案一、Macmini

强哥之神·2025-07-01 21:16

【AI】AI大模型发展史：从理论探索到技术爆发

一、早期探索阶段—理论与技术奠基1.1符号主义与连接主义的博弈20世纪50-70年代，符号主义AI主导研究方向，通过专家系统模拟人类逻辑推理，但受限于计算能力和数据规模。

不想当程序汪的第N天·2025-07-01 21:44

YOLOv10 全面升级解析：关键改进点一文掌握

✅YOLOv10改进点详解一、前言YOLOv10是由Ultralytics团队在2024年提出的新一代目标检测模型，在保持高精度的同时进一步优化了部署效率和推理速度。

要努力啊啊啊·2025-07-01 20:10

大模型系列——提示词工程：从原理、实践到未来的一部系统性综述

本文深度剖析了多种高级提示框架，包括旨在激发模型逐步推理的“思维链”（Chain-o

猫猫姐·2025-07-01 20:39

考取华为HCIE-AI有什么用？

主要是为了培养和认证掌握人工智能解决方案架构、设计与应用知识，具备大模型业务场景分析、大模型训练与微调、模型推理部署能力的专家级人才。一、HCIE-AI：专家级能力的权威认证HC

博睿谷IT99_·2025-07-01 18:59

从文心开源谈起，论大模型发展新生态

6月30日，百度正式宣布开源ERNIE4.5即文心4.5系列模型，覆盖47B和3B激活参数的MoE（混合专家）模型，以及0.3B参数的稠密模型，并实现了预训练权重+推理代码的完全开源。

CSDN资讯·2025-07-01 10:04

GPU 分布式通信加速黑马！DeepEP 的实战与深度剖析

随着大模型和稀疏激活模型（如MoE/EP架构）的广泛应用，分布式all-to-all通信成为训练和推理过程中的核心瓶颈。

DeepLink_01·2025-07-01 10:33

火山引擎大模型未来发展趋势

我注意到几个关键点：技术层面，多模态和推理效率是火山近期的发力重点。他们6月刚发布的Sky

苹果企业签名分发·2025-07-01 07:17

面经总结系列（十六）：元象科技大模型推理优化工程师

‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的

GoAI·2025-07-01 05:04

PaddleOCR不同模型和Paddle版本推理性能对比

飞桨PaddleOCR这几年发布了从V2到V5的中英文OCR模型，Paddle推理框架也从2.X升级到3.0.0版本。本次对不同模型和推理框架的性能做些对比。

dotNET跨平台·2025-07-01 02:12

牛客 AI 面试 Ultra 版重磅升级！定义智能招聘新高度，三大颠覆性创新，重新诠释 AI 面试专业标杆

01.智能交互革命：2秒极速追问，双向对话零延迟●全语音沉浸式体验：无需手动操作，候选人开口即答，数字面试官依托实时推理引擎，2秒内触发多维追问，基于岗位胜任力模型（如冰山模型）层层挖掘需求理解、沟通能力

牛客企业服务·2025-07-01 01:41

YOLOv11革命性升级：基于MobileNetv4的UIB和ExtraDW模块重构C3k2架构，实现移动端推理性能飞跃

引言与背景概述在当今人工智能飞速发展的时代，目标检测技术已成为计算机视觉领域的核心技术之一。从自动驾驶汽车到智能安防系统，从移动端AR应用到工业质检，目标检测无处不在。然而，随着应用场景的多样化，特别是移动端和边缘设备的普及，对模型的计算效率提出了更为严苛的要求。YOLO（YouOnlyLookOnce）系列算法作为目标检测领域的领军者，一直在精度与速度之间寻求最佳平衡。从YOLOv1到最新的YO

博导ai君·2025-06-30 23:25

YOLOV10的tensorrt C++部署

根据博客进行python版本安装YOLOv10最全使用教程（含ONNX和TensorRT推理）-CSDN博客并将pt转为onnx：yoloexportmodel=yolov10s.ptformat=onnxopset

dddccc1234·2025-06-30 19:26

【LLaMA 3实战】2、LLaMA 3对话能力全解析：从架构革新到多智能体实战指南

这款拥有128K上下文窗口的开源模型，不仅在MT-Bench评测中超越GPT-3.5，更通过分组查询注意力(GQA)等架构创新，实现了推理速度30%的提升。

无心水·2025-06-30 18:14

推荐频道

DNN推理