推理第21页

Hogwild! Inference: Parallel LLM Generation via Concurrent Attention

推理：通过并发注意力实现并行LLM生成目录介绍顺序LLM生成的挑战Hogwild推理方法用于协作推理的缓存布局旋转位置嵌入协作提示实验结果涌现的协作行为局限性和未来方向结论介绍大型语言模型（LLM）彻底改变了自然语言处理

Alexguantp·2025-04-15 19:23

图像分割大模型SAM2 ONNX导出部署全流程

目录1.参考资料2.模型资料SAM2checkpoints3.环境安装3.1安装facebookresearch/sam23.1.1.环境准备3.1.2.安装步骤克隆仓库安装依赖3.3.3.运行测试基本推理示例

清澜·2025-04-15 16:32

基于主成分分析（PCA）的新能源汽车行驶工况数据降维实战：从理论推导到工业级应用

传统的全维度数据处理面临三大致命问题：实时性危机：BMS控制周期需≤50ms，但原始特征训练模型推理延迟高达320ms存储成本黑洞：10万辆车的年数据存储费用超过2.3亿元

新能源汽车--三电老K·2025-04-15 12:11

从 0 到 1 构建高效 RAG 问答系统：LangChain+Ollama+Chroma 实战指南

检索增强生成（RAG）技术通过将外部知识库与LLM结合，实现了"模型推理+事实检索"的闭环，显著提升回答的准确性和可信度。

佑瞻·2025-04-15 10:29

DeepSeek-R1的推理能力是如何一步一步提升的？——从R0到R1的推理能力跃迁之路

本文我们仅聚焦在指标上分析推理能力是如何提升的。

大F的智能小课·2025-04-15 09:52

使用deepseek时有哪些高阶技巧

你是一名资深网络安全专家，用技术语言分析以下漏洞...”结构化指令：使用分点、格式标记增强逻辑性：“按以下结构回答：1.核心问题；2.根本原因；3.解决方案（分三步）”思维链引导：对复杂问题添加“请逐步推理并解释关键步骤

zhaoyqcsdn·2025-04-15 09:52

【AI大模型】Cherry Studio和Deepseek模型搭建本地知识库+硅基流动API调用+本地ollama模型调用

传统知识库依赖人工整理和规则化检索，难以应对动态增长的非结构化数据（如文档、图片、语音等），而AI大模型通过自然语言理解、推理能力及多模态分析，可实现智能化的知识提取、关联与交互，成为构建新一代知识库的核心技术支撑

JinSu_·2025-04-15 09:18

微调模型的性能优化策略

微调模型的性能优化是指通过一系列技术手段提升模型在特定任务上的性能，包括提高模型的准确率、降低推理延迟、减少资源消耗等。性能优化是确保模型在实际应用中高效运行的关键步骤。

CarlowZJ·2025-04-15 00:47

DeepSeek R1 简易指南：架构、本地部署和硬件要求

DeepSeek团队近期发布的DeepSeek-R1技术论文展示了其在增强大语言模型推理能力方面的创新实践。

m0_74825003·2025-04-14 19:43

比ollama还强大的LocalAI：解锁本地化AI模型部署教程

LocalAI作为一个与OpenAI（Elevenlabs、Anthropic…）API规范兼容的即插即用RESTAPI，用于本地AI推理。

泰山AI·2025-04-14 17:59

AI算力租赁：重塑AI时代核心生产力（下篇）

（一）全栈硬件矩阵支撑多元需求●高端算力：部署H100/A100集群，单集群算力100PFLOPS，支持千亿参数模型训练；●异构计算：融合FPGA/ASIC，针对图像识别优化算力分配，推理速度提升50%

·2025-04-14 16:41

面向MoE和推理模型时代：阿里云大数据AI产品升级发布

阿里云2025AI势能大会上，阿里云智能集团副总裁、阿里云智能计算平台事业部负责人汪军华带来主题演讲《范式演进：MoE&推理模型时代的挑战与应对》，并发布大数据AI平台一系列重磅产品能力升级。

·2025-04-14 15:35

GPT-4o：多模态AI的全面突破

详细分析：核心观点：GPT-4o是一个多模态自回归模型，具备处理文本、音频、图像和视频输入的能力，并能生成文本、音频和图像输出，在文本推理、语音识别、翻译和视觉理解等多个领域实现了显著的性能提升。

2501_90976089·2025-04-14 11:19

Transformer架构的推理瓶颈与突破

详细分析：核心观点：Transformer架构虽然强大，但其全局注意力机制在推理阶段导致极高的内存和计算成本，尤其是KV缓存机制虽然减少了计算成本，却大幅增加了内存需求，成为模型运行的主要瓶颈。

2501_90976089·2025-04-14 11:18

DeepSeek 671B碾压o3-mini，登顶王位

DeepSeekR1671B刚刚以198tokens/秒的速度打破了推理速度记录，成为了目前最快的推理模型！哇！DeepSeek-R1671B真的超级厉害！

彭铖洋·2025-04-14 10:47

DocLayout-YOLO：通过多样化合成数据与全局-局部感知实现文档布局分析突破

Mesh-candidateBestFit合成算法创新点2：全局-局部可控感知模块（GL-CRM）三、实验结果：全面超越SOTA主要指标对比（D4LA数据集）消融实验验证四、代码复现指南环境准备关键训练参数推理示例五

清风AI·2025-04-14 08:02

NVIDIA Jetson AGX Xavier DeepSort tensorRT部署和加速 C++版

前言在实现NVIDIAJetsonAGXXavier部署Deepsort+Python版本的深度学习环境，然后能正常推理、检测和跟踪后；发现模型速度不够快，于是使用tensorRT部署，加速模型，本文介绍

一颗小树x·2025-04-14 07:59

微调模型的部署与推理

一、概念讲解1.什么是微调模型的部署与推理？微调模型的部署与推理是指将经过微调的模型应用到实际场景中，通过模型进行预测或生成任务的过程。

CarlowZJ·2025-04-14 07:28

微调中的量化技术

计算效率：减少计算量，加速推理过程。能效提升：降低功耗，适合在移动设备或嵌入式系统上部署。3.量化的类型后训练量化（Post-Trainin

CarlowZJ·2025-04-14 07:28

zsh: command not found: hdc - 鸿蒙 HarmonyOS Next

终端中执行hdc命令抛出如下错误;zsh:commandnotfound:hdc解决办法首先,查找到DevEco-Studio的toolchains目录路径;其次,按照类似如下的文件夹层级结果推理到toolchains

survivorsfyh·2025-04-14 05:41

千户级2080Ti GPU局域网集群实现每户家庭虚拟本地部署DeepSeek-R1 671B详细

社区资源整合**：利用1000户家庭闲置的NVIDIAGeForceRTX2080Ti显卡（11GB显存）构建分布式计算集群-**服务需求**：为每户家庭提供本地化虚拟部署的DeepSeek-R1671B大模型推理服务

icbcnetone·2025-04-14 01:18

NLP高频面试题（三十七）——大模型训练和推理的显存估计

在训练和推理大型语言模型时，显存（GPU内存）的需求是一个关键考虑因素。准确估计这些需求有助于选择合适的硬件配置，确保模型高效运行。

Chaos_Wang_·2025-04-13 23:06

【Python】Python 100题分类入门练习题 - 新手友好

组合数字题目2：利润计算题目3：完全平方数题目4：日期天数计算题目11：兔子繁殖问题题目18：数列求和题目19：完数判断题目21：猴子吃桃题目24：分数序列求和题目25：阶乘累加题目26：阶乘递归题目28：年龄推理题目

看海的四叔·2025-04-13 23:04

AF3 ProteinDataset类的初始化方法解读

AlphaFold3protein_dataset模块ProteinDataset类主要负责从结构化的蛋白质数据中构建一个可供模型训练/推理使用的数据集，ProteinDataset类的__init__

qq_27390023·2025-04-13 21:21

什么是上下文学习（In-Context Learning, ICL）

上下文学习（In-ContextLearning,ICL）是大语言模型（如GPT-3、GPT-4）非常关键的一种学习方式，它是指：在推理阶段，模型无需任何参数更新，仅通过输入提示（prompt）中提供的上下文示例

彬彬侠·2025-04-13 17:52

什么是思维链（Chain-of-Thought, CoT）

思维链（Chain-of-Thought,CoT）是一种自然语言处理中的推理方法，它通过将推理过程的每一步展现出来，帮助模型在复杂问题中更好地进行逻辑推理，从而提高模型在多步推理任务中的表现。

彬彬侠·2025-04-13 17:52

搞定大模型推理瓶颈：DeepSeek 提速全攻略

网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO

网罗开发·2025-04-13 16:51

20250412 机器学习ML -（3）数据降维（scikitlearn）

1.背景数学小白一枚，看推理过程需要很多时间。好在有大神们源码和DS帮忙，教程里的推理过程才能勉强拼凑一二。

AI小白白猫·2025-04-13 15:43

ubuntu20.04 openvino的yolov8推理（nncf量化）

1.环境配置：pipinstallopenvino-dev(2023.0.1)pipinstallnncf(2.5.0)pipinstallultralytics2.模型转换及nncf量化：1.pytorch->onnx:#Pytorch模型转换为Onnx模型pythonfromultralyticsimportYOLOmodel=YOLO('yolov8s.pt')#yolov8原生转换resu

yuyuyue249·2025-04-13 13:34

通往超常认知能力的系统性构建指南

从理解海量数据流到驾驭新兴技术，从解决跨领域难题到做出明智的长期决策，认知能力——这一涵盖感知、注意、记忆、理解、推理、判断等心智活动的总和——已然成为个体乃至组织在数字时代乘风破浪的终极引擎。

由数入道·2025-04-13 13:30

AI日报 - 2025年4月12日

今日概览(60秒速览)▎AGI突破|世界模型与推理机制探索持续深入，Gemini内置"思考"功能引关注。

訾博ZiBo·2025-04-13 12:26

DiffRhythm：端到端全流程音乐生成的技术革命

由西北工业大学音频语音与语言处理实验室（ASLPLab）与香港中文大学（深圳）联合研发的DiffRhythm，首次将端到端全流程音乐生成与10秒极速推理结合，实现了从歌词输入到完整双轨立体声歌曲（含人声与伴奏

花生糖@·2025-04-13 11:21

【人工智能之大模型】为什么Transformer块使用LayerNorm而不是BatchNorm？

前言1.批量依赖性问题2.推理阶段的稳定性3.序列长度可变性4.适应性和训练效率5.具体实现和理论

985小水博一枚呀·2025-04-13 10:14

AI编程之Prompt 4）Prompt模式与模版设计

本章将介绍几种在编程任务中常用的高效提示模式，包括Few-shot、Chain-of-Thought（思维链）、ReAct（推理+行动）等，并展示如何将它们封装成可复用的Prompt模板。

这是Jamon·2025-04-13 10:12

Video-R1: Reinforcing Video Reasoning in MLLMs

文章主要内容总结研究背景与目标本文针对多模态大语言模型（MLLMs）在视频推理任务中的不足，提出了Video-R1模型，旨在通过强化学习（RL）范式系统性提升模型的视频推理能力。

UnknownBody·2025-04-13 10:10

llama-factory微调qwen2.5-vl

前言目前大模型百花齐放，微调方法复杂多样，且教程复杂，工程端想要进行垂域模型适配困难重重，本篇博客详细介绍了qwen2.5-vl的全流程微调过程，包括环境配置、数据集制作、模型训练、模型导出、模型部署、模型推理等过程

魔障阿Q·2025-04-13 08:25

MindSpore大语言模型推理：解锁千亿参数模型的高效部署新范式

MindSpore大语言模型推理：解锁千亿参数模型的高效部署新范式大模型推理的算力困局与破局之道自ChatGPT引爆生成式AI革命以来，百亿级参数的大语言模型已成为AI基础设施的核心组件。

kandfj·2025-04-13 05:37

SGLang实战：从KV缓存复用到底层优化，解锁大模型高效推理的全栈方案

本文将深入探讨SGLang——这一专为大模型设计的高效推理引擎与结构化生成语言，揭示它如何通过软硬件协同设计理念，从后端运行时系统到前端编程语言进行全面优化，为开发者提供更快速、更可控的大模型微调与部署体

SYC_MORE·2025-04-13 05:06

OpenAI 推出ChatGPT Edu，为高校定制版本

ChatGPTEdu由GPT-4o提供支持，具备强大的文本和图像推理能力，并支持数据分析等高级功能。这款全新产品提供企业级安全和控制功能，价格经济实惠，适合教育机构使用。

玄武黑科技·2025-04-13 00:07

Transformer大模型实战教师学生架构

然而，由于Transformer模型的参数量巨大，训练和推理的时间和计算资源成本也非常高昂，因此在实际应用中，如何在保证模型效果的同时，降低计算资源的消耗，成为了一个重

AI天才研究院·2025-04-12 23:30

硅基流动：免费领取2000万Token，畅享AI大模型盛宴！

其核心团队来自清华大学、MIT等顶尖高校，致力于为企业和开发者提供高性能的AI模型推理和训练解决方案。

·2025-04-12 22:57

《多模态大语言模型视觉提示》综述

本文首次全面调研了MLLMs中的视觉提示方法，重点讨论视觉提示、提示生成、组合推理和提示学习。我们对现有的视觉提示进行分类，并讨论用于自动标注图像的生成方法。

大语言模型·2025-04-12 21:47

什么是VLA

视觉-语言-动作（VLA）技术综述：迈向具身智能的未来1.引言随着人工智能从单一模态感知迈向多模态交互，视觉-语言-动作（Vision-Language-Action,VLA）技术逐渐成为连接感知、推理与物理行动的核心桥梁

zhaoyqcsdn·2025-04-12 20:14

深入探索会话式RAG：构建智能问答应用的终极指南

这意味着应用程序需要某种形式的“记忆”来记录过往的问题和答案，并具有将这些上下文融入当前问题推理的逻辑。在本文中，我们将探讨如何在您的应用中加入这种逻辑，以提升用户体验。

sjufgwgfhoia·2025-04-12 19:36

TensorRT 核心加速机制拆解：Layer Fusion、精度优化与图调度全解析

《TensorRT核心加速机制拆解：LayerFusion、精度优化与图调度全解析》✨摘要：TensorRT为什么推理能快3到10倍？

AI筑梦师·2025-04-12 18:29

从 DeepSeek 看25年前端的一个小趋势！

欢迎围观卡颂关于前端如何在AI时代完成职业转型的思考模型进步的影响像DeepSeekR1这样的推理模型和一般语言模型（类似ClaudeSonnet、GPT-4o、DeepSeek-V3）有什么区别呢？

·2025-04-12 17:47

AI数字人系统源码搭建saas----灵动版带你走进AI新探索

数字人产品也随之成为了企业各种获客方式的新的展现手段，运营时在数字人口播ip人设打造、数字人批量生成，数字人带货，数字人代运营彰显了潜在的ai气息，作为云罗抖去推数字人分身系统源头，我们在开发上，进行了深度的稳固架构框架，实现v10追踪推理

fendou--yx898978·2025-04-12 15:14

政安晨：【Keras机器学习示例演绎】（十四）—— 用于弱光图像增强的零 DCE

目录简介下载LOL数据集创建TensorFlow数据集零DCE框架了解光线增强曲线DCE-Net损失函数色彩恒定损失曝光损失光照平滑度损失空间一致性损失深度曲线估计模型训练推论测试图像推理政安晨的个人主页

政安晨·2025-04-12 15:40

DeepSeek打破AI天花板：MoE架构+RL推理，效率提升5倍的底层逻辑

文章目录一、引言二、MoE架构：高效计算的核心支撑（一）MoE架构概述（二）DeepSeekMoE架构的创新点（三）MoE架构的代码实现示例三、RL推理：智能提升的关键驱动（一）RL推理概述（二）R1的训练流程

程序边界·2025-04-12 07:49

arron8899·2025-04-12 02:11

推荐频道

推理