推理第6页

DeepSeek-OpenSourceWeek-第六天-Inference System Overview

开源周的第6天，DeepSeek对DeepSeek-V3/R1推理系统进行了深入概述。本文将深入探讨该系统的设计原则、优化策略以及性能统计数据，重点突出在吞吐量和延迟优化方面取得的显著进展。

数据分析能量站·2025-03-04 01:57

DeepSeek-R1：通过强化学习激励大型语言模型的推理能力

摘要我们介绍了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。

AI专题精讲·2025-03-03 22:05

清华「DeepSeek从入门到精通」正式发布！104页超全解析使用教程

还有些用的是chatGPT的训练方式，要知道，DeepSeek和chatGPT是两种模型，一个是推理型，一个是指令型，这是驴唇不对马嘴啊。

职场程序猿·2025-03-03 18:28

数据挖掘与数据分析的区别是什么

从分析的过程来看，数据分析更侧重于统计学上面的一些方法，经过人的推理演译得到结论；数据挖掘更侧

中琛源科技·2025-03-03 17:24

GPT-4.5

通过扩展无监督学习，GPT-4.5增强了识别模式、建立联系和创造性洞察的能力，尽管它并不是专门为推理任务设计的。早期测试者表示，与GPT-4.5交互的

开发者每周简报·2025-03-03 15:38

本地部署大语言模型-DeepSeek

DeepSeek是国内顶尖AI团队「深度求索」开发的多模态大模型，具备数学推理、代码生成等深度能力，堪称"AI界的六边形战士"。

NightReader·2025-03-03 15:36

DeepSeek-R1 技术报告解读：用强化学习激发大模型的推理潜能

文章目录1.背景2.DeepSeek-R1训练流程2.1DeepSeek-R1-Zero：纯强化学习2.2DeepSeek-R1：冷启动+多阶段训练3.蒸馏小模型3.1蒸馏流程与优势3.2蒸馏vs.直接RL4.实验结果4.1主模型表现4.2蒸馏模型表现5.关键创新与思考6.总结参考链接**导读：**DeepSeek-R1是近期发布的一款开源大模型，它将纯强化学习与多阶段训练策略相结合，大幅提升了模

跑起来总会有风·2025-03-03 14:04

让 DeepSeek 更“聪明”：一键解析 PDF 和 Word 文档的 GUI 小工具，轻松处理复杂文档

DeepSeek-r1:1.5b是一款强大的语言模型，能够根据输入的自然语言进行推理和生成，但其原生本地部署环境并不支持直接上传文档进行解析。

Python测试之道·2025-03-03 12:10

在 MacBook 上设置 DeepSeek R1 (8B) 的 3 个步骤

简介DeepSeek最近发布了R1模型，该模型在本地AI推理方面表现出色。如果您希望在MacBook上运行它，Ollama提供了一种无缝的方式来下载和管理模型。

知识大胖·2025-03-03 11:04

测试工程师必备！多格式接口用例结合deepseek生成工具完整实现与实战验证

为了解决这一问题，本文将实现一款基于PyQt5的多格式接口用例生成工具，支持从文档导入到解析、推理生成、导出等全流程功能。

Python测试之道·2025-03-03 10:00

YOLO 中 SPFF 模块的优化与 Focal Modulation 替代研究

FocalModulation替换SPPF4.实验与对比分析4.1代码替换YOLO模型中的SPPF4.2训练对比5.AblationStudy（消融实验）5.1不同模块的对比实验5.2目标尺寸对比分析6.模型部署与推理优化

向哆哆·2025-03-03 10:57

DeepSeek-R1：重新定义推理性能的开源人工智能

挑战与未来方向影响与愿景2025年1月20日–DeepSeek推出了DeepSeek-R1，这是一款突破性的开源人工智能推理模型，旨在与OpenAI的o1等专有对手竞争。该模型在M

知识小报童·2025-03-03 08:11

本地部署 DeepSeek-R1-671B 满血版大模型

DeepSeek-R1大模型具备深度思考和推理能力，在数学、代码、自然语言推理等任务上都有着极大的提升。

Physicaloser·2025-03-03 07:05

超越GPT-4o！开源大模型DeepSeek满血版部署实战指南

自2024年12月DeepSeek发布对标GPT-4o的v3版本以来，其数学与代码推理能力已实现显著超越；而2025年1月推出的r1版本更是在多项基准测试中与GPT-4o的o1版本平分秋色。

剑圣土豆·2025-03-03 07:34

Svelte 开发 AI 应用：高效轻量级前端框架的 AI 集成探索

本文将探讨如何利用Svelte构建高效的AI应用，包括AIAPI集成、前端推理优化、可视化分析、Web组件开发等关键

赵大仁·2025-03-03 06:57

DeepSeek R1：揭示适度思考在信息处理中的关键作用

摘要DeepSeekR1是一款先进的大型推理模型，研究发现其在信息过载时性能显著下降。当减少过度思考，即不过度分析信息时，DeepSeekR1的计算成本可降低43%。

耶耶Norsea·2025-03-03 05:21

大模型隐空间推理论文阅读笔记

TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介机构：Meta代码：任务:特点:方法:1.1摘要现状：大语言模型往往局限在“languagespace"进行推理

猴猴猪猪·2025-03-03 03:57

《AI大模型开发笔记》DeepSeek技术创新点

革命性的上下文处理机制实现长文本推理成本断崖式下降，综合算力需求锐减90%，开启高效AI新纪元！

Richard Chijq·2025-03-03 03:57

【AI大模型应用开发】精读ToT：论文到源码，看透ToT思维树的实现流程

上篇文章（【AI大模型应用开发】从CoT到ToT，再到ReAct，提升大模型推理能力的方式探索（含代码））我们学习了当下提高大模型推理能力的几个主要技术，从CoT（ChainofThought）到TOT

同学小张·2025-03-03 02:24

如何掌握deepseek的推理思路：3个高级AI指令技巧，小白也能轻松上手！

不是新模型发布，也不是算力升级，而是Deepseek——这类AI学会像人类一样推理。但是有时候，Deepseek的推理你会觉得还不够？

小机学AI大模型·2025-03-03 01:13

全民AI入门清华大学 deepseek 从入门到精通 pdf 免费下载

•DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。下载地址：链接：https://pan.quark.cn/s/b2e0b986332a提取码：4XNy

宇飞林海·2025-03-02 23:30

小白也能十分钟打造自己的推理大模型！unsloth+Colab轻松上手

简介：DeepSeek-R1-Distill-Llama-8B是一个基于Llama架构的8B参数语言模型，经过深度蒸馏（distillation）处理，旨在提高推理效率和精度。

X.Cristiano·2025-03-02 23:28

北京大学：2本手册，拓展AI应用深度与广度

深入剖析DeepSeek-R1在复杂逻辑推理、数学和编程任务中的优异表现，揭示其在推理密集型任务、教育、科研、知识应用和文档分析等领域的独特优势，为AIGC领域的从业者和爱好者提供了深入了解DeepSeek

2501_90766876·2025-03-02 21:48

基于阿里云PAI平台快速部署DeepSeek大模型实战指南

在多项国际评测中，DeepSeek-R1模型在推理能力、多语言支持和长上下文处理（最高128K）方面表现卓越，尤其在企业级场景中展现出以下优势：高性能推理：单张A10显卡即可部署7B参数模型，推理速度提升

硅基打工人·2025-03-02 14:19

SQL-o1：一种用于Text-to-SQL的自奖励启发式动态搜索方法

为了解决这些问题，我们提出了SQL-o1，一种基于自奖励的启发式搜索方法，旨在增强LLMs在SQL查询生成中的推理能力。SQL-o1结合了蒙特卡洛树搜索(MCTS)进行过程级

数之何·2025-03-02 12:25

stars and seas·2025-03-02 11:50

DeepMind首席科学家最新万字访谈：模型「慢思考」，能力大幅提升！

JackRae指出，推理模型是AI发展的新范式，推理模型并非追求即时响应，而是通过增加推理时的思考时间来提升答案质量，这导致了一种新的ScalingLaw，“慢思考”模式是提升AI性能的有效途径。

·2025-03-02 09:43

边缘AI推理模型更新的秘密武器——Nginx的在线升级魔法

在当今快速发展的物联网和边缘计算时代，如何确保部署于边缘节点上的AI推理模型能够及时、高效地进行在线更新，成为了技术团队面临的一项重要挑战。

墨夶·2025-03-02 08:25

【模型部署】大模型部署工具对比：SGLang, Ollama, VLLM, LLaMA.cpp如何选择？

以下是对比分析：性能VLLM(VirtualTensorLanguage):VLLM是一个高性能的推理库，特别适用于长序列任务。

深度求索者·2025-03-02 08:19

穿越AI边界：深度集成DeepSeek API与云平台的实践之路

DeepSeek作为一款领先的大型语言生成模型，凭借其强大的推理和生成能力，已经被越来越多的开发者和行业专家所青睐。

云边有个稻草人·2025-03-02 07:45

【llm对话系统】 LLM 大模型推理python实现：vLLM 框架

在LLM的应用中，推理(Inference)阶段至关重要。它指的是利用训练好的LLM模型，根据输入(Prompt)生成文本的过程。

kakaZhui·2025-03-02 06:06

Python vLLM 实战应用指南

参数说明4.实战应用场景4.1构建聊天机器人示例对话：4.2文本补全输出示例：4.3自定义模型服务启动服务调用服务5.性能优化5.1GPU加速5.2动态批处理6.总结vLLM是一种高性能的开源深度学习推理引擎

ghostwritten·2025-03-02 06:34

DeepSeek R1 详解：思维链、强化学习和蒸馏

Deepseek的基准在推理任务（数学、编码和科学）

前网易架构师-高司机·2025-03-02 05:58

硅基流动：免费领取2000万Token，畅享AI大模型盛宴！

其核心团队来自清华大学、MIT等顶尖高校，致力于为企业和开发者提供高性能的AI模型推理和训练解决方案。

·2025-03-02 01:05

如何更加优雅提问：浅谈提示词

ISO/IEC23894人工智能系统工程标准第一步：理论基础构建目标：通过结构化分析与实践验证，提升提示词设计的精准度、可控性与生成效率一、提示词设计的核心方法论分阶目标拆解基础层：明确任务类型（生成、推理

愚戏师·2025-03-01 23:42

基于问答对的实体识别和意图识别的知识图谱问答推理

问答对数据questionanswer省直医保的参保范围是什么?中央直属、省直属在哈尔滨的机关、事业单位、社会团体及其职工和退休人员。参加省直医保的单位缴费基数如何确定和缴纳?在职职工(以下简称职工)个人月缴费基数按本人上年度月平均工资确定，由单位代扣代缴，用人单位月缴费基数按本单位参保职工个人月缴费基数之和确定。缴费费率：用人单位8%(含生育0.5%)、职工个人2%。缴费方式：用人单位、职工按月

风清扬【coder】·2025-03-01 21:04

英特尔开发板试用：结合OAK深度相机进行评测

最近英特尔官方发布了一篇文章：主要介绍了如何将英特尔开发板（小挪吒）与OAK深度相机结合使用，并通过OpenVINO™工具套件进行开发和性能评测OAK相机：作为深度数据采集的核心设备，其深度测距功能与OpenVINO™推理相结合

OAK中国_官方·2025-03-01 20:56

第十五个问题-什么是CoT？

Chain-of-Thought(CoT)思维链技术详解一、核心概念Chain-of-Thought（思维链）是一种通过引导大语言模型展示逐步推理过程来提升复杂问题解决能力的技术。

释迦呼呼·2025-03-01 20:53

MeanShift聚类分割算法

下面详细介绍该算法的数学原理和每一步的推理公式。1.密度估计MeanShift算法通过核密度估计（

点云学习·2025-03-01 19:18

DeepSeek突袭公布成本利润率：545%

就在刚刚，DeepSeek官方亲自揭秘了DeepSeek-V3/R1推理系统。

·2025-03-01 18:29

“下一代推理王者”能否再掀AI浪潮？

“下一代推理王者”能否再掀AI浪潮？最近，AI圈内最火的话题，莫过于DeepSeek即将推出的R2模型了。

that's boy·2025-03-01 16:02

【vLLM 学习】使用 Neuron 安装

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

HyperAI超神经·2025-03-01 14:47

AI大模型-提示工程学习笔记21-图提示 (Graph Prompting)

1.图提示的核心思想(1)传统提示的局限性(2)GraphPrompting的解决方案2.GraphPrompting的工作流程(1)图构建(2)图选择/子图提取(3)图编码(4)提示构建(5)LLM推理与生成

9命怪猫·2025-03-01 12:30

Amazon SageMaker 批量转换中的 JSON 处理技巧

背景介绍AmazonSageMaker提供了强大的批量转换功能，允许我们对大量数据进行推理。这在处理大规模数据集时非常有用。然而，当我们尝试将批量策略从SingleRecord切换到MultiRec

t0_54coder·2025-03-01 03:50

人类驾驶的人脑两种判断模式（反射和预判）--＞自动驾驶两种AI模式

另一种模式是物理时空图式推理模式，判断是基于预判预测，人脑把物理世界的物理动态时空规则（规律）图像已经编码为脑内符号（语言或图式）系统，通过预判预测的思维链推理过程（语言符号或物理时空图式的推理运算，映射推理出了物理世界的后续时空图像

liron71·2025-03-01 02:14

DeepSeek技术全景解析：架构创新与行业差异化竞争力

深度优化的MoE架构：结合256个路由专家与1个共享专家，实现稀疏激活机制（每个Token仅激活8个专家），在代码生成任务中推理速度提升40%。混合模态支持：支持文本、代码、数学符号

二进制coder·2025-03-01 01:40

DeepSeek入门：安装与配置

，以下是不同版本的硬件要求：DeepSeek-R1-1.5B：CPU：最低4核（推荐Intel/AMD多核处理器）内存：8GB+硬盘：3GB+存储空间（模型文件约1.5-2GB）显卡：非必需（纯CPU推理

梦落青云·2025-03-01 01:08

大模型研究：DeepSeek三个版本（初级中级高级）资源要求说明

DeepSeek-LLM6.7B三个版本模型所需硬件资源的介绍：DeepSeek-LLM6.7B最小最基础版本1.内存（RAM）非量化运行时，由于模型参数数量相对较少，大约需要13GB-14GB的系统内存来加载模型和进行基本推理

程序猿学长·2025-03-01 01:08

DeepSeek 最新发布 DeepEP：一款用于 MoE 模型训练和推理的开源 EP 通信库

采用Mixture-of-Experts（MoE）架构的大型语言模型在没有相应计算量增加的情况下显著提升了模型容量。然而，这种方法也引入了一些挑战，尤其是在GPU之间的通信方面。在MoE模型中，对于任何给定的token，只有一部分专家是活跃的，因此在设备之间高效地交换数据至关重要。传统的全对全（all-to-all）通信方法可能会造成瓶颈，增加延迟，并导致GPU资源利用不足。在对延迟敏感的场景中，

强哥之神·2025-03-01 01:37

一文了解：部署 Deepseek 各版本的硬件要求

我们先看一下DeepSeek的部分通用版本（如下图），然后再介绍一下最近火热的R1推理版本的各规格的硬件要求。最后，会给出R1的各主流版本的资源参考列表（文末）。模型名参数大小文件格式标签公司

强哥之神·2025-03-01 00:04

推荐频道

推理