确定性推理第16页

什么是AI人工智能

首先，AI指的是让计算机系统能够执行人类智慧任务，比如学习、推理和决策的能力。就像我们人类一样，它们可以通过数据进行分析，做出判断。但它们是如何工作的呢？

西洲啊·2025-02-10 03:57

DeepSeek：如何表达需求

表达公式：目标+选项+评估标准适配策略：推理模型：要求AI进行逻

小稻草打打打·2025-02-10 00:31

多头注意力机制的创新优化：MLA架构解析

摘要MLA（Multi-headLatentAttention）架构是对Transformer模型中多头注意力（MHA）结构的创新优化，旨在提高推理阶段的效率并降低资源消耗。

耶耶Norsea·2025-02-09 23:22

片段阅读：行测高分的关键突破口

在公务员考试的行测科目中，片段阅读占据着举足轻重的地位，它不仅题量可观，更是对考生阅读理解、归纳概括、逻辑推理等综合能力的全方位考查。

张小小大智慧·2025-02-09 23:21

解锁DeepSeek大模Q型：超实用提示词技巧大放送

DeepSeek大模型简介DeepSeek是由深度求索(DeepSeekInc.)团队开发的大型预训练语言模型，以其高效推理、多模态融合及对垂直领域的深度优化而著称。

计算机学长·2025-02-09 20:04

DeLLMa框架：优化复杂决策的新路径

标题：DeLLMa框架：优化复杂决策的新路径文章信息摘要：DeLLMa框架通过整合大型语言模型（LLMs）和结构化数据，优化了在不确定性条件下的决策过程，特别是在处理复杂决策问题时，能够增强决策的严谨性和精确性

XianxinMao·2025-02-09 16:07

模型反脆弱

从不确定性中获益。1反脆弱模型的应用1.1钛方科技的智能化转型与反脆弱能力构建钛方科技成立于2015年，是一家专注于智能触觉技术研发与产业化应用的科技型中小企业。

图王大胜·2025-02-09 15:32

交叉熵和它的朋友

交叉熵与熵的关系熵用于衡量随机变量的不确定性，定义为：H(P)=−∑iP(i)log⁡P(i)H(P)=-\sum_{i}

Jamence·2025-02-09 15:59

数学与光学：光的传播和干涉的数学描述

文章将结合数学公式和编程实例，提供清晰的逻辑推理和分析过程，以帮助读者更好地理解和掌握这些核心概念。目录大纲《数学与光学

AI天才研究院·2025-02-09 14:22

【Windows/C++/yolo开发部署03】将实例分割模型ONNX导出为 TensorRT 引擎：完整记录

CSDN文库目录写在前面环境准备1.使用trtexec将ONNX模型转换为TensorRT引擎2.验证TensorRT引擎2.1TensorRT版本2.2GPU信息2.3TensorRT引擎信息2.4推理请求

认识祂·2025-02-09 13:42

DeepSeek-R1 原理解析及 Linux 本地部署详细教程

一、引言DeepSeek-R1作为幻方量化旗下大模型公司DeepSeek研发的系列推理模型，2025年横空出世，被誉为国运级产品。

power-辰南·2025-02-09 12:05

蒸馏：让DeepSeek用“移魂大法”增强你的小模型

在DeepSeekR1的技术报告中，使用DeepSeek-R1生成的推理数据，微调了几个广泛使用的开源模型。评估结果表明，蒸馏后的较

AI生成曾小健·2025-02-09 11:58

大话商品模型

商品模型术语名词解释达尔文体系是天猫发起的一套全新的商品管理体系，它不同于淘宝原来的分类法（基于类目属性体系）的管理思路，而是以最细粒度的产品节点（CSPU）为核心，使用系统和运营机制的方式维护一套丰富、准确的产品库，通过产品实现聚合、管控商品，以确保商品信息的确定性

云夢南行·2025-02-09 10:56

混合专家模型 (MoE) 最全详细图解

在本篇博文中，我们将深入探讨MoEs的核心组件、训练方法，以及在推理过程中需要考量的各种因素简短总结混合专家模型(MoEs):与稠密模型相比，预训练速度更快与具有相同参数数量的模型相比

DFCED·2025-02-09 10:23

DeepSeek-V3 技术报告（核心技术，接近5万字）

为了实现高效的推理和成本效益的训练，DeepSeek-V3采用了Multi-headLatentAttention(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了彻底验证

zhangjiaofa·2025-02-09 10:21

DeepSeek-V3 Technical Report

2架构2.1基本架构2.2多token预测3基础设施3.1计算集群3.2训练框架3.2.1双管和计算通信重叠3.2.2跨节点全对全通信的高效实现3.2.3以最小的开销节省大量内存3.3FP8训练3.4推理和部署

UnknownBody·2025-02-09 08:35

14.4K+ Star！GPT Researcher：一个基于AI的智能研究助手

GPTResearcher的设计灵感来源于最新的Plan-and-Solve和RAG论文，目标是解决错误信息、速度、确定性和可靠性问题，通过并行化智能体工作而不是同步

鱼满满记·2025-02-09 07:00

一文搞懂DeepSeek - 开源模型R1

DeepSeek-R1作为一款开源的大型语言模型，在数学、编程和推理等多个任务上表现出了强大的性能。

程序员辣条·2025-02-09 01:12

DeepSeek使用技巧，强烈建议收藏

前言在AI技术飞速发展的当下，DeepSeek作为国产大模型的佼佼者，凭借免费使用、开源生态以及行业领先的推理能力，成为了众多用户的智能得力助手。

suyukangchen·2025-02-09 00:37

多厂商宣布接入DeepSeek，迅易科技能帮助客户按需实现数智化革新

2025年伊始，国产高性能AI推理模型DeepSeek在全球AI领域掀起了一股热潮，凭借其卓越的多场景理解与生成能力迅速“出圈”，不仅彻底改写了全球AI应用市场的格局，也为AI技术的未来发展路径树立了新的标杆

·2025-02-08 19:59

多厂商宣布接入DeepSeek，迅易科技能帮助客户按需实现数智化革新

2025年伊始，国产高性能AI推理模型DeepSeek在全球AI领域掀起了一股热潮，凭借其卓越的多场景理解与生成能力迅速“出圈”，不仅彻底改写了全球AI应用市场的格局，也为AI技术的未来发展路径树立了新的标杆

·2025-02-08 19:58

什么叫鲁棒性？

一个具有鲁棒性的系统或算法能够在面对不确定性、异常情况或意外输入时仍然保持良好的性能和效果。具体来说，鲁棒性可以表现为以下几个方面：健壮性：鲁棒性可以体现在系统或算法对于异常或无效输入的处理能力。

众乐乐_2008·2025-02-08 13:49

DeepSeek-V3 横空出世：推理速度飙升，开源模型新王者诞生！

这款模型不仅在推理速度上实现了质的飞跃，更是在主流榜单中与世界上最先进的闭源模型平分秋色，甚至位列开源模型榜首！

霍格沃兹测试开发学社·2025-02-08 13:47

大语言模型多token预测技术

传统的基于下一个token预测的训练方法虽简单有效，但在获取语言、世界知识和推理能力方面效率不高。

deepdata_cn·2025-02-08 09:21

【AIGC魔童】DeepSeek v3推理部署：DeepSeek-Infer/ModelScope/ollama

【AIGC魔童】DeepSeekv3推理部署：DeepSeek-Infer/ModelScope/ollama（1）快速使用（2）推理部署2.1使用DeepSeek-Infer部署DeepSeek2.2

LeeZhao@·2025-02-08 09:47

ChatGPT入门- GPT 4.0 新手使用手册（结合案例讲解）

2.上下文保持与逻辑推理：相比于前几代模型，GPT4.0在对话过程中能够更好地保持上下文的连续性，并进行逻辑推理。这意味着用户可以与它进行更深入的对话，而不必担心模型丢失之前的上下文信息。

玩AI的小胡子·2025-02-08 09:42

【Ollama+Deepseek】本地化部署运行Deepseek模型

一、前言最近国内的深度求索公司发布的DeepSeek-r1推理模型，其凭借强大的推理能力、擅长复杂任务、低成本以及开源等优势，短时间内迅速成为了全球AI领域的焦点。

·2025-02-08 06:32

DeepSeek-R1深度报告：基于Python强化学习的前沿长链推理模型揭秘与实战——兼谈SEO优化与实用经验分享

【DeepSeek-R1深度报告：基于Python强化学习的前沿长链推理模型揭秘与实战——兼谈SEO优化与实用经验分享】配合此文章使用，效果更佳：DeepSeek-R1深度报告——50道相关面试题——深刻理解相关概念

快撑死的鱼·2025-02-08 05:19

DeepSeek模型与OpenAI模型原理和技术架构的异同分析

OpenAI模型原理和技术架构的异同分析一、模型原理（一）DeepSeekR1DeepSeekR1的核心原理是基于强化学习（RL）的训练方式，其创新之处在于不依赖任何监督微调（SFT）数据，仅通过强化学习实现推理能力的自主进化

程序猿000001号·2025-02-08 04:10

vLLM显存优化

在使用vLLM框架进行大模型推理时，为了最大程度地减少GPU显存的占用，可以从以下几个方面调整参数和配置：1.调整max_batch_size参数max_batch_size：这是批处理的最大大小。

xnuscd·2025-02-08 04:07

qwen vllm function_call

教程：使用vLLM部署Qwen模型并实现工具调用前言vLLM是一个高效、易于使用的大型语言模型推理和部署库。

xnuscd·2025-02-08 04:07

SQL中主键的作用

这样可以避免主键列的数据缺失或不确定性。3.单一性：每个表应该有一个主键，并且每个表只能有一个主

患得患失949·2025-02-08 03:07

【Ollama+Deepseek】本地化部署运行Deepseek模型

一、前言最近国内的深度求索公司发布的DeepSeek-r1推理模型，其凭借强大的推理能力、擅长复杂任务、低成本以及开源等优势，短时间内迅速成为了全球AI领域的焦点。

·2025-02-08 02:59

【论文阅读】DeepSeek-R1：通过强化学习激励LLMs的推理能力 | DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL

DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearningDeepSeek-R1：通过强化学习激励LLMs的推理能力

AI天才研究院·2025-02-07 22:05

【vLLM 学习】使用 CPU 安装

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-02-07 22:51

【AI中数学-信息论-综合实例】缩小AI巨人：大模型神经网络的压缩与裁剪

尽管大规模神经网络在AI中具有强大的能力，但由于其高计算需求、内存使用和推理时间，它们在实际部署中往往面临一些限制。模型压缩和裁剪技术能够使这些“AI巨人”变得更为可管理，同时在性能上不至于损失太多。

云博士的AI课堂·2025-02-07 22:03

从 Partial Computations（部分计算）到 Lambda Calculus（λ演算）：函数的计算模型解析(中英双语)

在计算机科学和数学中，我们可以从不同角度理解“函数”（Function）的概念：在数学模型中，函数是一个完全的映射关系，它接受输入，并确定性地产生输出，例如：f(x)=x2f(x)=x^2f(x)=x

阿正的梦工坊·2025-02-07 19:15

深入浅出DeepSeek V3 技术报告

你可以把它想象成一个超级学霸，不仅擅长语文和数学，还会写代码，能推理，还能处理超长文章（1

fertiland·2025-02-07 17:04

自然语言处理的统计学原理

然而自然语言充满了不确定性和模糊性，不同场景的

数行天下·2025-02-07 14:45

大语言模型原理基础与前沿高效的MoE架构

大语言模型原理基础与前沿高效的MoE架构关键词：大语言模型，MoE架构，参数高效微调，分布式训练，模型压缩，推理加速1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大语言模型（LargeLanguageModels

AI架构设计之禅·2025-02-07 13:39

基于深度学习的行人摔倒检测识别系统 —— 使用YOLOv5实现行人摔倒检测

系统功能概述2.2系统架构数据准备与处理3.1数据集选择与收集3.2数据标注3.3数据集划分YOLOv5模型训练与优化4.1YOLOv5配置文件4.2安装YOLOv5并开始训练4.3模型评估与优化摔倒行为识别与推理

2025年数学建模美赛·2025-02-07 13:34

DeepSeek 与 Qwen：模型能力对比！

DeepSeek的模型DeepSeek-R1：一款旗舰模型，通过思维链推理在推理、数学和编码方面表现出色。例如，在解决复杂数学证明题时，它能运用思维链，一步步清晰地推导，最终得出准确结论；在编程中，面

·2025-02-07 13:22

Deep-Seek 开源项目教程

Deep-Seek不仅支持文本生成，还特别擅长数学、代码和推理任务。项目快速启动环境准备在开始之前，请确保您

毛炎宝Gardener·2025-02-07 08:34

在本地运行DeepSeek Janus 系列，DeepSeek Janus 系列用于图像理解和生成的统一多模态 AI

DeepSeek的Janus系列是一种先进的开源多模态人工智能模型，它将图像理解、文本到图像生成和视觉语言推理统一到一个系统中。

知识大胖·2025-02-07 02:54

使用DeepSeek-R1和Ollama构建RAG系统以进行本地部署

使用DeepSeek-R1和Ollama构建RAG系统以进行本地部署我们将探讨如何使用DeepSeekR1（一种针对结构化任务优化的开源推理模型）和Ollama（一种用于在本地运行LLM的框架）构建功能齐全的

·2025-02-07 02:10

网易有道全面拥抱DeepSeek-R1，推理大模型加速个性化教学升级

1月20日，DeepSeek震撼发布DeepSeek-R1，这款推理大模型在数学、编程及逻辑推理等多个领域展现出了与OpenAI顶尖模型比肩的实力，同时实现了API调用成本90%-95%的大幅缩减，无疑为科技界投下了一颗开年

·2025-02-07 02:10

百度智能云上架DeepSeek R1/V3，上线首日超1.5万家客户调用

2月3日百度智能云宣布DeepSeek-R1和DeepSeek-V3模型上架百度智能云千帆平台，并宣布提供行业领先的超低推理价格。模型上线首日，已有超1.5万家客户通过千帆平台进行模型调用。

·2025-02-07 01:37

模型蒸馏、量化、裁剪的概念和区别

然而，这些模型通常具有大量的参数和复杂的结构，导致模型体积庞大、计算资源消耗高和推理时间长。这些问题限制了深度学习模型在资源受限设备（如移动设备、嵌入式系统）上的应用。

我就是全世界·2025-02-06 22:24

[论文笔记] Deepseek技术报告

1.总体概述背景与目标报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。

心心喵·2025-02-06 22:53

Deepseek-r1、o3-Mini 和 Qwen 2.5 MAX，谁才是你的菜？

这下它终于坐不住了，发布了新推理模型系列o3-mini。这个模型不仅首次向免费用户开放，成本还比之前的o1系列降低了15倍。和GPT-4O、GPT模型家族不同，AI模型的“O”系列专注于推理任务。

·2025-02-06 17:21

推荐频道

确定性推理

什么是AI人工智能

DeepSeek：如何表达需求

多头注意力机制的创新优化：MLA架构解析

片段阅读：行测高分的关键突破口

解锁DeepSeek大模Q型：超实用提示词技巧大放送

DeLLMa框架：优化复杂决策的新路径

模型 反脆弱

交叉熵和它的朋友

数学与光学：光的传播和干涉的数学描述

【Windows/C++/yolo开发部署03】将实例分割模型ONNX导出为 TensorRT 引擎：完整记录

DeepSeek-R1 原理解析及 Linux 本地部署详细教程

蒸馏：让DeepSeek用“移魂大法”增强你的小模型

大话商品模型

混合专家模型 (MoE) 最全详细图解

DeepSeek-V3 技术报告 （核心技术，接近5万字）

DeepSeek-V3 Technical Report

14.4K+ Star！GPT Researcher：一个基于AI的智能研究助手

一文搞懂DeepSeek - 开源模型R1

DeepSeek使用技巧，强烈建议收藏

多厂商宣布接入DeepSeek，迅易科技能帮助客户按需实现数智化革新

多厂商宣布接入DeepSeek，迅易科技能帮助客户按需实现数智化革新

什么叫鲁棒性？

DeepSeek-V3 横空出世：推理速度飙升，开源模型新王者诞生！

大语言模型多token预测技术

【AIGC魔童】DeepSeek v3推理部署：DeepSeek-Infer/ModelScope/ollama

ChatGPT入门- GPT 4.0 新手使用手册（结合案例讲解）

【Ollama+Deepseek】本地化部署运行Deepseek模型

DeepSeek-R1深度报告：基于Python强化学习的前沿长链推理模型揭秘与实战——兼谈SEO优化与实用经验分享

DeepSeek模型与OpenAI模型原理和技术架构的异同分析

vLLM显存优化

qwen vllm function_call

SQL中主键的作用

【Ollama+Deepseek】本地化部署运行Deepseek模型

【论文阅读】DeepSeek-R1：通过强化学习激励LLMs的推理能力 | DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL

【vLLM 学习】使用 CPU 安装

【AI中数学-信息论-综合实例】 缩小AI巨人：大模型神经网络的压缩与裁剪

从 Partial Computations（部分计算） 到 Lambda Calculus（λ演算）：函数的计算模型解析(中英双语)

深入浅出DeepSeek V3 技术报告

自然语言处理的统计学原理

大语言模型原理基础与前沿 高效的MoE架构

基于深度学习的行人摔倒检测识别系统 —— 使用YOLOv5实现行人摔倒检测

DeepSeek 与 Qwen：模型能力对比！

Deep-Seek 开源项目教程

在本地运行DeepSeek Janus 系列，DeepSeek Janus 系列用于图像理解和生成的统一多模态 AI

使用DeepSeek-R1和Ollama构建RAG系统以进行本地部署

网易有道全面拥抱DeepSeek-R1，推理大模型加速个性化教学升级

百度智能云上架DeepSeek R1/V3，上线首日超1.5万家客户调用

模型蒸馏、量化、裁剪的概念和区别

[论文笔记] Deepseek技术报告

Deepseek-r1、o3-Mini 和 Qwen 2.5 MAX，谁才是你的菜？

模型反脆弱

DeepSeek-V3 技术报告（核心技术，接近5万字）

【AI中数学-信息论-综合实例】缩小AI巨人：大模型神经网络的压缩与裁剪

从 Partial Computations（部分计算）到 Lambda Calculus（λ演算）：函数的计算模型解析(中英双语)

大语言模型原理基础与前沿高效的MoE架构