贝叶斯推理第14页

华为 MindStudio 安装指南

它支持模型训练、推理、算子开发、性能优化等AI任务，并依赖CANN（ComputeArchitectureforNeuralNetworks）作为计算架构基础。

丰年稻香·2025-02-14 03:01

更上层楼！仅用2GB资源，让最火的DeepSeek-R1在本机上奔跑！

DeepSeek-R1模型的发布，让我们可以更好地使用开源大语言模型运行推理任务。现在，R1模型可以通过DeepSe

LinkTime_Cloud·2025-02-14 03:31

OpenAI 神话崩塌！DeepSeek-R1升至全球风格控制类第一，国内开源大模型集体给奥特曼上了一课！...

距离深度求索推理大模型DeepSeek-R1发布已经过去约一周时间。

LinkTime_Cloud·2025-02-14 03:31

【AI论文】OmniHuman-1: 重新思考一阶段条件式人体动画模型的扩展升级

为此，我们为这些混合条件引入了两种训练原则，以及相应的模型架构和推理策略。这些设计使OmniHuman能够充分利

东临碣石82·2025-02-13 23:06

【AI论文】使用大型推理模型进行竞技编程

摘要：我们的研究表明，将强化学习应用于大型语言模型（LLMs）能显著提升复杂编码和推理任务的性能。

东临碣石82·2025-02-13 23:06

自学人工智能大模型，满足7B模型的训练和微调以及推理，预算3万，如何选购电脑

岁月的眸·2025-02-13 23:03

通义灵码全新上线模型选择功能，新增支持 DeepSeek-V3 和 DeepSeek-R1 模型

通义灵码能力再升级，支持推理模型选择今年1月，通义灵码AI程序员全面上线

TONGYI_Lingma·2025-02-13 22:54

【必看】凭啥？DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能

尽管初期计算开销较大，但添加少量冷启动数据后，训练稳定性和模型推理能力大幅提升。此外，DeepSeek还采用了组相对策略优化（GRPO）算法替代

大F的智能小课·2025-02-13 21:51

DeepSeek R1：开启AI推理新时代，强在哪里？

DeepSeekR1：开启AI推理新时代阅读时长：19分钟发布时间：2025-02-13近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎

·2025-02-13 20:19

DeepSeek使用手册，其中一份是清华大学出品

DeepSeek（深度求索）是一款由杭州深度求索人工智能基础技术研究有限公司开发的人工智能平台，专注于提供高效易用的AI模型训练与推理能力。

cpa007·2025-02-13 20:45

获取 OpenAI o1-preview/o1-Mini API key 进行 API 调用的详细教程

如何使用OpenAI推理模型：o1-preview/o1-Mini模型的API调用在快速发展的人工智能领域，OpenAI推出了o1系列模型（草莓），包括o1-preview和o1-Mini。

·2025-02-13 20:17

Tritonserver 在得物的最佳实践

一、Tritonserver介绍Tritonserver是Nvidia推出的基于GPU和CPU的在线推理服务解决方案，因其具有高性能的并发处理和支持几乎所有主流机器学习框架模型的特点，是目前云端的GPU

·2025-02-13 16:03

DeepSeek与Web3：科技融合的新纪元

作为新一代LLM（大型语言模型），DeepSeek不仅在推理质量和成本上展现出优势，还重新定义了去中心化智能代理（AIAgent）的发展方向。

·2025-02-13 15:02

AI 终极十问！DeepSeek 如何颠覆开发者认知？ | DeepSeek 十日谈

这类模型便被称之为推理模型，当下热议的DeepSeekR1以及之前OpenAI发布的o1都是典型的代表。以一个简单的数学问题为例，“如果一列火车以60英里每小时的速度行驶，行驶3小时后，它会走多远？”

AI科技大本营·2025-02-13 13:29

今晚直播，DeepSeek真的有意识了吗？｜DeepSeek十日谈

你是否惊讶于DeepSeek的分析过程，好奇它到底是「推理」还只是模拟人类思考的假象？这里不禁思考：AI是否真的有意识？

CSDN资讯·2025-02-13 13:27

张慧敏 | DeepSeek-R1是怎样炼成的？

原创张慧敏苇草智酷2025年02月01日12:12作者|张慧敏山西大学理论物理硕士、日本富山大学工学博士近日，中国新创AI公司DeepSeek发布了他们的推理模型DeepSeek-R1，引发了全球科技圈的震动

人机与认知实验室·2025-02-13 10:27

今日AI和商界事件(2025-02-08)

今日AI领域的重大事件主要包括以下几个方面：一、DeepSeek引发的行业震动事件概述：DeepSeek作为近期崛起的AI模型，以其低成本、高性能的推理能力引发了广泛关注。

LS_learner·2025-02-13 09:51

DeepSeek-V2 论文解读：混合专家架构的新突破

DeepSeek-V2:AStrong,Economical,andEfficientMixture-of-ExpertsLanguageModel目录一、引言二、模型架构（一）多头部潜在注意力（MLA）：重塑推理效率

进一步有进一步的欢喜·2025-02-13 09:49

硅基流动多模型工作流应用平台，免费2000万Token来了

硅基流动是一家专注于大规模AI计算的技术公司,提供高性能LLM推理和训练解决方案,助力企业高效部署AI应用。目前注册可获的2000万Token，可以使用将近60种文字对话、语音、图像生成等主流大模型。

yuntianming3906·2025-02-13 05:53

如何从零构建具身智能AI系统？

通过这份循序渐进的指南，学习构建能够独立感知、推理和行动的自主AI系统。在人工智能领域，具身智能AI系统正在重新定义自动化和决策流程。这些系统旨在自主运行，模仿人类的推理和行动能力。

硅基创想家·2025-02-13 05:53

DeepSeek 使用小技巧

目录前言DeepSeek简介DeepSeek的特点DeepSeek的功能DeepSeek的应用场景如何使用DeepSeekDeepSeek的推理模型推理模型与通用模型的对比快思慢想：效能兼顾全局视野提示语策略差异关键原则前言笔者此前也有更新一篇

終不似少年遊*·2025-02-13 01:20

学习系列二：常用目标检测的格式转换脚本文件txt,json等

labelme打的标签json格式转可训练的txt格式三、yolo的目标检测txt格式转coco数据集标签的json格式四、xml格式转yolo数据集标签的txt格式五、根据yolo的目标检测训练的最好权重推理图片六

小啊磊_Vv·2025-02-12 21:23

使用 Llama.cpp 和 llama-cpp-python 快速部署本地 LLM 模型

你将学到如何安装依赖、加载模型、调整参数以获得最佳性能，以及如何结合LangChain处理推理任务。

hgSdaegva·2025-02-12 20:16

DeepSeek-Ollama实现本地化无烦恼

它支持各种LLM运行器，如Ollama和OpenAI兼容的API，并内置了RAG推理引擎，使其成为强大的AI部署解决方案。star72

c_zyer·2025-02-12 20:11

DeepSeek模型架构及优化内容

为了优化推理成本.67B模型使⽤分组查询注意⼒（GQA）⽽不是传统的多头注意⼒（MHA）.超参数设置优化器：采⽤adam

开出南方的花·2025-02-12 19:39

如何在VSCode中免费使用DeepSeek R1：本地大模型编程助手全攻略

1.1开源的推理王者1.2性能实测对比二、三步搭建本地AI编程环境2.1硬件准备指南2.2三大部署方案详解方案一：LMStudio（新手友好）方案二：Ollama（Docker玩家首选）方案三：Jan（

tamak·2025-02-12 19:38

最通俗易懂的方式，由浅入深地讲讲DeepSeek（深度求索）

简单说，DeepSeek是一家专注做通用人工智能（AGI）的中国公司，目标就是让AI能像人类一样理解、推理、解决复杂问题。

Jing_saveSlave·2025-02-12 19:07

上海站 | 2025 Seeed x LeRobot 具身智能黑客松报名开启！

SeeedxLeRobot具身智能黑客松现邀请所有对在机器人领域训练模仿学习策略，并实时进行推理部署感兴趣的人，共同创造具有影响力的创新解决方案。

·2025-02-12 18:01

人工智能能否超过人类智能

论人工智能能否超过人类智能首先是智能的量纲问题：是逻辑、推理、抽象、想象、语言、情感、自我意识还是其它。

CaiGbro·2025-02-12 17:53

普惠AI 如何在 Anolis OS 8 上部署生产可用的 DeepSeek 推理服务

背景介绍DeepSeek-R1DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。

·2025-02-12 17:52

AI基础 -- AI学习路径图

再到深度学习与大模型的变迁本书内容概览与学习路径指引2.线性代数与矩阵运算向量与矩阵的基本概念矩阵分解（特征值分解、奇异值分解）张量运算简介（为后续深度学习做准备）在机器学习和深度学习中的应用示例3.概率论与统计基础随机变量、分布与期望方差贝叶斯理论与最大

sz66cm·2025-02-12 16:40

DeepSeek-R1蒸馏技术：让小模型“继承”大模型的推理超能力

最近有不少朋友来询问Deepseek的核心技术，陆续针对DeepSeek-R1论文中的核心内容进行解读，并且用大家都能听懂的方式来解读。当大模型成为“老师”，小模型也能变“学霸”想象一下，一位经验丰富的数学老师（大模型）将自己解题的思维过程一步步拆解，手把手教给学生（小模型）。学生通过模仿老师的思路和技巧，最终也能独立解决复杂的题目——这就是“”模型蒸馏（Distillation）“”的核心思想。

马拉AI·2025-02-12 15:34

pytorch深度学习模型推理和部署、pytorch&ONNX&tensorRT模型转换以及python和C++版本部署

目录1.采用pytorch进行推理2.采用onnx进行推理2.1pytorch转换为onnx2.2onnx推理3.采用tensorrt进行推理（python环境）3.1onnx转engine文件3.2tensorrt

机械心·2025-02-12 10:40

OpenAI重磅更新：发布目前最强推理模型ChatGPT-o1，新鲜测试出炉，草莓快要成熟了

这次更新标志着OpenAI在人工智能推理能力上的重大突破，推出了其最新的大语言模型——o1-preview和o1-mini。这一更新揭开了已经预热接近一年的“Q*/草莓项目”的神秘面纱。

机械心·2025-02-12 10:39

昇腾，Ascend，NPU，mindie，镜像，部署vllm：第4篇，尝试多模态大模型部署（Qwen2-vl）

（当然是在昇腾环境下）提示：需要把这篇文章先看一遍昇腾，mindie，镜像，部署vllm：第2篇，启动mindieservice_daemon服务，支持对Qwen2.5的7B版本的推理提示：本文章的撰写思路是

几道之旅·2025-02-12 10:36

策略泛化的无动作推理

25年2月来自斯坦福的论文“Action-FreeReasoningforPolicyGeneralization”。端到端模仿学习为训练机器人策略提供一种有前途的方法。然而，泛化到新环境（例如未见过的场景、任务和目标实例）仍然是一项重大挑战。尽管大规模机器人演示数据集已显示出诱导泛化的潜力，但它们的规模化需要大量资源。相比之下，人类视频数据丰富多样，提供一种有吸引力的替代方案。然而，这些人类视频

硅谷秋水·2025-02-12 07:44

【通往通用人工智能AGI之路】第8章: 认知架构

AGI系统架构需要综合考虑认知、学习、推理、规划等多个方面,设计灵活、可扩展、鲁棒的系统框架;AGI系统实现需要针对不同的任务和场景,开发高效、可靠、可解释的算法和模型。

AI天才研究院·2025-02-12 06:04

手把手教学，DeepSeek-R1微调全流程拆解

手把手教学，DeepSeek-R1微调全流程拆解原创极客见识GeekSavvy2025年02月09日09:02广东DeepSeek通过发布其开源推理模型DeepSeek-R1颠覆了AI格局，该模型使用创新的强化学习技术

AI生成曾小健·2025-02-12 05:01

开源模型应用落地-qwen2-7b-instruct-LoRA微调&合并-ms-swift-单机多卡-RTX 4090双卡（十五）

是一种有效的自适应策略，它不会引入额外的推理延迟，并在保持模型质量的同时显着减少下游任务的可训练参数数量。2.2.参数高效微调(PEF

开源技术探险家·2025-02-12 04:50

对DeepSeek-R1通过强化学习提升大型语言模型推理能力的技术原理解析

•关键要素：包括环境（模型所处的推理任务场景）、状态（模型在推理过程中的当前情况，如已有的推理步骤、已知信息等）、动作（模型在当前状态下做出的推理决策，如选择何种推理方法、如何组织语言等）、奖励（根据模型的动作和结果给予的反馈

一只贴代码君·2025-02-12 02:12

模型轻量化

影响神经网络推理速度主要有4个因素：FLOPs、MAC、计算并行度、硬件平台架构与特性（算力、GPU内存带宽）模型压缩工业界主流的模型压缩方法有：知识蒸馏（KnowledgeDistillation，KD

莱茶荼菜·2025-02-11 22:10

深度学习中模型轻量化及具体方案应用

模型轻量化的核心目标是提高推理速度、降低功耗、减少内存占用，以便在边缘设备上实现实时性或低延迟的响应。

码上就位·2025-02-11 22:36

大模型推理服务全景图

作者：望宸随着DeepSeekR1和Qwen2.5-Max的发布，国内大模型推理需求激增，性能提升的主战场将从训练转移到推理。由于无论是训练还是推理，如何提升性能都是业内讨论最多的话题之一。

·2025-02-11 21:12

换平台对比推理能力:DeepSeekR1强于Gemini2.0Flash

和Gemini2.0Flash(不是Gemini2.0FlashThinkingExperimental)，仍然是之前一道小学数学应用题的解答和推理能力。

stereohomology·2025-02-11 19:43

Gemini 2.0 FlashThinking Experimental答对这个问题只需要提示一次

目前来说，这两个模型的推理能力的确最好。其它的推理能力都还是垃圾。

stereohomology·2025-02-11 19:13

DeepSeek-MoE-16b：高效稀疏架构引领大模型降本增效革命

DeepSeek-MoE-16b是深度求索（DeepSeek）研发的混合专家模型（MixtureofExperts,MoE），参数规模160亿，旨在通过稀疏化计算架构解决传统稠密模型（如Llama2、GPT-3）的高训练与推理成本问题

热爱分享的博士僧·2025-02-11 18:36

2025年2月第一周国内外科技资讯精选（软件工程与Python领域）

一、AI与Python工具链的深度整合OpenAI与谷歌的模型竞赛OpenAI推出的免费推理模型o3-mini在数学代码生成和物理模拟领域表现突出，尤其擅长生成符合物理定律的代码（如动态Shader、游戏逻辑

虫洞没有虫·2025-02-11 15:48

LLM推理优化——PagedAttention初识篇（vLLM初识（二））

LLM推理优化——PagedAttention初识篇（vLLM初识（二））前言在LLM推理优化——KVCache篇（百倍提速）中，我们已经介绍了KVCache技术的原理，从中我们可以知道，KVCache

荼荼灰·2025-02-11 15:44

DeepSeek R1 简易指南：架构、本地部署和硬件要求

DeepSeek团队近期发布的DeepSeek-R1技术论文展示了其在增强大语言模型推理能力方面的创新实践。该研究突破性地采用强化学习（Reinfo

·2025-02-11 12:49

0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS

01什么是大模型推理引擎大模型推理引擎是生成式语言模型运转的发动机，是接受客户输入prompt和生成返回response的枢纽，也是拉起异构硬件，将物理电能转换为人类知识的变形金刚。

·2025-02-11 11:44

推荐频道

贝叶斯推理