rl

LLMs基础学习（七）DeepSeek专题（4）

（4）文章目录LLMs基础学习（七）DeepSeek专题（4）DeepSeek-R1训练过程的四个阶段具体流程小结“规则化奖励”具体原因小结“自我认知”（self-cognition）数据基本概念小结RL

汤姆和佩琦·2025-04-18 23:13

第九章：强化学习（RL）赋能 AI Agents：潜力、挑战与问题建模

强化学习（ReinforcementLearning,RL）正是这样一条充满希望的道路。

（initial）·2025-04-18 18:08

MuJoCo Playground 机器人强化学习入门教程（一）

系列文章目录目录系列文章目录前言一、学习RL智能体1.1使用braxPPO进行培训1.2使用RSL-RL进行训练二、欢迎来到MuJoCoPlayground！

强化学习与机器人控制仿真·2025-04-18 13:05

第九讲、Issalab中基于管理器创建RL环境

0前言官方教程：https://isaac-sim.github.io/IsaacLab/main/source/tutorials/03_envs/create_manager_rl_env.htmlIsaacsim

跳跳糖炒酸奶·2025-04-16 16:40

Video-R1: Reinforcing Video Reasoning in MLLMs

文章主要内容总结研究背景与目标本文针对多模态大语言模型（MLLMs）在视频推理任务中的不足，提出了Video-R1模型，旨在通过强化学习（RL）范式系统性提升模型的视频推理能力。

UnknownBody·2025-04-13 10:10

【AI学习】了解OpenAI o1背后的self-play RL：开启新的智能道路

在ChatGPT刚刚出来的时候，沐神关于ChatGPT有一段视频，只有几分钟，却是讲得极其透彻的一段。大概意思就是，过去的AI智能水平，比如五年前，大概相当于人类5秒钟思考的程度，包括自动驾驶，大概也就是人类5秒钟的水平，现在的ChatGPT，大概相当于专业人士一个小时的智能，比如回答一个问题、给一段描述然后绘制一幅图片等等。这里面呢，从发展来看，就是每几年我们会把一类模型的智能做到顶点，十年前，

bylander·2025-04-12 07:50

DeepSeek打破AI天花板：MoE架构+RL推理，效率提升5倍的底层逻辑

文章目录一、引言二、MoE架构：高效计算的核心支撑（一）MoE架构概述（二）DeepSeekMoE架构的创新点（三）MoE架构的代码实现示例三、RL推理：智能提升的关键驱动（一）RL推理概述（二）R1的训练流程

程序边界·2025-04-12 07:49

强化学习：从头开始看 Q-Learning + FrozenLake-v1

从头开始看Q-Learning+FrozenLake-v1RL强化学习，读书，看视频教程，都是一知半解。所以找份代码，向GPT提问，尽量把每一行代码都搞懂。不懂的地方，就是问。

waterHBO·2025-04-11 15:28

了解强化学习

#REINFORCEDSERIES(#REINFORCEDSERIES)“Reinforcementlearning(RL)isanareaofmachinelearningconcernedwithhowsoftwareagentsoughttotakeactionsinanenvironmentinordertomaximizethenotionofcumulativereward

weixin_26704853·2025-04-10 10:20

强化学习原理一

强化学习原理，ReinforcementLearning简称RL。

jcc3120·2025-04-10 09:17

AI日报 - 2025年4月2日

今日概览（60秒速览）▎AGI突破|研究揭示零RL训练可诱发模型顿悟，Anthropic发布Claude3.5内部机制研究，简化语言模型推理优化新方法提出。

訾博ZiBo·2025-04-08 12:23

大模型论文速读DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning2025.1

通过大规模强化学习（RL）训练的DeepSeek-R1-Zero具有出色的推理能力，并且自然地出现了许多强大的推理行为。然而，它也存在一些问题，如可读性差和语言混合等。

黛玛日孜·2025-04-06 22:20

解密强化学习心脏：从动态规划到Q-Learning的价值函数进化史

Q-Learning的崛起方法大比拼：DPvsMCvsTDvsQ-Learning实战演练：Q-Learning征服山地车总结与展望在人工智能的星辰大海中，强化学习（ReinforcementLearning,RL

海棠AI实验室·2025-04-06 22:49

京东购物小程序 h5st 分析

逆向分析rl="/client.action"cp=execjs.compile(open('run.js','r',encoding='utf-8').read())result=cp.call('getH5st

2766958292·2025-04-04 20:49

具身智能 - Diffusion Policy：技术解析与应用实践

与传统的强化学习（RL）或模仿学习（IL）相比，DiffusionPol

天机️灵韵·2025-04-01 22:55

RAG优化:Python从零实现强化学习RL增强

今天的主角是我们的老朋友——RAG（检索增强生成），以及它的新搭档——RL（强化学习）。这两位AI界的“单身贵族”即将在Python的舞台上展开一场精彩的“相亲”之旅。

AI仙人掌·2025-04-01 13:54

AI Agent: AI的下一个风口智能体与未来的关系

AIAgent:AI的下一个风口智能体与未来的关系关键词：智能体(Agent)、强化学习(ReinforcementLearning,RL)、神经网络(NeuralNetwork)、分布式系统(DistributedSystem

杭州大厂Java程序媛·2025-03-31 19:14

seacmsv9注入管理员账号密码+orderby+limit

seacmsv9联合注入数据functionReadrlist($ids,$page,$size){global$dsql,$type;$rl=array();$sql="SELECTid,uid,username

wxhxmj·2025-03-29 22:35

强化学习中循环神经网络在序列决策中的应用研究

I.引言强化学习（ReinforcementLearning，RL）是一种通过与环境交互学习最优策略的方法。

数字扫地僧·2025-03-28 21:39

【矩阵快速幂】B3646 数列前缀和 3|普及+

本文涉及知识点【矩阵快速幂】封装类及测试用例及样例B3646数列前缀和3题目描述给定模质数ppp域上的kkk阶非奇异矩阵列aaa，给定qqq次询问，每次给出l,rl,rl,r，求∏i=lrai\prod

软件架构师何志丹·2025-03-28 16:03

关于强化学习小记

强化学习（ReinforcementLearning,RL）详解1.什么是强化学习？

文弱_书生·2025-03-27 22:24

deepseek(1)——deepseek 整体架构

deepseek-v3，671B，通用模型，用于常见日常问题推理模型deepseek-r1,671B，推理模型，擅长处理复杂、需要多步思考的问题，适合做深度研究、解决代码/数学问题DeepSeek-R1是首个验证了仅通过RL

哦豁灬·2025-03-27 20:14

具身系列——NLP工程师切入机器人和具身智能方向

职位高频词汇：VLM调优经验、核心算法（Diffusion、RL、VIT）、pytorch、仿真环境（IsaacGym、Mujoco、webots）基于当前具身智能行业发展趋势和岗位需求，以下是为NLP

music&movie·2025-03-25 21:47

Genesis仿真环境RL训练四足配置方法

目前官方文档功能写的比较详细，基本的机器人RL也都能开始训，有一些比较炫酷的demo还没有实用的案例。先介绍一下怎么用genesis环境RL训四足，官方给了宇树go2的训练案例，需要一点环境基础。

小bai22·2025-03-25 18:26

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码机器之心2025年03月02日11:54北京选自GitHub作者：AndriyBurkov机器之心编译GRPO（GroupRelativePolicyOptimization

强化学习曾小健2·2025-03-23 11:27

强化学习中策略网络模型设计与优化技巧

I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。

数字扫地僧·2025-03-23 07:57

01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

一个超越DeepSeekGRPO的关键RL算法出现了！

·2025-03-22 22:24

LLM-Agent方法评估与效果分析

1.引言近年来，随着大型语言模型（LLM）的快速发展，基于强化学习（RL）对LLM进行微调以使其具备代理（Agent）能力成为研究热点。

·2025-03-22 18:50

强化学习中的深度卷积神经网络设计与应用实例

I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。

数字扫地僧·2025-03-22 01:40

推测未来Agentic形态：Dynamic Cognitive Contextual Agent with Reinforcement Learning (DCCA-RL)

在AIAgent设计模式领域，我们见证了从简单的ReAct到复杂的LATS的演进，这些模式通过反思、工具使用、规划和多代理协作，极大地提升了AI的自主性和智能性。然而，随着任务复杂度和动态性需求的增加，现有模式逐渐显现出局限性——多Agent协作带来的联合误差和单Agent设计的适应性不足。为此，我们基于对现有模式的全面分析，提出了一个更先进的单Agent框架：DynamicCognitiveCo

weixin_40941102·2025-03-20 21:40

人工智能（AI）系统化学习路线

❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线

xiaoyu❅·2025-03-20 00:44

AtCoder Beginner Contest 370 A-E 题解

A.RaiseBothHands题意给你L,R(0≤L,R≤1)L,R\(0\leL,R\le1)L,R(0≤L,R≤1)，分别代表举左手和右手，若只举左手输出Yes，只举右手输出No，否则输出Invalid思路若L=RL

AKDreamer_HeXY·2025-03-16 05:57

大型语言模型与强化学习的融合：迈向通用人工智能的新范式——基于基础复现的实验平台构建

强化学习（RL）作为一种通过与环境交互学习最优策略的方法，在智能体训练中发挥着重要作用。本文旨在探索LLM与RL的深度融合，分析LLM如何赋能RL，并阐述这种融合对于迈向通用人工智能（AGI）的意义。

（initial）·2025-03-15 16:17

【开源代码解读】AI检索系统R1-Searcher通过强化学习RL激励大模型LLM的搜索能力

关于R1-Searcher的报告：第一章：引言-AI检索系统的技术演进与R1-Searcher的创新定位1.1信息检索技术的范式转移在数字化时代爆发式增长的数据洪流中，信息检索系统正经历从传统关键词匹配到语义理解驱动的根本性变革。根据IDC的统计，2023年全球数据总量已突破120ZB，其中非结构化数据占比超过80%。这种数据形态的转变对检索系统提出了三个核心的挑战：语义歧义消除：如何准确理解"A

accurater·2025-03-15 11:37

Chebykan wx 文章阅读

全面基础[2]通过sigmoid函数的超层叠近似[3]多层前馈网络是通用近似器[5]注意力是你所需要的[6]深度残差学习用于图像识别[7]视觉化神经网络的损失景观[8]牙齿模具点云补全通过数据增强和混合RL-GAN

やっはろ·2025-03-13 02:44

用物理信息神经网络（PINN）解决实际优化问题：全面解析与实践

实验表明，PINN相比传统数值方法及强化学习（RL）/遗传算法（GA），在收敛速度、解的稳定性及物理保真度上均实现突破性提升。关键词：物理信息神经网络；优化任务；深度学习；强化学习；航天器轨道一、

青橘MATLAB学习·2025-03-12 14:23

怎么定义世界模型，Sora/Genie/JEPA 谁是世界模型呢？（1）

其实世界模型在ML领域不是什么新概念，远远早于Transfomer这些东西被提出来，因为它最早是强化学习RL领域的，在20世纪90年代由JuergenSchmiduber实验室给提出来的。

周博洋K·2025-03-11 23:52

RTS5765DL量产工具下载，金士顿NV2 2TB假固态硬盘抢救记，RL6577/RTS5765DL量产工具，RTS5765DL+B47R扩容开卡修复

之前因为很长时间不买固态硬盘，没注意到NVME的固态盘也有了假货和扩容盘，花200多块买了个2TB的金士顿NV2固态硬盘，我原本以为NV1的假货最多是用黑片冒充正片，结果没想到NV2居然有扩容的。后来发现是扩容盘的时候，已经过了自动收货期限了。最后只能尝试重新开卡，尽量降低损失。首先感谢一下量产部落网，兜兜转转一直找不到量产工具，最后终于从量产部落网找到了，这里分享一下我的金士顿NV22TB假固态

SM2259XT3·2025-03-09 13:56

就在刚刚！马斯克决定将“地球上最聪明的人工智能”Grok-3免费了！

Grok-3的核心优势在于其大规模强化学习（RL）优化，能够在几秒到几分钟内进行深度推理，适应复杂任务的需求。配备的D

源代码杀手·2025-03-08 12:16

阿里深夜开源QwQ-32B模型，仅需1/10的成本即可比肩R1满血版

大规模强化学习（RL）有潜力超越传统的预训练和后训练方法来提升模型性能。近期的研究表明，强化学习可以显著提高模型的推理能力。

伪_装·2025-03-07 13:45

瑞萨微控制器 R5F100FEAFP#10 适用于各种嵌入式应用提供样品测试+数据资料常备现货

瑞萨电子的R5F100FEAFP#10是一款基于RL78/G13系列的16位微控制器，适用于各种嵌入式应用。其主要参数如下：核心处理器：RL78，16位架构，最高工作频率32MHz。

li15817260414·2025-03-06 16:26

强化学习是否能够在完全不确定的环境中找到一个合理的策略，还是说它只能在已知规则下生效？

强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，广泛应用于机器人控制、自动驾驶、游戏策略和金融决策等领域。

concisedistinct·2025-03-05 12:58

PyTorch 中结合迁移学习和强化学习的完整实现方案

结合迁移学习（TransferLearning）和强化学习（ReinforcementLearning,RL）是解决复杂任务的有效方法。

小赖同学啊·2025-03-05 07:54

DeepSeek-R1：通过强化学习激励大型语言模型的推理能力

DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练而成的模型，无需监督微调（SFT）作为初步步骤，展示了卓越的推理能力。

AI专题精讲·2025-03-03 22:05

DeepSeek-R1 技术报告解读：用强化学习激发大模型的推理潜能

文章目录1.背景2.DeepSeek-R1训练流程2.1DeepSeek-R1-Zero：纯强化学习2.2DeepSeek-R1：冷启动+多阶段训练3.蒸馏小模型3.1蒸馏流程与优势3.2蒸馏vs.直接RL4

跑起来总会有风·2025-03-03 14:04

模型优化之强化学习（RL）与监督微调（SFT）的区别和联系

强化学习（RL）与监督微调（SFT）是机器学习中两种重要的模型优化方法，它们在目标、数据依赖、应用场景及实现方式上既有联系又有区别。

搏博·2025-03-02 10:08

深入详解人工智能机器学习：强化学习

目录强化学习概述强化学习的基本概念定义关键组件强化学习过程常用算法应用示例示例代码代码解释应用场景强化学习核心概念和底层原理核心概念底层原理总结强化学习概述强化学习（ReinforcementLearning,RL

猿享天开·2025-02-28 15:58

机器学习：强化学习的epsilon贪心算法

强化学习（ReinforcementLearning,RL）是一种机器学习方法，旨在通过与环境交互，使智能体（Agent）学习如何采取最优行动，以最大化某种累积奖励。

田乐蒙·2025-02-28 15:25

DeepSeek R1 简单指南：架构、训练、本地部署和硬件要求

DeepSeek推出的LLM推理新策略DeepSeek最近发表的论文DeepSeek-R1中介绍了一种创新的方法，通过强化学习（RL）提升大型语言模型（LLM）的推理能力。

爱喝白开水a·2025-02-28 07:52

微调 LLM （RLHF + DPO）

微调LLM（RLHF+DPO）使用强化学习（RL）根据人类反馈微调大语言模型（即RLHF）的方法，以及一种更有效的改进方法（即DPO）。

·2025-02-27 21:56

推荐频道

rl