强化学习（RL）第4页

《Python星球日记》第84天：Q-Learning 与 DQN

——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、强化学习基础回顾1.核心元素与术语二、Q-Learning算法详解1.Q表更新公式2.探索与利用（ExplorationvsExploitation

Code_流苏·2025-06-10 04:55

机器学习算法种类繁多以下是主要算法的详细描述、使用场景、经典案例、开源框架，以及学习和应用到实际场景的建议

机器学习算法种类繁多，根据任务类型主要分为监督学习、无监督学习、半监督学习和强化学习四大类。以下是对主要算法的详细描述、使用场景、经典案例、开源框架，以及学习和应用到实际场景的建议。

zhxup606·2025-06-09 19:21

【深度学习】自编码器：数据压缩与特征学习的神经网络引擎

之前的文章参考下面的链接：【深度学习】线性因子模型：数据降维与结构解析的数学透镜【学习笔记】强化学习：实用方法论【学习笔记】序列建模：递归神经网络（RN

瑶光守护者·2025-06-09 17:41

JAVA资料，C#资料，人工智能资料，Python资料】全网最全编程学习文档合集

Java高级特性与框架Java项目实践与开发工具C#编程学习资源C#入门与基础面向对象编程（OOP）在C#中的应用C#开发中的常见库与框架C#项目开发与实践人工智能编程学习资源人工智能基础机器学习与深度学习强化学习与自然语言处理

wangjinjin180·2025-06-09 14:17

QwenLong-L1横空出世：强化学习让大模型“长记性”，长文档推理新王者？

各位AI圈的老铁们，今天咱们来聊点硬核又不失风趣的话题——长上下文推理大模型的新晋王者：QwenLong-L1。别急着划走，这不是广告，而是一次技术圈的“吃瓜”现场，瓜保熟，技术干货管够！一、长上下文推理？你以为是“大力出奇迹”？在AI大模型的江湖里，“上下文长度”一直是个绕不开的坎。你让ChatGPT、Claude、Qwen这帮大佬们聊个千八百字的短文，那是小菜一碟。但真要让它们啃下几万字的财报

许泽宇的技术分享·2025-06-09 14:47

强化学习+卡尔曼滤波上大分

2024深度学习发论文&模型涨点之——强化学习+卡尔曼滤波强化学习与卡尔曼滤波的结合在提高导航精度、适应复杂环境以及优化资源利用方面显示出明显优势，并且已经在多个领域中得到应用和验证。

Ai多利·2025-06-09 12:30

强化学习之父告警：数据枯竭！AI狂飙突进“经验革命”新时代

1喧嚣背后的技术拐点2024年的AI竞技场硝烟弥漫。某顶尖实验室的千亿级文本模型刷新三榜战绩，某硅谷巨头的多模态系统实现单图生成3D场景，人形机器人公司估值半年暴涨600%。技术热榜的常驻话题已从"参数量"转向"推理能力"，具身智能成为资本押注的新赛道。1.1繁荣幕布下的致命裂缝行业权威在智源大会现场展示了一组震颤人心的数据：全球高质量文本训练库更新速度骤降87%，图像数据重复利用率突破92%。当

TGITCIC·2025-06-09 09:40

深度强化学习实战：玩转 Atari 游戏

在人工智能技术蓬勃发展的当下，深度强化学习凭借其在复杂决策场景中的出色表现，成为众多研究人员和开发者关注的焦点。

谷雪_658·2025-06-09 06:49

【大模型】【DeepSeek】DeepSeek-R1：Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1：通过强化学习激励大语言模型的推理能力0.论文摘要我们推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。

量子-Alex·2025-06-08 18:51

强化学习基础概念图文版笔记

强化学习基础概念图文版笔记1️⃣基本框架：Agent与Environment核心角色：Agent（智能体）：做出决策的“大脑”，根据当前状态选择动作。

要努力啊啊啊·2025-06-08 15:29

HARDTESTS: Synthesizing High-Quality Test Cases for LLM Coding

实验表明，高质量测试用例对强化学习和自蒸馏等LLM后期训练过程

UnknownBody·2025-06-08 13:20

强化学习从基础到进阶-常见问题和面试必知必答[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

1.强化学习核心概念强化学习（reinforcementlearning，RL）：智能体可以在与复杂且不确定的环境进行交互时，尝试使所获得的奖励最大化的算法。

小城哇哇·2025-06-08 07:03

论文速读|RP1M：用于双手灵巧机械手弹奏钢琴的大规模运动数据集

这些专家轨迹是通过为每首歌曲训练一个强化学习（RL）代理，并使用不同的随机种

·2025-06-08 02:30

【推荐算法】推荐算法演进史：从协同过滤到深度强化学习

白熊188·2025-06-08 00:17

对 `llamafactory-cli api -h` 输出的详细解读

llamafactory-cli是LlamaFactory项目提供的命令行接口工具，它允许用户通过命令行参数来配置和运行大型语言模型的各种任务，如预训练（PT）、有监督微调（SFT）、奖励模型训练（RM）、基于人类反馈的强化学习

路人与大师·2025-06-07 13:36

【AI论文】超越80/20规则：高熵少数令牌驱动LLM推理的有效强化学习

摘要：具有可验证奖励的强化学习（RLVR）已经成为一种增强大型语言模型（LLM）推理能力的强大方法，但其机制尚未得到很好的理解。

东临碣石82·2025-06-06 22:49

深度强化学习赋能城市消防优化，中国科学院团队提出 DRL 新方法破解设施配置难题

近日，在中国地理学会地理模型与地理信息分析专业委员会2025年学术年会上，来自中国科学院空天信息创新研究院的梁浩健博士在「地理空间优化」这一专题下，以「基于分层深度强化学习的城市应急消防设施配置优化方法研究

·2025-06-06 21:00

【速写】TRL：Trainer的细节与思考（PPO/DPO+LoRA可行性）

另一个问题就是奖励函数的设置，这个是RL从诞生以来一直存在的一个老大难问题。现在有很多方案，但是我始终觉得

囚生CY·2025-06-06 07:08

AI赋能智能制造

以下是AI在智能制造中的关键应用与价值分析：一、AI驱动智能制造的核心场景智能设计与仿真优化生成式设计：基于AI算法（如GAN、强化学习）自动生成产品设计方案，满足性能、材料、成本等多目标优化。

程序猿学长·2025-06-05 04:32

DeepSeek引爆AI工业应用之AI赋能AMHS

关键系统解析及AI赋能本文深入探讨了中国半导体工厂中AMHS（自动物料搬运系统）的关键技术架构，包括MCS/TCS/VCS控制系统、OHT小车、无线供电轨道等核心模块，并详细阐述了如何利用人工智能（如强化学习

爱吃青菜的大力水手·2025-06-05 04:01

【论文阅读】VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

VideoChat-R1:EnhancingSpatio-TemporalPerceptionviaReinforcementFine-Tuning原文摘要研究现状：强化学习有关方法在视频理解任务中的应用仍未被充分探索

s1ckrain·2025-06-04 17:41

大语言模型(LLM)入门 - (20) 人类反馈强化学习

文章来自：大语言模型(LLM)小白入门自学项目-TiaoYu-1GitHub-tiaoyu1122/TiaoYu-1:ForPeople!ForFreedom!ForPeople!ForFreedom!Contributetotiaoyu1122/TiaoYu-1developmentbycreatinganaccountonGitHub.https://github.com/tiaoyu1122

小鸡吃石子·2025-06-03 18:47

强化学习-深度学习和强化学习领域

在深度学习和强化学习领域，SFT（SupervisedFine-Tuning）和GRPO（可能指Gradient-basedPolicyOptimization或ReinforcementLearningwithPolicyOptimization

高效匠人·2025-06-03 04:38

DexArt Benchmarking Generalizable Dexterous Manipulation with Articulated Objects

文章目录概述概述accepted：CVPR2023项目主页文章解读参考： RL的工作，很清晰的idea，后续可以读代码项目仓库

好气呀·2025-06-03 02:23

谈一谈我对强化学习的理解

1.Q_learning算法Q_learning算法是最基础强化学习算法，适用于离散状态和动作Q_laerning算法的本质是维护一张Q_table表，通过不断迭代，修正Q（s，a)，然后根据s,推荐s

算法小菜鸟成长心得·2025-06-02 15:30

强化学习的前世今生（四）— DDPG算法

接前三篇强化学习的前世今生（一）强化学习的前世今生（二）强化学习的前世今生（三）—PPO算法本文为大家介绍DDPG算法6DDPG前文所述方法存在两个问题，第一，因为得到的是随机性策略(StochasticPolicy

小于小于大橙子·2025-06-01 17:50

强化学习Reinforcement Learning与逆强化学习：理论与实践

强化学习，逆强化学习，强化学习算法，逆强化学习算法，深度强化学习，应用场景1.背景介绍在人工智能领域，强化学习(ReinforcementLearning,RL)作为一种模仿人类学习的智能算法，近年来取得了显著进展

AGI大模型与大数据研究院·2025-06-01 16:16

强化学习的前世今生（五）— SAC算法

书接前四篇强化学习的前世今生（一）强化学习的前世今生（二）强化学习的前世今生（三）—PPO算法强化学习的前世今生（四）—DDPG算法本文为大家介绍SAC算法7SAC7.1最大熵强化学习在信息论中，熵(entropy

小于小于大橙子·2025-06-01 16:46

[智能算法]蚁群算法原理与TSP问题示例

Python实现与可视化3.1算法核心类设计3.2参数敏感性实验3.3可视化分析四、关键参数调优指南4.1基准参数范围4.2动态调参策略4.3性能优化技巧五、扩展应用与前沿方向5.1多目标优化问题5.2深度强化学习融合

七刀·2025-06-01 00:23

注意力机制：通道注意力机制、空间注意力机制、CBAM（附有完整代码)

在深度学习中，注意力机制被广泛应用于各种任务，如自然语言处理、计算机视觉和强化学习等领域。注意力机制的核心

一个来路不明的吃货·2025-05-31 20:24

【自然语言处理与大模型】大模型（LLM）基础知识⑤

技术层面：技术手段描述强化学习与指令微调通过强化学习（如RLHF）或指令微调，让模型更倾向于生成合规、

小oo呆·2025-05-31 01:42

中科院提出ConRFT：让机器人灵活穿针，强化学习微调！

从技术角度分析，传统强化学习在VLA模型中的应用也面临困境。尽管强化学习在

xwz小王子·2025-05-30 21:39

Med-R1论文阅读理解-1

本文提出了一种名为Med-R1的新框架，旨在通过强化学习（ReinforcementLearning,RL）提升视觉-语言模型（Vision-LanguageModels,VLMs）在医疗领域的推理能力与泛化能

要努力啊啊啊·2025-05-30 10:19

英伟达：LLM多任务和语言的偏好数据集

Preference:OpenHuman-AnnotatedPreferenceDataacrossDiverseTasksandLanguages来源：arXiv,2505.11475摘要偏好数据集对于使用人类反馈强化学习

大模型任我行·2025-05-30 08:06

亚远景-AI 快速入门与ML-SPICE标准引入课程

课程内容：模块1：AI战略与基础1.AI驱动的商业价值机器学习在汽车/制造行业的核心应用场景企业AI转型的3大关键成功要素2.ML机器学习基础核心概念：监督学习/无监督学习/强化学习模型架构概览：CNN

亚远景aspice·2025-05-30 02:47

REINFORCE蒙特卡罗策略梯度算法详解：python从零实现

以下是翻译后的Markdown文档：引言强化学习（ReinforcementLearning,RL）的目标是训练智能体（agent

AI仙人掌·2025-05-29 17:40

[特殊字符] 基于深度强化学习的机器人路径规划优化方案：从理论到实战

摘要本文提出一种融合深度确定性策略梯度（DDPG）与图卷积网络（GCN）的混合架构，针对高动态环境下移动机器人路径规划问题展开研究。通过自研仿真平台验证，该方案在动态障碍物规避、路径平滑度等维度较传统A*算法提升显著，同时兼顾实时性要求。完整代码与训练日志已开源至GitHub，诚邀技术同仁共同探讨。一、核心痛点分析1.1传统算法局限性算法类型优势劣势Dijkstra理论最优性计算复杂度O(V²)，

2506_92092175·2025-05-29 13:49

强化学习实战：训练AI玩转OpenAI Gym

强化学习实战：训练AI玩转OpenAIGym系统化学习人工智能网站（收藏）：https://www.captainbed.cn/flu文章目录强化学习实战：训练AI玩转OpenAIGym摘要引言强化学习基础与算法分类

layneyao·2025-05-29 08:18

Gemini 前世今生全面的信息介绍

DeepMind在人工智能领域拥有深厚的积累，尤其是在强化学习和大型语言模型方面。G

视频砖家·2025-05-28 02:00

动手学强化学习第 11 章 TRPO 算法(TRPOContinuous) 训练代码

基于Hands-on-RL/第11章-TRPO算法.ipynbatmain·boyu-ai/Hands-on-RL·GitHub理论TRPO算法修改了警告和报错运行环境DebianGNU/Linux12Python3.9.19torch2.0.1gym0.26.2

zhqh100·2025-05-27 22:30

IPPO算法

目录文章目录目录简介问题建模多智能体强化学习的基本求解范式IPPO算法IPPO代码实践总结参考资料简介之前介绍的算法都是单智能体强化学习算法，其基本假设是动态环境是稳态的(stationary)，即状态转移概率和奖励函数不变

后厂村路小狗蛋·2025-05-26 20:25

Missashe考研日记—Day44-Day50

Missashe考研日记—Day44-Day50写在面前本系列博客用于记录博主一周的学习进度，具体知识总结在目前已有的笔记中：1.高数强化学习笔记2.计网复习笔记3.新增：线代题型总结专业课408这周先是把计网第三章数据链路层剩下的局域网以及之后的内容学完了

LVerrrr·2025-05-26 17:40

AI人工智能与自动驾驶的融合创新实践

AI人工智能与自动驾驶的融合创新实践关键词：人工智能、自动驾驶、深度学习、计算机视觉、传感器融合、路径规划、强化学习摘要：本文深入探讨了人工智能技术在自动驾驶领域的创新应用与实践。

AI智能探索者·2025-05-26 11:34

强化学习推动 AI 智能物流路径规划的智能化转型

强化学习推动AI智能物流路径规划的智能化转型关键词：强化学习、智能物流、路径规划、Q-learning、深度强化学习、动态优化、仓储自动化摘要：本文探讨了强化学习技术在智能物流路径规划中的应用与创新。

AIGC应用创新大全·2025-05-26 04:54

DeepSeek本地私有部署（基于Ollama）

DeepSeek在短短一年多的时间里取得了显著的进展，推出了多个引人注目的开源模型，包括DeepSeekCoder、DeepSeekLLM、DeepSeek-V2、DeepSeek-V3、DeepSeek-Rl

奶羊cnk·2025-05-26 04:21

聚焦AI人工智能在自动驾驶的关键技术点

聚焦AI人工智能在自动驾驶的关键技术点关键词：自动驾驶、人工智能、感知算法、决策规划、深度学习、强化学习、多模态融合摘要：本文系统解析人工智能在自动驾驶中的核心技术体系，深度剖析环境感知、决策规划、控制执行三大核心模块的关键技术点

AI天才研究院·2025-05-25 15:53

强化学习的前世今生（二）

接上篇强化学习的前世今生（一），本文主要介绍强化学习中的蒙特卡洛算法，TD算法，策略梯度算法以及Actor-Critic算法2蒙特卡洛和TD2.1蒙特卡洛方法在强化学习中，蒙特卡洛(MonteCarl0

小于小于大橙子·2025-05-25 14:50

使用MATLAB和Simulink进行基于强化学习的双足机器人步态控制仿真

目录一、准备工作二、步骤详解1.启动Simulink并创建新模型2.构建双足机器人简化模型3.设计强化学习环境强化学习环境概述4.实现强化学习控制器5.训练强化学习代理6.增加示波器观察输出7.配置仿真参数

xiaoheshang_123·2025-05-25 14:47

秒懂基于人类反馈的强化学习（RLHF）

一、RLHF：AI界的"职场新人培训手册"想象一下，你刚入职一家公司，老板甩给你一堆文件说：“看懂了就能上岗”。这就是传统语言模型的日常——靠海量文本自学成才。结果呢？它可能把"写封面试邀请邮件"理解成列待办清单，把"5+5等于多少"回答成"建议买计算器"。这时候，RLHF就像HR部门推出的《职场生存指南》，手把手教AI理解人类社会的潜规则。它用三步魔法让AI从"代码社畜"进阶为"职场达人"：二、

来自于狂人·2025-05-25 09:18

AI“高情商”奥秘，LLM多轮情感对话新突破！

❝一句话概括，论文教你如何把ChatGPT调教成PUA大师：用强化学习给安慰话术标价，让每个’多喝热水’都经过长期回报精算第一阶段：识别核心概念论文的motivation分析情感支持对话（EmotionalSupportConversation

Python_金钱豹·2025-05-25 06:23

推荐频道

强化学习（RL）

《Python星球日记》 第84天：Q-Learning 与 DQN