Hung-yi强化学习第24页

强化学习（一）- 强化学习基础

定义强化学习（ReinforcementLearning，RL）是智能体（Agent）为了最大化长期回报（Return）的期望，通过观察系统环境，不断试错（Trial-and-Error）进行学习的过程

bymaymay·2023-10-04 22:55

强化学习 Q-learning 实战GYM下的CliffWalking爬悬崖游戏

CliffWalking如下图所示，S是起点，C是障碍，G是目标agent从S开始走，目标是找到到G的最短路径这里reward可以建模成-1，最终目标是让return最大，也就是路径最短代码和解释importgymimporttimeimportnumpyasnpclassQLearningAgent(object):def__init__(self,obs_n,act_n,learning_ra

Xurui_Luo·2023-10-04 22:55

解释强化学习中model-based和model-free,online和off line，on policy 和 off policy的关系与区别

解释强化学习中model-based和model-free,online和offline，onpolicy和offpolicy的关系与区别在强化学习中，有四个重要的概念，它们描述了不同的学习方法和策略评估方式

喝凉白开都长肉的大胖子·2023-10-04 22:52

强化学习环境 - robogym - 学习 - 2

强化学习环境-robogym-学习-2文章目录强化学习环境-robogym-学习-2项目地址为什么选择robogymRearrange-环境部分介绍RobotControlInterface-机器人控制接口

Ctrl+Alt+L·2023-10-04 22:22

强化学习环境 - robogym - 学习 - 1

强化学习环境-robogym-学习-1项目地址https://github.com/openai/robogym为什么选择robogym自己的项目需要做一些机械臂table-top级的多任务操作robogym

Ctrl+Alt+L·2023-10-04 22:21

大模型RLHF算法更新换代，DeepMind提出自训练离线强化学习框架ReST

这些技术造就了像GPT-3、PaLM等基座生成模型，在这些基座模型之上，研究人员通过引入人类反馈的强化学习算法（RLHF）开发出了例如ChatGPT这些与人类偏好保持一致的可聊天模型

TechBeat人工智能社区·2023-10-04 13:48

Ray和RLlib用于快速并行强化学习

作者|ChristianHubbs编译|VK来源|TowardsDataScienceRay不仅仅是一个用于多处理的库，Ray的真正力量来自于RLlib和Tune库，它们利用了强化学习的这种能力。

磐创 AI·2023-10-04 06:41

DRL深度强化学习代码实战1——MountainCar-v0小车成功登顶

如果你是刚刚接触DRL的同学，那么本文的内容就是引你入胜的第一个小实验。DRL的学习离不开理论知识，但更不能缺少实践！废话不多说我们直接开始。0、实验环境和包版本①PyCharm2022Pro②gym0.25.2③python3.8.16④numpy1.23.51、初步了解Gym关于gym（以及其他的库/包），了解它的最好方法我认为是直接看官方文档，因为官方的文档和说明永远是最权威最前沿的，你看再

在屏幕前出油·2023-10-04 03:06

【强化学习】04 ——动态规划算法

文章目录1.简介2.策略迭代算法2.1策略评估Example12.2策略提升2.3策略迭代算法Example2:Jack'sCarRental3.价值迭代算法Example14.价值迭代VS.策略迭代总结DP扩展代码悬崖漫步（CliffWalking）冰湖（FrozenLake）参考1.简介动态规划（DynamicProgramming）是程序设计算法中非常重要的内容，能够高效解决一些经典问题，例

yuan〇·2023-10-04 01:55

【强化学习】05 —— 基于无模型的强化学习（Prediction）

文章目录简介蒙特卡洛算法时序差分方法Example1MC和TD的对比偏差（Bias）/方差（Variance）的权衡Example2RandomWalkExample3AB反向传播(backup)Monte-CarloBackupTemporal-DifferenceBackupDynamicProgrammingBackupBootstrappingandSampling多步时序查分学习Exam

yuan〇·2023-10-04 01:22

大模型微调概览

文章目录微调和高效微调高效微调技术方法概述高效微调方法一：LoRA高效微调方法二:PrefixTuning高效微调方法三:PromptTuning高效微调方法四:P-Tuningv2基于强化学习的进阶微调方法

伊织code·2023-10-03 22:29

自信需要自我经验建构和观察学习

—《表现力：快速影响他人、成就自己的艺术》罗布•萨拉菲亚一个人的自信一方面是自己本身所带有的一种状态，另一方面是需要后天的一种建构与强化学习。

幸好我们曾遇见·2023-10-03 16:23

新兴技术成熟度曲线

通用人工智能/神经形态硬件/深度强化学习/量子计算/脑机接口等技术仍处在上升阶段。情感计算/自然语言问答/智能数字挖掘/虚拟个人助理等已经脱离曲线，走向成熟。

360linker·2023-10-03 14:53

整理了197个经典SOTA模型，涵盖图像分类、目标检测、推荐系统等13个方向

今天来帮大家回顾一下计算机视觉、自然语言处理等热门研究领域的197个经典SOTA模型，涵盖了图像分类、图像生成、文本分类、强化学习、目标检测、推荐系统、语音识别等13个细分方向。

深度之眼·2023-10-03 07:30

turingbooks·2023-10-03 04:12

Transformer在小目标检测上的应用

本篇文章是博主在AI、无人机、强化学习等领域学习时，用于个人学习、研究或者欣赏使用，并基于博主对人工智能等领域的一些理解而记录的学习摘录和笔记，若有不当和侵权之处，指出后将会立即改正，还望谅解。

不去幼儿园·2023-10-02 21:05

基于强化学习的节能路由（Matlab代码实现）

欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码及文章1概述无线传感器设备是物联网（IoT）的支柱，使现实世界的物体和人类能够连接到互联网并相互交互，以改善公民的生活条件。然而，物联网设备受到内存和功率限制，不允许高计算应用，而路由任务是使对象成为物联网网络的一部分的原因

长安程序猿·2023-10-02 03:38

文科学习vs现实学习

文科学习vs现实学习一千年前的样貌语言中的发音学习虽然能够通过笔记来强化学习，但是有些事物肯定是没有办法靠文章写作来的，需要直接的多注意多练习，比如你要唱歌，跳舞，画画这些都是不能够全然地依靠文本来思考的

不做学霸很久了·2023-10-02 01:51

【ChatGPT】ChatGPT发展历史

.hello，我是小索奇，在AI日益庞大的环境下，接下来将为大家不断的ChatGPT学习ChatGPT使用了Transformer结构，建立在OpenAI的GPT-3.5大型语言模型系列上并使用监督和强化学习技术进行微调

即兴小索奇·2023-10-01 03:40

强化学习模型易受成员推理攻击的研究及编程实现

近期的研究表明，强化学习模型在面对成员推理攻击时容易受到影响。成员推理攻击是指恶意用户通过观察模型的输出和环境反馈来推断模型的内部信息，从而构造针对模型的攻击策略。

程序设计创梦引领者·2023-09-30 21:15

LLMs: 强化学习从人类反馈中学习Reinforcement learning from human feedback (RLHF)

让我们考虑一下文本摘要的任务，即使用模型生成一段简短的文本，捕捉较长的文章中最重要的观点。您的目标是通过向模型展示人工生成的摘要示例，使用微调来提高模型的总结能力。2020年，OpenAI的研究人员发表了一篇论文，探讨了使用人工反馈进行微调来训练模型撰写文本文章的简短摘要。在这里，你可以看到，与预训练模型、指令微调模型甚至参考人类基线相比，根据人类反馈进行微调的模型产生的响应效果更好。一种使用人类

AI架构师易筋·2023-09-30 19:27

【强化学习】基础概念

1.Agent(智能体)智能体是进行决策和学习的实体，它能感知环境的状态，并基于策略采取动作以影响环境。智能体的目标是通过与环境的交互获得最大化的累积奖励。2.Environment(环境)环境是智能体所处的外部系统，它与智能体交互。环境的状态可能对智能体可见（如游戏中的棋盘状态），也可能对智能体不可见（如对手的策略）。例如：在无人驾驶中智能体是无人驾驶系统，环境则是汽车本身、其他的汽车及建筑等。

如果皮卡会coding·2023-09-30 18:48

机器学习笔记 - 基于强化学习的贪吃蛇玩游戏

一、关于深度强化学习如果不了解深度强化学习的一般流程的可以考虑看一下下面的链接。因为这里的示例因为在PyTorch之上实现深度强化学习算法。

坐望云起·2023-09-30 13:03

深度强化学习：如何在AI工程实践中选择合适的算法？

关注公众号，发现CV技术之美在使用深度强化学习（DeepReinforcementLearning，DRL）算法解决实际问题的过程中，明确任务需求并初步完成问题定义后，就可以为相关任务选择合适的DRL算法了

我爱计算机视觉·2023-09-30 08:07

启发式算法与机器学习的区别_使用强化学习训练受启发的四足机器人

启发式算法与机器学习的区别It’sbeenawhilesinceI’vestartedexploringReinforcementLearningandOpenAIGym,inspiredbytheamazingBostonDynamicsSpot.I’vespentlastyearstudyingthefoundationsofMachineLearningandhowitisappliedto

weixin_26715991·2023-09-30 05:17

强化学习到底是什么？它是怎么运维的

https://mp.weixin.qq.com/s/LL3HfU2iNlmSqaTX_3J7fQ强化学习是一种行为学习模型，由算法提供数据分析反馈，引导用户逐步获取最佳结果。

喝凉白开都长肉的大胖子·2023-09-30 05:45

优化｜深度学习或强化学习在组合优化方面有哪些应用？

来源：图灵人工智能前言深度强化学习求解组合优化问题近年来受到广泛关注，是由于其结合了强化学习(Reinforcementlearning)强大的决策(decision-making)能力和深度学习(deeplearning

人工智能学家·2023-09-30 05:44

在优化问题里，强化学习相比启发式算法有什么好处？

关于强化学习和传统优化算法（包括：数学优化，启发式，元启发式）的探讨越来越多了，很多同学可能是一上来就集中在一个方向和方法上，并没有在全局的视角去审视这几类方法的不同。

喝凉白开都长肉的大胖子·2023-09-30 05:13

如何用深度强化学习自动炒股

痛定思痛，俺决定换一个思路：如何用深度强化学习来自动模拟炒股？实验验证一下能否获得收益。监督学习与强化学习的区别监督

北纬32.6·2023-09-30 05:22

百度正式发布PaddlePaddle深度强化学习框架PARL

去年，斯坦福大学神经生物实验室与EPFL联合举办了一场强化学习赛事——人工智能假肢挑战赛（AIforProstheticsChallenge），希望将强化学习应用到人体腿部骨骼仿真模拟模型的训练。

PaddleWeekly·2023-09-29 20:02

KDD 2020捷报 | 第四范式斩获KDD Cup全球冠军 AutoML挑战赛圆满落幕

在此次会议中，第四范式捷报连连：首先，第四范式与北京航空航天大学童咏昕教授研究组组成的联合团队在千余支队伍中脱颖而出，获得KDDCup2020强化学习挑战赛（RLTrack）世界冠军；其次，由第四范式主办

weixin_43798812·2023-09-29 15:38

智能机器学习：人工智能的下一个巨大飞跃

文章目录第1节：智能机器学习的背景1.1传统机器学习1.2人工智能第2节：智能机器学习的定义2.1智能机器学习的原理2.1.1自主学习2.1.2强化学习2.1.3自适应性2.2智能机器学习的关键技术2.2.1

IT·陈寒·2023-09-29 08:31

景联文数据标注：ChatGPT成功的秘密——人类反馈强化学习(RLHF)

ChatGPT的成功很大程度上归功于其采用的新的训练范式——人类反馈强化学习（RLHF）。

景联文科技·2023-09-29 02:47

【《伤寒论》强化学习训练】打卡第22天，一期目标90天

【10.20】太阴病，渴欲饮水，饮水即吐者，此为水在膈上，宜半夏茯苓汤。半夏茯苓汤方半夏一升茯苓四两泽泻二两干姜一两右四味，以水四升，煮取三升，去滓，分温再服，小便利，则愈。【10.21】太阴病，下利，口渴，脉虚而微数者，此津液伤也，宜人参白术芍药甘草汤。人参白术芍药甘草汤方人参三两白术三两芍药三两甘草二两（炙）右四味，以水五升，煮取三升，去滓，温服一升，日三服。太阴病，下利，口渴，脉虚而微数者，

最闪亮的那颗星_b02d·2023-09-29 00:55

一、机器学习基础知识：基本概念与Python开发环境

文章目录1、机器学习的不同类型1.1监督学习1.2无监督学习1.3强化学习2、Python开发环境2.1Python第三方库2.2Anaconda+Pycharm集成开发环境1、机器学习的不同类型机器学习属于人工智能的一个分支

七层楼的疯子·2023-09-28 19:52

喝凉白开都长肉的大胖子·2023-09-28 16:45

深度强化学习（三）马尔科夫决策过程

文章目录马尔可夫过程MP马尔科夫链MC状态转移概率矩阵n步转移概率马尔科夫链马尔科夫奖励过程MRP奖励机制计算价值概念定义计算价值推导贝尔曼方程贝尔曼方程实际应用参考文章：https://blog.csdn.net/taka_is_beauty/article/details/88356375序贯决策问题是针对随机动态系统的不确定性按照时间顺序给出最优策略。马尔科夫决策过程是解决序贯决策问题的经典

@@老胡·2023-09-28 12:50

深度强化学习（二）统计、概率与随机过程普及

文章目录随机过程集合概率随机实验与随机事件条件概率和独立事件随机变量期望和方差概率分布大数定律随机过程平稳分布随机过程集合概率随机实验与随机事件条件概率和独立事件随机变量期望和方差概率分布大数定律弱大数定律说明，当n趋向于无穷时，独立同分布的随机变量的期望接近于它的平均值伯努利大数定律描述了实验次数很大时，事件频率很大接近于事件的概率随机过程平稳分布

@@老胡·2023-09-28 12:19

深度强化学习（一）常识性普及

文章目录机器学习、强化学习、深度学习的侧重点强化学习的简介强化学习的主要特征强化学习和机器学习的关系强化学习的发展历史深度强化学习一些参考的资料：蘑菇书：https://datawhalechina.github.io

@@老胡·2023-09-28 12:49

【伤寒强化学习训练】打卡第五十九天一期90天

6.2.1真武汤概述一，预防中暑，觉得头昏、冒冷汗、想吐、发烧先吃一点生脉散；1）竹叶石膏汤：寸口脉弱，口渴，汗出，当中暑人很虚的时候，用竹叶石膏汤；2）白虎加人参汤：恶寒，有出汗，有发烧，就用到白虎加人参汤；3）六一散：滑石跟甘草两味药做成的科学中药；用一些清热的药把身体受到的热气带走，六一散用滑石，经方里面用石膏；白虎加人参汤的症状跟竹叶石膏汤不同之处多了一点怕冷的感觉；人中暑气就会虚，治中暑

A卐炏澬焚·2023-09-28 01:15

美国OpenAI公司开发的机器学习系统-Hide and Seek（捉迷藏）游戏系统课程报告

目录1.实验目的2.OpenAI基本工作原理2.1强化学习的基本原理2.2OpenAI捉迷藏系统的工作原理2.2.1OpenAI捉迷藏系统简介2.2.2OpenAI研究捉迷藏系统的动机2.2.3OpenAI

小邓在森林·2023-09-27 13:16

强化学习理论基础（MDP、值函数与贝尔曼公式以及表格式Agent）

强化学习理论基础（MDP、值函数与贝尔曼公式以及表格式Agent）前言一、MDP策略与环境模型二、值函数与贝尔曼公式1.值函数2.贝尔曼公式三、表格式Agent1.概念介绍2.代码实现总结前言强化学习是智能体

tzr0725·2023-09-27 09:32

深度强化学习——概念及算法总结

异次元的鱼·2023-09-27 06:42

机器学习笔记 - Deep Q-Learning算法概览

一、Q-Learning强化学习大致可以分为两类：无模型强化学习算法和基于模型的强化学习算法。无模型强化学习算法不会学习环境转换函数的模型来预测未来状态和奖励。

坐望云起·2023-09-27 06:30

基于深度强化学习算法的无人机智能规避决策

“人工智能技术与咨询”发布摘要为提升无人机在复杂空战场景中的存活率,基于公开无人机空战博弈仿真平台,使用强化学习方法生成机动策略,以深度双Q网络(doubledeepQ-network,DDQN)和深度确定性策略梯度

龙腾亚太·2023-09-27 04:23

【强化学习】03 ——马尔可夫决策过程

文章目录1.马尔科夫决策过程(MarkovDecisionProcess，MDP)1.1.马尔科夫性质1.2.状态转移矩阵1.3.马尔可夫过程1.3.1.一个简单的例子2.马尔可夫奖励过程2.1.回报2.2.价值函数3.马尔科夫决策过程3.1.MDP五元组3.2.策略3.3.价值函数3.3.1.状态价值函数3.3.2.动作价值函数3.4.贝尔曼期望方程3.5.最优策略3.5.1.贝尔曼最优方程3.

yuan〇·2023-09-27 01:52

基于深度强化学习的柔性作业车间动态调度（有代码）

代码重大孙爱红的知乎账号论文链接文献来源：InternationalJournalofProductionResearch（2022）南洋理工大学（IJPR/2022）Fullarticle:Deepreinforcementlearningfordynamicschedulingofaflexiblejobshop(tandfonline.com)1摘要在追求敏捷和灵活的生产调度方面，处理不可预

喝凉白开都长肉的大胖子·2023-09-26 23:09

基于深度强化学习算法的无人机智能规避决策

源自：系统工程与电子技术作者：吴冯国陶伟李辉张建伟郑成辰.摘要为提升无人机在复杂空战场景中的存活率,基于公开无人机空战博弈仿真平台,使用强化学习方法生成机动策略,以深度双Q网络(doubledeepQ-network

renhongxia1·2023-09-26 19:31

深度学习技巧应用28-强化学习的原理介绍与运用技巧实践

大家好，我是微学AI，今天给大家介绍一下深度学习技巧应用28-强化学习的原理介绍与运用技巧实践，强化学习是一种机器学习的子领域，它使得一个智能体在与环境的交互中学习如何行动以最大化某种数值奖励信号。

微学AI·2023-09-26 10:28

2022-01-05

做好每日丰盛和集中学习，开展外出学习和暑期培训，不断经历能力提高和思想升华，逐步进入深化提升重要阶段，全体学员始终牢记全面提升党性修养，全面提升境界格局，全面提升创新能力，全面提升协作精神，全面提升责任担当的要求，强化学习

龢光同塵·2023-09-26 00:59

推荐频道

Hung-yi强化学习

强化学习（一）- 强化学习基础

强化学习 Q-learning 实战GYM下的CliffWalking爬悬崖游戏

解释强化学习中model-based和model-free,online和off line，on policy 和 off policy的关系与区别

强化学习环境 - robogym - 学习 - 2

强化学习环境 - robogym - 学习 - 1

大模型RLHF算法更新换代，DeepMind提出自训练离线强化学习框架ReST

Ray和RLlib用于快速并行强化学习

DRL深度强化学习代码实战1——MountainCar-v0小车成功登顶

【强化学习】04 ——动态规划算法

【强化学习】05 —— 基于无模型的强化学习（Prediction）

大模型微调概览

自信需要自我经验建构和观察学习

新兴技术成熟度曲线

整理了197个经典SOTA模型，涵盖图像分类、目标检测、推荐系统等13个方向

图灵9本新书上市！

Transformer在小目标检测上的应用

基于强化学习的节能路由（Matlab代码实现）

文科学习vs现实学习

【ChatGPT】ChatGPT发展历史

强化学习模型易受成员推理攻击的研究及编程实现

LLMs: 强化学习从人类反馈中学习Reinforcement learning from human feedback (RLHF)

【强化学习】基础概念

机器学习笔记 - 基于强化学习的贪吃蛇玩游戏

深度强化学习：如何在AI工程实践中选择合适的算法？

启发式算法与机器学习的区别_使用强化学习训练受启发的四足机器人

强化学习到底是什么？它是怎么运维的

优化｜深度学习或强化学习在组合优化方面有哪些应用？

在优化问题里，强化学习相比启发式算法有什么好处？

如何用深度强化学习自动炒股

百度正式发布PaddlePaddle深度强化学习框架PARL

KDD 2020捷报 | 第四范式斩获KDD Cup全球冠军 AutoML挑战赛圆满落幕

智能机器学习：人工智能的下一个巨大飞跃

景联文数据标注：ChatGPT成功的秘密——人类反馈强化学习(RLHF)

【《伤寒论》强化学习训练】打卡第22天，一期目标90天

一、机器学习基础知识：基本概念与Python开发环境

强化学习相关论文及复现代码

深度强化学习（三）马尔科夫决策过程

深度强化学习（二）统计、概率与随机过程普及

深度强化学习（一）常识性普及

【伤寒强化学习训练】打卡第五十九天 一期90天

美国OpenAI公司开发的机器学习系统-Hide and Seek（捉迷藏）游戏系统课程报告

强化学习理论基础（MDP、值函数与贝尔曼公式以及表格式Agent）

深度强化学习——概念及算法总结

机器学习笔记 - Deep Q-Learning算法概览

基于深度强化学习算法的无人机智能规避决策

【强化学习】03 ——马尔可夫决策过程

基于深度强化学习的柔性作业车间动态调度（有代码）

基于深度强化学习算法的无人机智能规避决策

深度学习技巧应用28-强化学习的原理介绍与运用技巧实践

2022-01-05

【伤寒强化学习训练】打卡第五十九天一期90天