RL强化学习第14页

深度强化学习（DRL）简介与常见算法（DQN，DDPG，PPO，TRPO，SAC）分类

简单介绍深度强化学习的基本概念，常见算法、流程及其分类（持续更新中），方便大家更好的理解、应用强化学习算法，更好地解决各自领域面临的前沿问题。欢迎大家留言讨论，共同进步。

行至为成·2023-12-18 12:44

【深度强化学习】TRPO、PPO

策略梯度的缺点步长难以确定，一旦步长选的不好，就导致恶性循环步长不合适→策略变差→采集的数据变差→（回报/梯度导致的）步长不合适步长不合适\to策略变差\to采集的数据变差\to（回报/梯度导致的）步长不合适步长不合适→策略变差→采集的数据变差→（回报/梯度导致的）步长不合适一阶信息不限制步长容易越过局部最优，而且很难回来TRPO置信域策略优化思想：步子不要太大，应该保证更新在某个邻域内∣∣θ−θ

x66ccff·2023-12-18 12:13

图数据库｜如何从零到一构建一个企业股权图谱系统

本文首发于NebulaGraphCommunity公众号corp-rl.png我们知道无论是监管部门、企业还是个人，都有需求去针对一个企业、法人做一些背景调查，这些调查可以是法律诉讼、公开持股、企业任职等等多种多样的信息

NebulaGraph·2023-12-18 11:13

通信协议UART、i2c、SPI与电平标准梳理

最近强化学习了一遍这些概念

lagransun·2023-12-18 11:14

机器学习之机器学习的分类

本讲的主要内容：-1.机器学习算法按照任务性质的不同：监督学习+强化学习--1.1监督学习（supervisedlearning）：所有的经验E都是人工采集并输入计算机的-----1.1.1传统的监督学习

辣椒种子·2023-12-18 04:16

OpenAI开源超级对齐方法：用GPT-2，监督、微调GPT-4

目前，大模型的主流对齐方法是RLHF（人类反馈强化学习）。但随着大模型朝着多模态、AGI发展，神经元变得庞大、复杂且难控制，RLHF便有点力不从心。

richerg85·2023-12-18 02:33

【深度学习】强化学习（七）基于策略函数的学习方法

文章目录一、强化学习问题1、交互的对象2、强化学习的基本要素3、策略（Policy）4、马尔可夫决策过程5、强化学习的目标函数6、值函数7、深度强化学习二、基于值函数的学习方法三、基于策略函数的学习方法一

QomolangmaH·2023-12-18 02:10

【《伤寒论》强化学习训练】打卡第17天，一期目标90天

《伤寒杂病论》中“下利”的归类1.太阳篇的下利方子：①比较典型的就是葛根芩连汤证，葛根芩连汤证可以算到泄泻，也可以算到痢疾，虚冷一点的叫泄泻，比较热一点的叫痢疾。②比较偏到痢疾一点的是太阳篇的黄芩汤证，或者是少阳篇的大柴胡汤证。③四逆、白通、理中的下利都比较偏到泄泻。④厥阴篇的厥阴下利最代表性的是白头翁汤证。它的确是痢疾，不是泄泻，是肠子在发炎。⑤少阴病框架的下利——调畅少阳的气机，让肠胃功能恢复

最闪亮的那颗星_b02d·2023-12-18 00:13

基于人工智能 RL 算法的边缘服务器智能选择模式研究

提出了一种基于人工智能深度强化学习算法的扩展性及智能性较高的智能选择模式。

Mindtechnist·2023-12-17 23:32

王树森深度强化学习笔记

本笔记基于王树森的深度强化学习课程文章目录王树森深度强化学习笔记一、基础1.概率论2.名词3.ReturnUtU_tUt4.Action-ValueFunctionQπ(s,a)Q_\pi(s,a)Qπ

开longlong了吗？·2023-12-17 21:30

pytorch强化学习（1）——DQN&SARSA

实验环境python=3.10torch=2.1.1gym=0.26.2gym[classic_control]matplotlib=3.8.0numpy=1.26.2DQN代码首先是module.py代码，在这里定义了网络模型和DQN模型importtorchimporttorch.nnasnnimportnumpyasnpclassNet(nn.Module):#构造只有一个隐含层的网络def

开longlong了吗？·2023-12-17 21:57

policy-gradient

p/217254982.https://zhuanlan.zhihu.com/p/75174892（尤其是这个，包括引入baseline，对应的正好是reward的normalization）基于值的强化学习算法的基本思想是根据当前的状态

Iverson_henry·2023-12-17 20:24

子串回文 I. Barbecue

每次博弈给出l,rl,rl,r表示字符串左右边界，每次一个人可以从该子串的首或尾删除一个字符，如果操作前后是回文串则操作的人输。询问谁会赢，Putata先手。

golemon.·2023-12-17 17:16

【伤寒强化学习训练】打卡第三十四天一期90天

桂枝加附子汤‘太阳病，发汗，遂漏不止，其人恶风，小便难，四肢微急，难以屈伸者，桂枝加附子汤主之。阳气虚的人，发汗就会产生一种脱阳的状态，桂枝加附子汤：表阳虚的脱阳真武汤：真正到里阳虚生气伤肝，脸会发绿；肾虚的人，脸会发黑；吃了桂枝汤狂汗不止，冒冷汗，真的阳虚到底的人，桂枝汤就可以让他脱阳心阳不足的人，如果吃了很多生菜水果，可以用一点补心阳的药，再吃麻黄汤，不然胸口开始心悸汗的阳气是从血液来的，再分

A卐炏澬焚·2023-12-17 16:51

MAAC算法总结

：MAAC注意力的演员评论家:Multi-Agent强化学习-知乎(zhihu.com)首先MAAC这个名字指代的是Multi-Actor-Attention-Critic，有一个Attention在里面

神奇的托尔巴拉德·2023-12-17 10:53

【深度强化学习】DQN, Double DQN, Dueling DQN

DQN更新方程Qθ(st,at)←Qθ(st,at)+α(rt+γmax⁡a′Qθ(st+1,a′)−Qθ(st,at))Q_\theta(s_t,a_t)\leftarrowQ_\theta(s_t,a_t)+\alpha\left(r_t+\gamma\red{\max_{a'}Q_\theta(s_{t+1},a')}-Q_{\theta}(s_t,a_t)\right)Qθ(st,at)←

x66ccff·2023-12-17 09:36

强化学习（三）-策略梯度优化policy Gradient

直接优化策略梯度而不是优化Q函数来指导agent做决策1基本概率策略policy:π(a∣s)\pi(a|s)π(a∣s)状态价值函数Vπ(st)=EA[Qπ(st,A)]V_\pi(s_t)=E_A[Q_\pi(s_t,A)]Vπ(st)=EA[Qπ(st,A)]Vπ(st)=∑aπ(a∣s)∗Qπ(st,A)V_\pi(s_t)=\sum_a\pi(a|s)*Q_\pi(s_t,A)Vπ(st

晚点吧·2023-12-17 08:36

强化学习（四）- Advantage Actor-Critic 及贝尔曼方程推导（A2C）

0概览AdvantageActor-Critic主要在于Q函数的计算，其中baselineb选择为状态价值函数，使用神经网络代替Vπ(s,w)V_\pi(s,w)Vπ(s,w)Q函数使用贝尔曼方程来近似Qπ(s,A)=rt+γVπ(st+1)Q_\pi(s,A)=r_t+\gammaV_\pi(s_{t+1})Qπ(s,A)=rt+γVπ(st+1)其中Advantage体现在Qπ(s,A)−Vπ

晚点吧·2023-12-17 08:32

强化学习douzero模型伪代码

文章目录伪代码中文逻辑算法1Douzero的Actor过程算法2Douzero的Learner过程伪代码中文逻辑算法1Douzero的Actor过程Input:对于每一次entry,共享bufferBL,BU,BDB_L,B_U,B_DBL,BU,BD有B个entries,size为SSS,探索超参数为ϵ\epsilonϵ,折扣为γ\gammaγ初始化本地Q-networksQL,QU,QDQ_L

Mystery_zero·2023-12-17 03:35

RLlib七：github上的代码示例

attention_net将RL代理（默认值：PPO）与AttentionNet模型结合使用的示例，这对于状态很重要但不明确属于观察的一部分的环境非常有用。

星行夜空·2023-12-17 02:01

【深度学习】强化学习（三）强化学习的目标函数

文章目录一、强化学习问题1、交互的对象2、强化学习的基本要素3、策略（Policy）4、马尔可夫决策过程5、强化学习的目标函数1.总回报（Return）2.折扣回报（DiscountedReturn）a

QomolangmaH·2023-12-17 01:35

最强开源大模型？Llama 2论文解读

标题简介模型预训练预训练设置硬件资源与碳排放模型评估模型微调有监督微调基于人工反馈的强化学习（RLHF）人类偏好数据的收集奖励模型迭代微调过程多轮对话控制RLHF结果模型回答的安全性一直以来，Llama

长白山下大绵羊·2023-12-16 13:52

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于乐观行动-评判深度强化学习的含氢综合能源系统低碳经济调度》

这个标题涉及到基于乐观行动的深度强化学习在含氢综合能源系统低碳经济调度方面的评判。

电网论文源程序·2023-12-16 12:56

通用大模型训练过程必须经历的四个阶段！

Pretraining—预训练阶段SupervisedFinetuning（SFT）—监督微调，也叫指令微调阶段RewardModeling—奖励模型训练阶段ReinforcementLearning（RL

Python算法实战·2023-12-16 11:03

强化学习笔记12/12

学习工具：python+chatGPT强化学习的一些关键概念：智能体（Agent）：智能体是与环境交互的实体。它可以是一个虚拟的角色，例如视频游戏中的玩家，或者是一个物理机器人。

sinat_36651044·2023-12-16 01:54

AlphaGo Zero学习一

1）算法上是自对弈强化学习，完全从随机落子开始，不用人类棋谱，之前使用了大量棋谱学习人类的下棋风格作为开局的起始。2）数据结构上，只有黑子白子两种状态，之前包含这个点的

ericblue·2023-12-16 00:26

学习深度强化学习---第1部分----RL介绍、基本模型、Gym介绍

文章目录1.1节强化学习简介1.2节强化学习的模型1.3节Gym介绍视频所在地址：深度强化学习的理论与实践经典的强化学习有三种：1、基于动态规划的强化学习、2、基于蒙特卡洛算法的强化学习、3、基于时序差分的强化学习

饿了就干饭·2023-12-16 00:41

学习深度强化学习---第3部分----RL蒙特卡罗相关算法

文章目录3.1节蒙特卡罗法简介3.2节蒙特卡罗策略评估3.3节蒙特卡罗强化学习3.4节异策略蒙特卡罗法本部分视频所在地址：深度强化学习的理论与实践3.1节蒙特卡罗法简介在其他学科中的蒙特卡罗法是一种抽样的方法

饿了就干饭·2023-12-16 00:11

学习深度强化学习---第2部分----RL动态规划相关算法

文章目录2.1节动态规划简介2.2节值函数与贝尔曼方程2.3节策略评估2.4节策略改进2.5节最优值函数与最优策略2.6节值迭代与策略迭代2.7节动态规划求解最优策略本部分视频所在地址：深度强化学习的理论与实践

饿了就干饭·2023-12-16 00:06

金沙滩单片机完成通过串口控制流水灯的流动和停止

sbitADDR1=P1^1;sbitADDR2=P1^2;sbitADDR3=P1^3;sbitENLED=P1^4;unsignedcharT0RH=0;//T0重载值的高字节unsignedcharT0RL

乌拉_乌拉_乌拉·2023-12-16 00:21

《墨菲定律》读书笔记

海量阅读，去伪存真，找到适合自己的点，并以强化学习，终究会变成自己的知识，找到努力的方向。这本书相对来说，内容比较多，也比较杂，有讲成功学、职场行为学、生存竞争法则、人际关系学、经济学、决策学

Yukigogo·2023-12-15 23:37

神秘的【Q项目】强化学习算法： Q学习：用于学习最佳行动策略。深度Q网络（DQN）：结合深度学习和强化学习*。

强化学习概述强化学习是一种机器学习方法，它使得智能体（agent）能够在环境中通过试错来学习如何达成目标。在强化学习中，智能体根据其观察到的环境状态，选择行动，然后接收环境给出的奖励或惩罚。

小黄人软件·2023-12-15 22:35

RL_第二章学习笔记

Part-one:TabularSolutionMethodsSecondchapter:多臂老虎机(Multi-armedBandits)强化学习与其他学习方式区分的最重要特

Mr Humor·2023-12-15 21:53

了解第二部分多武装匪徒的强化学习手

系列的链接：(Series’Links:)Introduction介绍Multi-ArmedBandits|Notebook多臂土匪|笔记本ThisisthesecondentryofaseriesonReinforcementLearning,whereweexploreanddeveloptheideasbehindlearningonaninteractivescenario.Onthepr

weixin_26738395·2023-12-15 21:51

AI学习笔记之——多臂老虎机(Multi-armed bandit)问题

上一篇文章简要介绍了一下强化学习，强化学习是一个非常庞大的体系，与监督学习和非监督学习相比，其广度和深度都大的多，涉及到很多经典的决策算法，对统计学知识有很高的依赖。

weixin_33962923·2023-12-15 21:21

强化学习笔记------第一章----强化学习概述（超详细）

强化学习讨论的问题是一个智能体（agent）怎么在一个复杂不确定的环境（environment）里面去极大化他能获得的奖励。首先，我们可以把强化学习和监督学习做一个对比。

深度睡眠小能手·2023-12-15 21:49

强化学习笔记5：learning&planning， exploration&exploitation

在强化学习中，环境初始时是未知的，agent不知道环境如何工作，agent通过不断地与环境交互，逐渐改进策略。

UQI-LIUWJ·2023-12-15 21:48

强化学习RL学习笔记2-概述（2）

强化学习笔记专栏传送上一篇：强化学习RL学习笔记1-概述（1）下一篇：强化学习RL学习笔记3-gym了解与coding实践目录强化学习笔记专栏传送前言MajorComponentsofanRLAgent

liaojq2020·2023-12-15 21:48

强化学习读书笔记

目录Chapter1Introduction强化学习定义监督/非监督/强化学习挑战关键特征组成Chapter2Multi-armedBandits评价型反馈和指导型反馈Ak-armedBanditProblemIncrementalImplementationChapter3FiniteMarkovDecisionProcessesAgent-EnvironmentReturnsandEpisod

一口大怪兽·2023-12-15 21:43

【强化学习-读书笔记】多臂赌博机 Multi-armed bandit

参考ReinforcementLearning,SecondEditionAnIntroductionByRichardS.SuttonandAndrewG.Barto强化学习与监督学习强化学习与其他机器学习方法最大的不同

x66ccff·2023-12-15 20:38

CMBAC算法总结

Sample-EfficientReinforcementLearningviaConservativeModel-BasedActor-Critic参考文章：【AAAI2022】一种样本高效的基于模型的保守actor-critic算法-知乎(zhihu.com)论文作者：MIRALab，王杰教授组基于模型的强化学习算法旨在学习环境模型

神奇的托尔巴拉德·2023-12-15 17:41

【深度学习】强化学习（四）强化学习的值函数

文章目录一、强化学习问题1、交互的对象2、强化学习的基本要素3、策略（Policy）4、马尔可夫决策过程5、强化学习的目标函数6、值函数1.状态值函数（StateValueFunction）a.状态值函数的定义

QomolangmaH·2023-12-15 16:42

强化学习基础篇（十五）蒙特卡洛预测

强化学习基础篇（十五）蒙特卡洛预测1、Model-free方法通过贝尔曼方程求解最优策略有3种基本方法：动态规划法、蒙特卡洛法和时间差分法。

Jabes·2023-12-15 08:50

【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法

BeautifulPrompt通过对低质量和高质量的提示进行微调，并进一步提出了一种基于强化学习和视觉信号反馈的技术，以最大化生成提示的奖励值。论文：Tingfen

阿里云大数据AI技术·2023-12-15 06:40

LLM之Prompt（三）| XoT：使用强化学习和蒙特卡罗树搜索将外部知识注入Prompt中，性能超过CoT，ToT和GoT

论文地址：https://arxiv.org/pdf/2311.04254.pdf一、当前Prompt技术的局限性LLM使用自然语言Prompt可以将复杂的问题分解为更易于管理的“thought”可以回复用户的问题。然而，大多数现有的Prompt技术都有局限性：输入输出（IO）Prompt：仅适用于具有单步解决方案的简单问题，它缺乏灵活性；思维链（CoT）：能够解决多步问题，但仅限于线性思维结构，

wshzd·2023-12-15 05:16

7天《阅读行动营》学习打卡

不但能强化学习的效果，同时能够将学习到的知识迁移实践运用，从而达到个人的不断提升。3.开拓创新思维，一个故事在一千个场合，讲成一千个故事是一种了不起的能力。

内外丰盛的真真·2023-12-15 02:35

论文精读与思考：深度强化学习的组合优化研究进展

论文基本信息作者：李凯文、张涛、王锐等作者单位：国防科技大学期刊：自动化学报时间：2021年11月组合优化问题链接：基于深度强化学习的组合优化研究进展(aas.net.cn)1组合优化问题概述1.1定义一类在离散状态下求极值的最优化问题

灰灰嗷·2023-12-14 23:47

【深度学习】强化学习（一）强化学习定义

文章目录一、强化学习问题1、交互的对象1.智能体（Agent）2.环境（Environment）2、强化学习的基本要素1.状态2.动作3.策略(|)4.状态转移概率(′|,)5.即时奖励(,,′)3、策略

QomolangmaH·2023-12-14 19:11

强化学习术语

episodictasks情节性任务，指会在有限步骤下结束continuingtasks连续性任务，指有无限步骤episode情节，指从起始状态（或者当前状态）到结束的所有步骤tabularmethod列表方法，指使用了数组或者表格存储每个状态（或者状态-行动）的信息（比如：其价值）approximationmethods近似方法，指用一个函数来计算状态（或者状态-行动）的价值model环境的模型

小赛TT·2023-12-14 18:20

论文阅读_反思模型_Reflexion

英文名称:Reflexion:LanguageAgentswithVerbalReinforcementLearning中文名称:反思：具有言语强化学习的语言智能体文章:http://arxiv.org

xieyan0811·2023-12-14 18:28

推荐频道

RL强化学习