强化学习（RL）第12页

Fine-Tuning Language Models from Human Preferences

Abstract奖励学习（rewardlearning）可以将强化学习（RL）应用到由人类判断定义奖励的任务中，通过询问人类问题来构建奖励模型。

chansonzhang·2023-12-31 07:54

机器学习，深度学习，神经网络，深度神经网络

深度学习的算法又分很多种，比较典型的四种：卷积神经网络—CNN,循环神经网络—RNN,生成对抗网络—GANs,深度强化学习—RL。机器学习和深度学习的

向着光噜噜·2023-12-31 06:53

强化学习计划

文章目录强化学习强化学习解决的是什么样的问题？举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型，强化学习靠的是什么？强化学习的损失函数（lossfunction）是什么？

搬砖成就梦想·2023-12-30 23:11

偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析

LearningtosummarizefromhumanfeedbackIntroducingChatGPT解密Prompt系列4介绍了InstructGPT指令微调的部分，这里只看偏好对齐的部分样本构建RL

人工智能小豪·2023-12-30 21:08

自学瑞典语，每天5个新单词（51-55）

第五十一天：Repetition:ijagdetfinnsmångajaglärmigsvenskaminbokbästamerochenordbokdåförstårordperendagdetärlärasignyttmanlärsigettspråke

北欧慢时光·2023-12-30 21:17

Python深度学习技术进阶篇|注意力（Attention）机制详解

VAE、生成式对抗网络GAN、扩散模型DiffusionModel等）、目标检测算法（R-CNN、FastR-CNN、FasterR-CNN、YOLO、SDD等）、图神经网络（GCN、GAT、GIN等）、强化学习

AIzmjl·2023-12-30 19:02

强化学习的优化策略PPO和DPO详解并分析异同

目录PPO（ProximalPolicyOptimization）工作原理实现步骤DPO（DistributedProximalPolicyOptimization）工作原理实现步骤相同点不同点1、PPO（ProximalPolicyOptimization）工作原理目标函数：PPO旨在通过最大化特定的目标函数来改进策略。这个目标函数通常包括一个期望回报的项，以及可能的正则化项（如熵）来鼓励探索。

samoyan·2023-12-30 19:21

基于人类反馈的强化学习（RLHF）

1.监督微调（SFT）：为了训练语言模型（LM）掌握基本的任务执行技能，首先需要构建一个监督数据集。这个数据集包含了指令性的输入提示和期望的输出结果，通过这些数据对LM进行精细调整。为了保证任务种类的广泛性，这些输入提示和输出结果需由专业标注人员针对特定任务量身定制。例如，InstructGPT项目中，标注人员会创造性地编写输入提示（比如，“给出五个重燃职业激情的建议”）和对应的输出，覆盖了开放式

samoyan·2023-12-30 19:20

探索可解释及稳定性，AI与博弈，自适应推理——“智源论坛：机器学习青年学者报告会”要点总结

6月10日，北京智源人工智能研究院（BAAI）继“人工智能的数理基础”后，发布“机器学习”重大研究方向，由颜水成教授担任首席科学家，拟针对当前以深度学习、强化学习等为代表的人工智能算法所存在的可解释性缺失

智源社区·2023-12-30 16:27

【伤寒强化学习训练】打卡第三十六天一期90天

2021.2.5总结2.3.1桂枝去芍药汤&桂枝去芍加附子汤&桂麻各半汤恽子瑜先生说：当我没有确切的认识到这个病人身上到底发生了什么事之前，我绝不开药，了解病人的情况对开方很重要，开方治病需要辩证力和感知力1，“太阳病，下之后，脉促，胸满者，桂枝去芍药汤主之”一个水杯子里面装到水满出来叫做满，那如果这边觉得胀胀的这种可以称之为闷太阳病，当病邪还在表面，正确的疗法是把病邪推出去，用了下法就是一个误治

A卐炏澬焚·2023-12-30 15:36

GNN+RL：Flexible Job-Shop Scheduling via Graph Neural Network and Deep Reinforcement Learning

读paper的目的：看懂GNN如何和RL结合的方法。本文的GNN是HGNN，RL用的PPO算法。主要是看懂GNN和RL如何连接起来以及如何训练的。

qq_38480311·2023-12-30 13:46

基于深度强化学习算法的仿真到实践教程

基于深度强化学习算法的仿真到实践教程遇到问题先看这篇文章，我收集了许多群友遇到的问题。我的毕业论文主要是使用DQN，PPO，SAC仿真，然后放到车上跑（效果不太好）。

方小生–·2023-12-30 07:43

【强化学习】动态规划算法实践

文章目录【强化学习】动态规划算法实践一.实验过程1.1Environment1.2PolicyIteration1.3PolicyEvaluation1.4PolicyImprovement1.5ValueIteration

如果皮卡会coding·2023-12-30 04:44

【强化学习】基于蒙特卡洛MC与时序差分TD的简易21点游戏应用

1.本文将强化学习方法（MC、Sarsa、Qlearning）应用于“S21点的简单纸牌游戏”。类似于Sutton和Barto的21点游戏示例，但请注意，纸牌游戏的规则是不同且非标准的。

如果皮卡会coding·2023-12-30 04:42

Goal-Auxiliary Actor-Critic for 6D Robotic Grasping with Point Clouds

我们将模仿学习和强化学习相结合，

cocapop·2023-12-30 02:46

【读书笔记-MIT决策算法】1.简介

1.2.2自动驾驶1.2.3乳腺癌筛查1.2.4金融消费与投资组合配置1.2.5分布式野火监测1.2.6火星科学探索1.3方法1.3.1显式编程1.3.2监督学习1.3.3优化理论1.3.4规划1.3.5强化学习

人工智障2.0·2023-12-29 22:57

DPO讲解

DPO是斯坦福团队基于PPO推导出的优化算法，去掉了RW训练和RL环节，只需要加载一个推理模型和一个训练模型，直接在偏好数据上进行训练即可：损失函数如下：LDPO(πθ;πref)=−E(x,yw,yl

transformer_WSZ·2023-12-29 17:45

1221. 分割平衡字符串 23.12.11（一）补

示例1：输入：s="RLRRLLRLRL"输出：4解释：s可以分割为"RL"、"RRLL"、"RL"、"RL"，每个子字符串中都包含相同数量的'L'和'R'。

路灯与猫·2023-12-29 16:36

Starling-LM-7B与GPT-4：开源AI的新纪录

模型特点Starling-LM-7B，一个由人工智能反馈强化学习（RLAIF）训练的开源LLM，使用了新的GPT-4标记排名数据集Nectar和全新的奖励训练及策略调整流程。在

努力犯错·2023-12-29 15:03

GPT系列综述

InstructGPT在GPT-3上用强化学习做微调，内核模型为PPO-ptx，下面的论文会详细分析。ChatGPT沿用了InstructGPT，但是数据大了好几个量级。G

AmberlikeNLP·2023-12-29 13:16

2024 人工智能与大数据专业毕业设计(论文)选题推荐

目录前言毕设选题2.1目标检测与图像分类2.2自然语言处理与文本生成2.3时间序列分析与预测2.4强化学习与智能决策3.选题迷茫4.选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光,一边要忙着准备考研

Krin_IT·2023-12-29 09:10

具身智能主流方法：模仿学习，和强化学习

强化学习：强调在与现实世界交互过程中持续学习，这让强化学习具有不断重新学习新的技能的可能。模仿学习：需要人为构造复杂数据集，数据利用率高，但数据难强化学习：需

笑傲江湖2023·2023-12-29 02:33

随机网络中通过Hebbian可塑性进行元学习(Meta-Learning through Hebbian Plasticity in Random Networks)

现代强化学习（RL）方法已显示出在解决复杂任务方面的重大进步，但是，一旦训练结束，找到的解决方案通常是静态的，并且无法适应新的信息或应对干扰。尽管仍不能完全理解生物大脑如何从经

Man in Himself·2023-12-28 21:16

【持续学习系列(四)】《Lifelong-RL》

一、论文信息1标题Lifelong-RL:LifelongRelaxationLabelingforSeparatingEntitiesandAspectsinOpinionTargets2作者LeiShu

ZedKingCarry·2023-12-28 20:10

Python深度学习技术进阶篇|Transformer模型详解

VAE、生成式对抗网络GAN、扩散模型DiffusionModel等）、目标检测算法（R-CNN、FastR-CNN、FasterR-CNN、YOLO、SDD等）、图神经网络（GCN、GAT、GIN等）、强化学习

zmjia111·2023-12-28 19:21

linux下基于指定目录及子目录下所有文件中指定字符串进行替换

path/to/directory-typef-execsed-i's/old_string/new_string/g'{}+使用grep命令找到包含指定字符串的文件，再使用sed进行替换:grep-rl'old_string

小果运维·2023-12-28 16:35

《硅谷来信》读书笔记88

第245封信：AlphaGo的关键方法：强化学习强化学习，就是在有正确反馈的前提下，做自主的学习。

老无杂谈·2023-12-28 04:44

01强化学习基础以及马尔可夫决策过程

文章目录前言一、关于强化学习特点基本要素奖励-reward决策序列智能体与环境状态完全可观测环境与部分可观测环境智能体组成策略价值函数模型方法分类基于策略更新与优化是否依赖模型环境返回的回报函数强化学习中的问题学习与规划探索与利用预测与控制二

爱宇小菜涛·2023-12-28 01:17

model free Temporal-Difference Learning-prediction

文章目录前言Temporal-DifferenceLearning1.特点2.MC与TD3.MC与TD优缺点：（1）整体看（2）偏差与方差平衡（3）AB状态的例子MC、TD、DP比较4.TD总结前言RL

爱宇小菜涛·2023-12-28 01:46

价值函数近似-prediction\control（DQN）

IncrementalVFAPredictionAlgorithmsMCpredictionVFATDpredictionVFA二、IncrementalVFAControlAlgorithm基于MC、TD优化批量强化学习收敛性三

爱宇小菜涛·2023-12-28 01:46

策略梯度方法

文章目录前言一、基于梯度策略的强化学习policyandvalueRL基于策略梯度的优劣势目标函数添加基线考虑时序因果关系二、蒙特卡洛策略梯度方法实现流程加入基线降低方差三、Actor-CriticAlgorithm

爱宇小菜涛·2023-12-28 01:46

马尔科夫决策过程-策略迭代与值迭代(基于动态规划)

文章目录前言一、基础概念RL基础关键词马尔可夫决策过程关键词二、马尔科夫决策过程1.策略评估2.策略迭代3.值迭代4.策略迭代与值迭代的区别前言强化学习入门笔记，基于easyRL一、基础概念RL基础关键词强化学习

爱宇小菜涛·2023-12-28 01:16

model-free：Monte Carlo Methods-prediction

文章目录前言MonteCarloMethods（MC）1.特点2.策略评估3.first-visitMC策略评估4.every-visitMC策略评估5.价值函数更新方式总结前言RL学习笔记——蒙特卡洛算法

爱宇小菜涛·2023-12-28 01:16

model free TD-control（Sarsa、Q-learning）

文章目录前言On-policyTD-Sarsa1.TDvsMC2.SarsaOff-policyQ-learning行为策略与目标策略Q-learningvsSarsa悬崖行走的例子总结前言RL学习、基于

爱宇小菜涛·2023-12-28 01:15

8.1 有监督学习算法

有监督学习算法0.机器学习理论基础根据酒精浓度、颜色深度判断红酒类别常用机器学习算法体系有监督学习无监督学习半监督学习强化学习输入/输出空间、特征空间过拟合与欠拟合1.KNN/K近邻算法1.1算法原理1.2

adamlay·2023-12-27 15:44

数据结构学习笔记（七）搜索结构

搜索二叉树的插入4.4搜索二叉树的删除5AVL树5.1平衡化旋转5.1.1右旋：LL型状态5.1.2左旋：RR型状态5.1.3右旋(LL)的例子5.1.4先左旋再右旋(LR)的操作5.1.5先右旋再左旋(RL

千殃sama·2023-12-27 12:58

数据结构-汇总

时间复杂度-汇总一、二叉树1、树的结构-初期2、二叉树的分类-平衡树-红黑树二叉树的旋转-LL\RR\RL\LR3、二叉树的旋转-高级一步到位4、红黑树特征、删除、插入

信仰_273993243·2023-12-27 10:31

办公室副主任述职述廉述学报告

一年来，在办公室的正确领导和同事们的大力支持下，我团结带领秘书科、信息科、机要室人员，克服人手少、任务重等困难，强化学习、提升素质，兢兢业业，较好地完成了各项任务。

写作文稿·2023-12-26 17:51

【伤寒强化学习训练】打卡第九十五天

阳明病的形成必须是一个阴虚而阳不虚的体质，才容易转归到阳明病。可是我们今天的人，通常是阳虚而阴实的居多，并不容易转化成一个标准的阳明病。阳明病是年轻人的特权阳明篇归类：按经腑分：一、阳明经证：阳明病最浅的病1、身大热（不恶寒反恶热）2、汗大出3、口大渴4、面赤心烦5、舌苔黄燥治法：清热生津——白虎汤配方：石膏一斤，知母六两，炙甘草二两，粳米六合临床使用：1、以高热为主证，乙脑、流脑、大叶性肺炎、流

A卐炏澬焚·2023-12-26 17:27

1 监督学习-概述

1.1统计学习统计学习包括监督学习、非监督学习、半监督学习及强化学习。

奋斗的喵儿·2023-12-26 14:36

Pytorch深度强化学习2-1：基于价值的强化学习——DQN算法

目录0专栏介绍1基于价值的强化学习2深度Q网络与Q-learning3DQN原理分析4DQN训练实例0专栏介绍本专栏重点介绍强化学习技术的数学原理，并且采用Pytorch框架对常见的强化学习算法、案例进行实现

Mr.Winter`·2023-12-26 14:40

数据结构之平衡二叉树

平衡二叉树（AVL树）一、定义二、平衡二叉树不平衡的情形三、AVL树插入时的失衡与调整（1）左旋（RR）（2）右旋（LL）（3）先左旋再右旋（LR）（4）先右旋再左旋（RL）四、AVL树的四种删除节点方式五

故明所以·2023-12-26 03:52

平衡二叉树的java递归实现

平衡二叉树的操作难点在于如何调整平衡，根据情况可以分为LL、RR、LR、RL旋转四种方法，这是java的递归版本，后面打算用非递归实现一下，此博客是根据博客：https://blog.csdn.net/

qiuxinfa123·2023-12-26 03:20

强化学习------Policy Gradient算法公式推导

目录一、前言二、公式推导基线三、代码实现四、参考一、前言PolicyGradient算法是一种基于策略的强化学习算法，与基于值的方法（如Q-learning和DQN）不同。

韭菜盖饭·2023-12-25 17:04

边缘服务器

提出了一种基于人工智能深度强化学习算法的扩展性及智能性较高的智能选择模式。

Mindtechnist·2023-12-25 13:08

【强化学习】PPO：近端策略优化算法

近端策略优化算法《ProximalPolicyOptimizationAlgorithms》论文地址：https://arxiv.org/pdf/1707.06347.pdf一、置信域方法(TrustRegionMethods)设πθold\pi_{\theta_{old}}πθold是先前参数为θold\theta_{old}θold的策略网络，πθ\pi_{\theta}πθ则是当前待优化的策

BQW_·2023-12-25 11:32

强化学习_06_pytorch-TD3实践(CarRacing-v2)

0、TD3算法原理简介详见笔者前一篇实践强化学习_06_pytorch-TD3实践(BipedalWalkerHardcore-v3)1、CarRacing环境观察及调整ActionSpaceBox([

Scc_hy·2023-12-25 10:08

推荐频道

强化学习（RL）

【ChatGPT 默认强化学习策略】PPO 近端策略优化算法

4~20mA恒流源 --PLC自控控制

Fine-Tuning Language Models from Human Preferences

机器学习，深度学习，神经网络，深度神经网络

强化学习计划

偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析

自学瑞典语，每天5个新单词（51-55）

Python深度学习技术进阶篇|注意力（Attention）机制详解

强化学习的优化策略PPO和DPO详解并分析异同

基于人类反馈的强化学习（RLHF）

探索可解释及稳定性，AI与博弈，自适应推理——“智源论坛：机器学习青年学者报告会”要点总结

【伤寒强化学习训练】打卡第三十六天 一期90天

GNN+RL：Flexible Job-Shop Scheduling via Graph Neural Network and Deep Reinforcement Learning

基于深度强化学习算法的仿真到实践教程

【强化学习】动态规划算法实践

【强化学习】基于蒙特卡洛MC与时序差分TD的简易21点游戏应用

Goal-Auxiliary Actor-Critic for 6D Robotic Grasping with Point Clouds

【读书笔记-MIT决策算法】1.简介

DPO讲解

推荐系统遇上深度学习(一零三)-[京东&百度]用于电商推荐系统多目标排序的DMT模型

1221. 分割平衡字符串 23.12.11（一）补

Starling-LM-7B与GPT-4：开源AI的新纪录

GPT系列综述

2024 人工智能与大数据专业毕业设计(论文)选题推荐

具身智能主流方法：模仿学习，和强化学习

随机网络中通过Hebbian可塑性进行元学习(Meta-Learning through Hebbian Plasticity in Random Networks)

【持续学习系列(四)】《Lifelong-RL》

Python深度学习技术进阶篇|Transformer模型详解

linux下基于指定目录及子目录下所有文件中指定字符串进行替换

《硅谷来信》读书笔记88

01强化学习基础以及马尔可夫决策过程

model free Temporal-Difference Learning-prediction

价值函数近似-prediction\control（DQN）

策略梯度方法

马尔科夫决策过程-策略迭代与值迭代(基于动态规划)

model-free：Monte Carlo Methods-prediction

model free TD-control（Sarsa、Q-learning）

8.1 有监督学习算法

数据结构学习笔记（七）搜索结构

数据结构-汇总

办公室副主任述职述廉述学报告

【伤寒强化学习训练】打卡第九十五天

1 监督学习-概述

Pytorch深度强化学习2-1：基于价值的强化学习——DQN算法

数据结构之平衡二叉树

平衡二叉树的java递归实现

强化学习------Policy Gradient算法公式推导

边缘服务器

【强化学习】PPO：近端策略优化算法

强化学习_06_pytorch-TD3实践(CarRacing-v2)

【伤寒强化学习训练】打卡第三十六天一期90天