reinforcement 第5页

强化学习(2)

强化学习(1)1.多智能体深度强化学习重要性采样多智能体深度强化学习（Multi-AgentDeepReinforcementLearning，MADRL）是指在多智能体环境下使用深度强化学习算法进行协同学习

天寒心亦热·2023-08-31 04:25

Hands on RL 之 Off-policy Maximum Entropy Actor-Critic (SAC)

Off-policyMaximumEntropyActor-Critic(SAC)文章目录HandsonRL之Off-policyMaximumEntropyActor-Critic(SAC)1.理论基础1.1MaximumEntropyReinforcementLearning

木心·2023-08-29 16:57

ChatGPT训练三阶段与RLHF的威力

其中一个很酷的想法是RLHF（ReinforcementLearningfromHumanFeedback，人类反馈的强化学习）：将强化学习和人类反

OneFlow深度学习框架·2023-08-28 09:51

强化学习-Reinforcement learning | RL

强化学习的应用场景强化学习的主流算法强化学习(reinforcementlearning)什么是强化学习？强化学习并不是某一种特定的算法，而是一类算法的统称。

ZhangJiQun&MXP·2023-08-27 22:50

《强化学习：原理与Python实战》——可曾听闻RLHF

前言：RLHF（ReinforcementLearningwithHumanFeedback，人类反馈强化学习）是一种基于强化学习的算法，通过结合人类专家的知识和经验来优化智能体的学习效果。

陈童学哦·2023-08-25 22:05

【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（8 月 23 日论文合集）

LendingCLIPtoCo-Segmentation1.2MaskedMomentumContrastiveLearningforZero-shotSemanticUnderstanding1.3Boundary-RL:ReinforcementLearningforWeakly-SupervisedProstateSegmentationi

旅途中的宽~·2023-08-25 16:21

【Python】强化学习：原理与Python实战

搞懂大模型的智能基因，RLHF系统设计关键问答 RLHF（ReinforcementLearningwithHumanFeedback，人类反馈强化学习）虽是热门概念，并非包治百病的万用仙丹。

热爱跑步的恒川·2023-08-24 21:12

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

用一个泛化的强化学习算法掌握国际象棋和日本象棋摘要：国际象棋游戏在人工智能的历史中是最广泛研究的领域。最强的程序都基于复杂的搜索技术，特定领域的自适应和人类专家十几年来完善的手工评估函数的结合。相反，AlphaGoZero程序最近通过从自我对弈的白板状态的强化学习中，获得了在围棋游戏中超出常人的表现。在本文中，我们将这个方法推广到一个AlphaZero算法，它能够在很多有挑战的领域，从白纸状态，获

马小李23·2023-08-24 13:50

GPT大语言模型引爆强化学习与语言生成模型的热潮、带你了解RLHF。

DRL：ReinforcementLearningwithLanguageModel随着ChatGPT的爆火，强化学习（ReinforcementLearning）和语言生成模型（LanguageModel

汀、人工智能·2023-08-24 12:01

使用 DPO 微调 Llama 2

简介基于人类反馈的强化学习(ReinforcementLearningfromHumanFeedback，RLHF)事实上已成为GPT-4或Claude等LLM训练的最后一步，它可以确保语言模型的输出符合人类在闲聊或安全性等方面的期望

Hugging Face·2023-08-24 12:57

强化学习--PPO（完结）

二、核心算法(PPO近端策略优化)ProximalPolicyOptimization多线程版本的例子总结前言强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习

百度pkq·2023-08-23 17:54

2021-04-12 OpenAI 重读 - Dota2 职业队伍可以从中学到什么？

距离“Dota2withLargeScaleDeepReinforcementLearning”发表已经过去近一年半了，这期间我们经历了恭喜OG，疫情导致的赛事体系停摆，以及多支队伍的架构和人员变动。

HenryQIU·2023-08-23 09:58

Reinforcement Learning - Chapter 6

WangChen100·2023-08-23 07:23

百度工程师浅析强化学习

作者|Jane导读本文主要介绍了强化学习（ReinforcementLearning，RL）的基本概念以及什么是RL。强化学习让智能体通过与环境的交互来学习如何做出决策，以获得最大的累积奖励。

百度Geek说·2023-08-23 06:07

使用 DPO 微调 Llama 2

简介基于人类反馈的强化学习(ReinforcementLearningfromHumanFeedback，RLHF)事实上已成为GPT-4或Claude等LLM训练的最后一步，它可以确保语言模型的输出符合人类在闲聊或安全性等方面的期望

·2023-08-22 23:51

GPT大语言模型引爆强化学习与语言生成模型的热潮、带你了解RLHF。

随着ChatGPT的爆火，强化学习（ReinforcementLearning）和语言生成模型（LanguageModel）的结合开始变得越来越受人关注。有关ChatGPT的视频讲解可以参考这里。

·2023-08-21 22:13

AI

GitHub-vwxyzjn/cleanrl:High-qualitysinglefileimplementationofDeepReinforcementLearningalgorithmswithresearch-friendlyfeatures

m0_59519985·2023-08-20 15:38

搞懂大模型的智能基因，RLHF系统设计关键问答（文末送书）

RLHF（ReinforcementLearningwithHumanFeedback，人类反馈强化学习）虽是热门概念，并非包治百病的万用仙丹。

艾派森·2023-08-19 03:01

ChatGPT背后的技术：人类反馈强化学习RLHF

RLHF进行训练的RLHF技术分解预训练语言模型训练奖励模型强化学习微调预训练模型局限性参考前言随着OpenAI推出的ChatGPT火热出圈，ChatGPT背后的技术原理之一，人类反馈强化学习RLHF(ReinforcementLearningfromHumanFeedback

马鹤宁·2023-08-19 00:34

【山河送书第七期】:《强化学习：原理与Python实战》揭秘大模型核心技术RLHF！

七·购买链接八·参与方式九·往期赠书回顾一·图书简介RLHF（ReinforcementLearningwithHumanFeedback，人类反馈强化学习）

以山河作礼。·2023-08-19 00:30

机器学习概要学习

统计分类非监督式学习UnsupervisedLeanring训练集目标:无标注;如聚类、GAN(生成对抗网络)半监督式学习Semi-supervisedLeanring介于监督式与无监督式之间增强学习ReinforcementLean

钢门狂鸭·2023-08-18 11:27

百度工程师浅析强化学习

作者|Jane导读本文主要介绍了强化学习（ReinforcementLearning，RL）的基本概念以及什么是RL。强化学习让智能体通过与环境的交互来学习如何做出决策，以获得最大的累积奖励。

·2023-08-18 10:39

【RLHF】想训练ChatGPT？得先弄明白Reward Model怎么训（附源码）

在上一篇文章中，我们已经讲解了如何将强化学习（ReinforcementLearning）和语言模型（LanguageModel）做结合：https://blog.csdn.net/sinat_39620217

汀、人工智能·2023-08-15 08:35

【RLHF】想训练ChatGPT？先来看看强化学习（RL）+语言模型（LM）吧（附源码）

随着最近ChatGPT的大火，越来越多人开始关注其中用到的RLHF（ReinforcementLearningfromHumanFeedback）这一核心思想。

汀、人工智能·2023-08-15 08:34

Value-based vs Policy-based Reinforcement Learning

1.Policy-basedReinforcementLearningSupposewehaveagoodpolicy(a|s).Uponobservingthestats,randomsampling

Tancenter·2023-08-14 18:58

策略学习(Policy-Based Reinforcement Learning)

Tancenter·2023-08-14 02:40

基于注意力神经网络的深度强化学习探索方法：ARiADNE

ARiADNE:AReinforcementlearningapproachusingAttention-basedDeepNetworksforExploration文章目录ARiADNE:AReinforcementlearningapproachusingAttention-basedDeepNetworksforExploration

Moresweet猫甜·2023-08-13 19:18

论文笔记--Llama 2: Open Foundation and Fine-Tuned Chat Models

3文章重点技术3.1预训练Pretraining3.1.1预训练细节3.1.2Llama2模型评估3.2微调Fine-tuning3.2.1SupervisedFine-Tuning(FT)3.2.2ReinforcementLearningwithHumanFeedback

Isawany·2023-08-13 02:49

遗传算法概述_经典强化学习算法概述第1部分

遗传算法概述Reinforcementlearninghasgainedtremendouspopularityinthelastdecadewithaseriesofsuccessfulreal-worldapplicationsinrobotics

weixin_26630173·2023-08-13 01:13

Reinforcement Learning with Code 【Chapter 10. Actor Critic】

ReinforcementLearningwithCode【Chapter10.ActorCritic】ThisnoterecordshowtheauthorbegintolearnRL.Boththeoreticalunderstandingandcodepracticearepresented.ManymaterialarereferencedsuchasZhaoShiyu

木心·2023-08-13 01:12

Reinforcement Learning with Code【Code 5. Policy Gradient Methods】

ReinforcementLearningwithCode【Code5.PolicyGradientMethods】ThisnoterecordshowtheauthorbegintolearnRL.Boththeoreticalunderstandingandcodepracticearepresented.ManymaterialarereferencedsuchasZhaoShiyu

木心·2023-08-13 01:42

关于人工智能的高新项目与技术

DeepMind医疗项目关于人工智能的高新技术深度学习（DeepLearning）：自然语言处理（NaturalLanguageProcessing，NLP）：机器视觉（ComputerVision）：增强学习（ReinforcementLearning

大余小牛成长记·2023-08-12 23:56

SolidUI社区-提示词自我一致性

通过构建自研的文生图语言模型，SolidUI利用RLHF(ReinforcementLearningHumanFeedback)流程实现从文本描述到图形生成的过

Dlimeng·2023-08-11 09:58

初识滴滴交易策略之三：供需调节

滴滴业务场景涉及的供需调节技术供需感知和供需预测时序预测供需调节以提升市场匹配程度，保持供需平衡整数规划为司机规划更好的出车方式模仿学习（ImitationLearning）离线强化学习（OfflineReinforcementLearning

滴滴技术·2023-08-10 20:14

AI Deep Reinforcement Learning Autonomous Driving（深度强化学习自动驾驶）

AIDeepReinforcementLearningAutonomousDriving（深度强化学习自动驾驶）背景介绍研究背景研究目的及意义项目设计内容算法介绍马尔可夫链及马尔可夫决策过程强化学习神经网络仿真平台

心清似水淡若云、·2023-08-10 12:58

7月27日、28日| KDD 2023 预讲会——来自中科大、Amazon、NUS、中科院、Baylor等的七位一作学者分享...

哔哩哔哩官方账号预约直播7月27日14:30-16:3014:30-15:00周正阳以不变应万变：面向时空数据的不变关联学习15:00-15:30万润哲ExperimentationPlatformsMeetReinforcementLearning

AITIME论道·2023-08-10 08:20

7月27日、28日| KDD 2023 预讲会——来自中科大、Amazon、NUS、中科院、Baylor的五位一作学者分享...

哔哩哔哩官方账号预约直播7月27日14:30-16:3014:30-15:00周正阳以不变应万变：面向时空数据的不变关联学习15:00-15:30万润哲ExperimentationPlatformsMeetReinforcementLearning

AITIME论道·2023-08-10 08:49

论文笔记【Recurrent Attentional Reinforcement Learning for Multi-label Image Recognition】

摘要多标签图像识别是计算机视觉中一项基础却又有挑战性的任务。利用深度卷积神经网络对具有语义感知的图像区域进行定位，并对其标签进行预测，目前取得了显著的进展。然而，通过提出假设区域进行对图像区域的定位，需要冗余的计算成本，而且往往忽略或简单化了区域之间的上下文依赖关系。作者在该论文中提出了一个循环注意强化学习框架，迭代地发现与不同语义对象相关的注意区域（含有信息的图像区域），并对这些区域预测相关标签

左灯右行_d493·2023-08-09 04:16

SolidUI社区-根据Prompt打造人设

通过构建自研的文生图语言模型，SolidUI利用RLHF(ReinforcementLearningHumanFeedback)流程实现从文本描述到图形生成的过

Dlimeng·2023-08-08 13:51

Llama 2：开放基础和微调聊天模型

自回归变压器在广泛的自监督数据语料库上进行预训练，然后通过强化学习(ReinforcementLearningwithhuma

TD程序员·2023-08-08 10:02

MARL 笔记

16年的MARL概览:Acomprehensivesurveyofmultiagentreinforcementlearning（谷歌学术）Model-free时学习均衡：NashQ-learning：

AntiGravity·2023-08-08 06:08

SolidUI社区-Prompt设计

通过构建自研的文生图语言模型，SolidUI利用RLHF(ReinforcementLearningHumanFeedback)流程实现从文本描述到图形生成的过

Dlimeng·2023-08-07 13:57

SolidUI社区-通用Prompt技巧

通过构建自研的文生图语言模型，SolidUI利用RLHF(ReinforcementLearningHumanFeedback)流程实现从文本描述到图形生成的过

Dlimeng·2023-08-07 12:09

Crowd-Robot Interaction 论文阅读

论文信息题目：Crowd-RobotInteraction:Crowd-awareRobotNavigationwithAttention-basedDeepReinforcementLearning作者

玛卡巴卡_qin·2023-08-06 19:06

强化学习总结

一个是policygradientdecent，还有一个目前的主流研究就是把二者合并本文所有图片和文字来自https://mofanpy.com/tutorials/machine-learning/reinforcement-learning

SimonLiu000·2023-08-05 16:27

SolidUI社区-官网介绍

通过构建自研的文生图语言模型，SolidUI利用RLHF(ReinforcementLearningHumanFeedback)流程实现从文本描述到图形生成的过

Dlimeng·2023-08-03 00:40

Reinforcement Learning with Code 【Code 2. Tabular Sarsa】

ReinforcementLearningwithCode【Code2.TabularSarsa】ThisnoterecordshowtheauthorbegintolearnRL.Boththeoreticalunderstandingandcodepracticearepresented.ManymaterialarereferencedsuchasZhaoShiyu

木心·2023-08-02 17:40

Reinforcement Learning with Code 【Chapter 9. Policy Gradient Methods】

ReinforcementLearningwithCodeThisnoterecordshowtheauthorbegintolearnRL.Boththeoreticalunderstandingandcodepracticearepresented.ManymaterialarereferencedsuchasZhaoShiyu

木心·2023-08-02 17:10

Reinforcement Learning with Code 【Code 1. Tabular Q-learning】

ReinforcementLearningwithCode【Code1.TabularQ-learning】ThisnoterecordshowtheauthorbegintolearnRL.Boththeoreticalunderstandingandcodepracticearepresented.ManymaterialarereferencedsuchasZhaoShiyu

木心·2023-08-02 17:10

RL+RA 文献阅读 Resource Allocation for Delay-Sensitive Vehicle-to-Multi-Edges (V2Es) Communications in V

ResourceAllocationforDelay-SensitiveVehicle-to-Multi-Edges(V2Es)CommunicationsinVehicularNetworks:AMulti-AgentDeepReinforcementLearningApproach

qq_38480311·2023-08-02 11:05

推荐频道

reinforcement

强化学习(2)

Hands on RL 之 Off-policy Maximum Entropy Actor-Critic (SAC)

ChatGPT训练三阶段与RLHF的威力

强化学习-Reinforcement learning | RL

《强化学习：原理与Python实战》——可曾听闻RLHF

【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递（8 月 23 日论文合集）

【Python】强化学习：原理与Python实战

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

GPT大语言模型引爆强化学习与语言生成模型的热潮、带你了解RLHF。

使用 DPO 微调 Llama 2

强化学习--PPO（完结）

2021-04-12 OpenAI 重读 - Dota2 职业队伍可以从中学到什么？

Reinforcement Learning - Chapter 6

百度工程师浅析强化学习

使用 DPO 微调 Llama 2

GPT大语言模型引爆强化学习与语言生成模型的热潮、带你了解RLHF。

AI

搞懂大模型的智能基因，RLHF系统设计关键问答（文末送书）

ChatGPT背后的技术：人类反馈强化学习RLHF

【山河送书第七期】:《强化学习：原理与Python实战》揭秘大模型核心技术RLHF！

机器学习概要学习

百度工程师浅析强化学习

【RLHF】想训练ChatGPT？得先弄明白Reward Model怎么训（附源码）

【RLHF】想训练ChatGPT？先来看看强化学习（RL）+语言模型（LM）吧（附源码）

Value-based vs Policy-based Reinforcement Learning

策略学习(Policy-Based Reinforcement Learning)

基于注意力神经网络的深度强化学习探索方法：ARiADNE

论文笔记--Llama 2: Open Foundation and Fine-Tuned Chat Models

遗传算法概述_经典强化学习算法概述第1部分

Reinforcement Learning with Code 【Chapter 10. Actor Critic】

Reinforcement Learning with Code【Code 5. Policy Gradient Methods】

关于人工智能的高新项目与技术

SolidUI社区-提示词自我一致性

初识滴滴交易策略之三：供需调节

AI Deep Reinforcement Learning Autonomous Driving（深度强化学习自动驾驶）

7月27日、28日| KDD 2023 预讲会——来自中科大、Amazon、NUS、中科院、Baylor等的七位一作学者分享...

7月27日、28日| KDD 2023 预讲会——来自中科大、Amazon、NUS、中科院、Baylor的五位一作学者分享...

论文笔记【Recurrent Attentional Reinforcement Learning for Multi-label Image Recognition】

SolidUI社区-根据Prompt打造人设

Llama 2：开放基础和微调聊天模型

MARL 笔记

SolidUI社区-Prompt设计

SolidUI社区-通用Prompt技巧

Crowd-Robot Interaction 论文阅读

强化学习总结

SolidUI社区-官网介绍

Reinforcement Learning with Code 【Code 2. Tabular Sarsa】

Reinforcement Learning with Code 【Chapter 9. Policy Gradient Methods】

Reinforcement Learning with Code 【Code 1. Tabular Q-learning】

RL+RA 文献阅读 Resource Allocation for Delay-Sensitive Vehicle-to-Multi-Edges (V2Es) Communications in V