多智能体强化学习MARL 第28页

强化学习在金融市场中的应用

姓名：谢童学号：16020188008转自微信公众号Bigquant前言今年来，随着AlphaGO的闪亮登场，以及最近强化学习在dota2中战胜职业战队，强化学习越来越受到人们的关注。

小小星辰_850b·2023-09-12 23:40

【论文解读】元学习：MAML

该算法与任何用梯度下降训练的模型兼容，适用于各种学习问题，包括分类、回归和强化学习。

Scc_hy·2023-09-12 06:57

AI入门指南：探索人工智能的基础原理和实际应用

解释监督学习、无监督学习和强化学习的区别。深度学习的核心概念：解释神经网络的基本结构。介绍神经元、层和权重的概念。提及反向传播算法的重要性。第二部分：AI的实际应用自然

执笔人·2023-09-12 04:12

机器学习入门笔记之回归（一）

Experience）中学习关于任务T（Tasks）的某些类别和性能度量P（Performance），让其在任务T中的性能（由P测量的）随着经验E而改善，那么这就是机器学习目前机器学习的主流分为监督学习、无监督学习、强化学习三类

BubbleL·2023-09-12 01:56

AI打游戏-壹

使用开源训练集进行训练实际工作中，算法训练只是一部分，还有很多上下游的工作通过AI打游戏这个主题，来熟悉AI产业全貌说明提到AI是标题党，这次使用的不能算人工智能，只是目标检测(YOLO)的简单应用，并不是强化学习这类高阶

·2023-09-12 01:42

RAT：基于强化学习驱动和自适应测试的Web应用程序防火墙漏洞发现

文章提出了一种用于发现WAFs注入漏洞的自动黑盒测试策略——强化学习驱动自适应测试(RAT)。特别关注SQL注入和跨站点脚本攻击（XSS），这两种攻击在过去十年中一直是十大漏

LAANever·2023-09-11 21:36

AI入门指南：探索人工智能的基础原理和实际应用

解释监督学习、无监督学习和强化学习的区别。深度学习的核心概念：解释神经网络的基本结构。介绍神经元、层和权重的概念。提及反向传播算法的重要性。第二部分：AI的实际应用自然

·2023-09-11 15:34

DQN模型

1.DQN模型References[1]强化学习第五节（DQN）【个人知识分享】_哔哩哔哩_bilibili

Tancenter·2023-09-11 13:48

机器学习从0到1

机器学习，即machinelearning感谢easyai的精彩讲解：easyai网址文章目录机器学习的概念机器学习的原理监督学习，非监督学习，强化学习监督学习非监督学习强化学习机器学习实操的7个步骤现在举一个具体的任务来说明这些步骤

白云千载尽·2023-09-11 07:23

强化学习-理解及应用:解决迷宫问题

什么是强化学习？强化学习（ReinforcementLearning,RL）是一种机器学习方法，旨在让智能体（agent）通过与环境的交互学习如何做出最优的行动选择以获得最大的累积奖励。

Rnan-prince·2023-09-11 03:34

Docker实操4——Stable Baselines3强化算法库

setup.py2.2package的基本信息2.3RLBaselinesZoo[^2]2.4PyBullet[^3]2.5Atari三、总结概述上一篇文章里制作好了一个强化环境的镜像Docker实操3——配置强化学习环境镜像

Nemo555·2023-09-11 01:56

Docker实操3——配置强化学习环境镜像

手动配置一遍docker中的强化环境一、安装基本操作1.1查看基础信息1.2国内换源1.3安装nvidia-docker二、docker基本操作三、例子：强化学习库的docker环境搭建四、亲手制作专属的强化学习镜像

Nemo555·2023-09-11 01:56

厉害了！高考后，这所大学最让人羡慕向往！

通过2年的强化学习，学生留学海外后，

苏大留学基地·2023-09-10 23:31

【伤寒强化学习训练】打卡第四十七天一期90天

3.6.1-药解之细辛篇小青龙汤续讲小青龙汤是一个一直喝的药，就而不是一个发汗剂小青龙汤药物的配比做的不够好的话，有可能会做出一碗变成发汗剂的小青龙汤，邪气没办法很正确的被打到另外，小青龙汤症状上面有好几种加减法的兼症，比如说小青龙汤的条文，“干呕发热而咳”，就是以咳为主症的，咳得唏哩呼噜的时候，看起来跟呕吐很像，并不会真的把胃液挤出来所谓的“姜辛味结构”：细辛、干姜、五味子这三味药的结构。而姜辛

A卐炏澬焚·2023-09-10 11:18

神经网络与强化学习：揭示AI的超能力

文章目录神经网络：模拟人脑的工具强化学习：通过试错学习结合神经网络和强化学习价值网络策略网络结合训练应用领域游戏机器人控制金融交易未来趋势自动化和自主系统个性化和自适应系统跨学科研究结论欢迎来到AIGC

IT·陈寒·2023-09-10 09:42

DQN算法概述及基于Pytorch的DQN迷宫实战代码

在现实中很多情况下，强化学习任务所面临的状态空间是连续的，存在无穷多个状态，这种情况就不能再使用表格的方式存储价值函数。

毒爪的小新·2023-09-10 03:20

【论文阅读笔记】车辆重识别

（肖等人）强化学习以弱监督的方式自适应地在细粒度域中找到区分区域。3.（赵等人）多元化的视觉注意网络减轻依赖强烈监督的信息，学习局部关键区域4.ZhongdaoWang发表的车辆

菜菜子-·2023-09-09 21:24

干货| ICML2023：作为自适应自进化规划器的扩散模型

报告题目作为自适应自进化规划器的扩散模型内容简介扩散模型已经在许多任务中展示了其作为生成模型的强大能力，进而具有作为离线强化学习范式的巨大潜力。然而，扩散模型的质量受到训练数据多样性不足的限制

AITIME论道·2023-09-09 13:29

斯坦福 CS229 机器学习中文讲义翻译完成

机器学习中文讲义第一部分到第三部分第四部分生成学习算法第五部分支持向量机第六部分学习理论第七部分正则化与模型选择感知器和大型边界分类器K均值聚类算法混合高斯和期望最大化算法第九部分期望最大化算法第十部分因子分析第十一部分主成分分析第十二部分独立成分分析第十二部分强化学习和控制线性二次调节

布客飞龙·2023-09-09 04:59

2018-04-21

入门|通过Q-learning深入理解强化学习学界|UberAI论文：利用反向传播训练可塑神经网络，生物启发的元学习范式业界|OpenAI提出新型元学习方法EPG，调整损失函数实现新任务上的快速训练Collabbing-Ideas

hzyido·2023-09-08 10:34

深度学习系列——6、深度强化学习

强化学习问题包含三个主要概念：环境状态行动奖励强化学习（ReinforcementLearning,RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent

数据科学家修炼之道·2023-09-08 05:35

[machine Learning]强化学习

强化学习和前面提到的几种预测模型都不一样,reinforcementlearning更多时候使用在控制一些东西上,在算法的本质上很接近我们曾经学过的DFS求最短路径.强化学习经常用在一些游戏ai的训练,

ViceMusic5·2023-09-08 02:19

机器学习A-Z～Thompson抽样算法

本文继续讲一个强化学习的算法，叫做Thompson抽样算法。这个算法的数学理论基础要用到的是贝叶斯推断(BayesianInference)。我们先谈谈这个算法的基本原理。

Carey_Wu·2023-09-07 19:53

机器学习简介

机器学习中所用算法大致分为监督学习（SupervisedLearnings）无监督学习（UnsuoervisedLearning）强化学习（ReinforcementLearning）一

白杨Cc·2023-09-07 06:40

【大魔王送书第二期】搞懂大模型的智能基因，RLHF系统设计关键问答

RLHF（ReinforcementLearningwithHumanFeedback，人类反馈强化学习）虽是热门概念，并非包治百病的万用仙丹。

德宏大魔王·2023-09-06 21:21

深度强化学习算法的参数更新时机

深度强化学习算法的参数更新时机深度强化学习中往往涉及到多个神经网络来拟合策略函数、值函数等，什么时候更新参数因算法而异，与具体算法架构/算法思想紧密相关。

红烧code·2023-09-06 20:09

大模型强化学习之奖励模型的训练

在OpenAI的InstructGPT论文中，SFT是训练的第一步，第二步是训练一个奖励模型，使得可以根据人类的偏好来对模型的回答进行评分，然后在第三步就可以通过强化学习的方式，通过奖励模型给出的奖励来对模型进行进一步的训练

gzroy·2023-09-06 08:44

RLHF不再需要人类，AI 实现标注自循环

从人类反馈中强化学习（RLHF）在使大型语言模型（LLMs）与人类偏好保持一致方面非常有效，但收集高质量的人类偏好标签是一个关键瓶颈。

AI 研习所·2023-09-06 06:42

强化学习与马尔可夫决策

在上一篇文章强化学习的基本概念中，用大白话介绍了强化学习的一些基本概念，尤其是强化学习的基本过程。

bdqfork·2023-09-06 00:16

【赠书活动｜第六期《强化学习：原理与Python实战》】

强化学习利用奖励信号训练智能体。有些任务并没有自带能给出奖励信号的环境，也没有现成的生成奖励信号的方法。为此，可以搭建奖励模型来

鹤冲天Pro·2023-09-05 20:45

计算机视觉：轨迹预测综述

轨迹预测综述轨迹预测的定义轨迹预测的分类基于物理的方法（Physics-based）基于机器学习的方法（ClassicMachineLearning-based）基于深度学习的方法（DeepLearning-based）基于强化学习的方法

cv-player·2023-09-05 16:09

2020-09-19-统计学反思Statistical Rethinking

前言最近专注于贝叶斯方法的学习，发现在强化学习领域有一本入门书籍，统计学反思未来时间会将这本书的学习笔记持续上传至我的博客等地方StatisticalRethinking1.布拉格魔像TheGolemofPrague

Soliva·2023-09-05 11:43

表示学习与深度学习

然而很多知识的理解并不透彻，因此接下来会根据一些并不主流的书籍或材料进行查漏补缺，有些内容之前未能细看或者干脆跳过的诸如概率图模型、强化学习等内容也会一一补上。闲言少叙，说回表示学习与深度学习。

单调不减·2023-09-05 11:43

【AI】机器学习——绪论

三要素SML步骤1.2分类1.2.1参数化/非参数化方法1.2.2按算法分类1.2.3按模型分类概率模型非概率模型逻辑斯蒂回归1.2.4基本分类监督学习分类符号表示形式化特征无监督模型特征符号表示形式化强化学习半监督学习主动学习

AmosTian·2023-09-05 11:00

AI篇-什么是ChatGPT？

它建立在OpenAI的GPT-3.5大型语言模型之上，并采用了监督学习和强化学习技术进行了微调。ChatGPT是一种聊天机器人，允许用户与基于计算机的代理进行对话。

Mr_wilson_liu·2023-09-05 10:24

服务运营 | MS文章精读：基于强化学习和可穿戴设备的帕金森治疗方案

本文通过患者的可穿戴传感器收集数据，提出了一个基于强化学习的帕金森药物治疗方案。这是第一篇关于可穿戴治疗设备在慢性疾病管理中的应用研究。原文于2023年4月发表于ManagementScience。

运筹OR帷幄·2023-09-05 03:21

机器学习的练功心法（一）——机器学习概述

1机器学习概述文章目录1机器学习概述1.1学习方法1.2什么是机器学习1.3监督学习1.4无监督学习1.5强化学习1.6机器学习的开发流程1.1学习方法引入：对于机器学习来说，我们需要有一个大局观，什么是大局观

ArimaMisaki·2023-09-05 01:50

如何有效进行RLHF的数据标注？

编者按：随着大语言模型在自然语言处理领域的广泛应用，如何从人类反馈进行强化学习（RLHF）已成为一个重要的技术挑战。并且RLHF需要大量高质量的人工数据标注，这是一个非常费力的过程。

·2023-09-04 23:10

python强化学习--gym安装与使用

最近开始学习强化学习，第一步肯定是要学会安装和使用pym，原本以为很简单，事实上确实很简单，但是遇到一个小问题，就是安装gym之后，在应用的过程中，游戏界面没有显示出来，了解后才知道是gym版本不对。

wzg2016·2023-09-04 14:49

调研笔记01-认知无线网络（Cognitive Radio Ad Hoc Networks）或者车联网（VANETs）下的频谱感知和频谱共享研究

CognitiveRadioAdHocNetworks）或者车联网（VANETs）下的频谱感知和频谱共享研究引言以下是阅读认知无线网络相关书籍的一些笔记：认知无线网络中频谱感知技术的研究_黄博基于深度强化学习的动态频谱分配方法研究

lonyhai·2023-09-04 14:56

机器学习入门笔记（一）

一、无监督学习、监督学习和强化学习监督学习：在给定的一些数据下，已经告诉你这些数据的特性，并且让你分类，然后给你一个数据让你根据图来推出其他的数据（给定一个坐标系，上面有相应的图像，给你x数据让你预测y

君莫舞丶无念·2023-09-04 11:37

Level-based Foraging 多智能体游戏仿真环境

游戏场景测试参考链接：https://kgithub.com/semitable/lb-foraging

Mariooooooooooo·2023-09-04 02:49

1.统计学习及监督学习概论

线性代数，概率论，一门基础编程语言（python）统计学习的步骤:有限数据-》假设空间-》学习策略-》实现算法-》选择最优-》预测新数据1.2统计学习的分类基本分类：监督学习，无监督学习，半监督学习，强化学习监督学习

徴徴南风·2023-09-03 23:55

聊聊具身智能怎么实现？

GPT的诞生要归功于NLP技术的快速发展，从2018年到2021年，是第一代大语言模型的“技术爆炸”期，人们逐渐适应了通过海量的无标签数据来训练这些“涌现”智能的大模型，之后OpenAI采用强化学习技术

技术修行者·2023-09-03 21:25

【强化学习】贝尔曼公式 - bellman equation

return作用还是用这个迷宫游戏说。首先明确，不撞墙到终点比撞墙到终点好。路径越短到终点越好。不撞墙到终点比撞墙到终点好。你可以把撞墙这个reward设置成负数，不撞墙设置成0。那么在最终return进行累加的时候，不撞墙的return就会大。路径越短到终点越好。我们计算return的时候还会乘上一个discountrate。介于0~1之间。走了几步这个rate就几次方再乘上reward进行求和

猫毛已经快要掉光的小猫·2023-09-03 16:50

【强化学习】MDP马尔科夫链

基本元素状态集：表示智能体所处所有状态的全部可能性的集合。类似的集合，行为集，回报集决策：规定我在某个状态下，我做出某个action马尔可夫链：学术上来说是无记忆性质。说白了就是我只在乎我目前的状态。比如说我有一个trajectory，他走到了某个状态s1.那我只关心他目前已经到了s1，并且我考虑的也只有s1这个状态，至于他怎么到的s1我不关心。也就是跟到s1的过去无关，所以叫无记忆性质。例子用迷

猫毛已经快要掉光的小猫·2023-09-03 16:48

Gazebo仿真环境下的强化学习实现

Gazebo仿真环境下的强化学习实现主体源码参照《Goal-DrivenAutonomousExplorationThroughDeepReinforcementLearning》文章目录Gazebo仿真环境下的强化学习实现

Moresweet猫甜·2023-09-03 14:17

关于Policy Gradient的理解

PolicyGradient的基础是强化学习理论，同时我也发现，由于强化学习的术语众多，杂乱的符号容易让我迷失方向，所以对我自己而言，很有必要重新确立一套统一的符号使用习惯。

6e845d5ac37b·2023-09-03 13:48

一文读懂强化学习：RL全面解析与Pytorch实战

目录一、引言强化学习的核心组成为什么强化学习重要？

TechLead KrisChang·2023-09-03 12:00

新教育随笔

就学习数学而言，学生一旦学会，享受到教学活动的成功喜悦，便会强化学习动机，从而更喜欢数学。因此，教学设计要促使学生的情感和兴趣始终处于最佳状态，从而保证施教活动的有效性和预见性。

a45b810200c6·2023-09-03 07:25

推荐频道

多智能体强化学习MARL

强化学习在金融市场中的应用

【论文解读】元学习：MAML

AI入门指南：探索人工智能的基础原理和实际应用

机器学习入门笔记之回归（一）

AI打游戏-壹

RAT：基于强化学习驱动和自适应测试的Web应用程序防火墙漏洞发现

AI入门指南：探索人工智能的基础原理和实际应用

DQN模型

机器学习从0到1

强化学习-理解及应用:解决迷宫问题

Docker实操4——Stable Baselines3强化算法库

Docker实操3——配置强化学习环境镜像

厉害了！高考后，这所大学最让人羡慕向往！

【伤寒强化学习训练】打卡第四十七天 一期90天

神经网络与强化学习：揭示AI的超能力

DQN算法概述及基于Pytorch的DQN迷宫实战代码

【论文阅读笔记】车辆重识别

干货| ICML2023：作为自适应自进化规划器的扩散模型

斯坦福 CS229 机器学习中文讲义 翻译完成

2018-04-21

深度学习系列——6、深度强化学习

[machine Learning]强化学习

机器学习A-Z～Thompson抽样算法

机器学习简介

【大魔王送书第二期】搞懂大模型的智能基因，RLHF系统设计关键问答

深度强化学习算法的参数更新时机

大模型强化学习之奖励模型的训练

RLHF不再需要人类，AI 实现标注自循环

强化学习与马尔可夫决策

【赠书活动｜第六期《强化学习：原理与Python实战》】

计算机视觉：轨迹预测综述

2020-09-19-统计学反思Statistical Rethinking

表示学习与深度学习

【AI】机器学习——绪论

AI篇-什么是ChatGPT？

服务运营 | MS文章精读：基于强化学习和可穿戴设备的帕金森治疗方案

机器学习的练功心法（一）——机器学习概述

如何有效进行RLHF的数据标注？

python强化学习--gym安装与使用

调研笔记01-认知无线网络（Cognitive Radio Ad Hoc Networks）或者车联网（VANETs）下的频谱感知和频谱共享研究

机器学习入门笔记（一）

Level-based Foraging 多智能体游戏仿真环境

1.统计学习及监督学习概论

聊聊具身智能怎么实现？

【强化学习】贝尔曼公式 - bellman equation

【强化学习】MDP马尔科夫链

Gazebo仿真环境下的强化学习实现

关于Policy Gradient的理解

一文读懂强化学习：RL全面解析与Pytorch实战

新教育随笔

【伤寒强化学习训练】打卡第四十七天一期90天

斯坦福 CS229 机器学习中文讲义翻译完成