强化学习· 第19页

机器学习第12天：聚类

使用方法实例演示代码解析绘制决策边界本章总结机器学习专栏机器学习_Nowl的博客-CSDN博客无监督学习介绍某位著名计算机科学家有句话：“如果智能是蛋糕，无监督学习将是蛋糕本体，有监督学习是蛋糕上的糖霜，强化学习是蛋糕上的樱桃

Nowl·2023-11-24 16:04

【MATLAB源码-第87期】基于matlab的Q-learning算法栅格地图路径规划，自主选择起始点和障碍物。

操作环境：MATLAB2022a1、算法描述Q-learning是一种无模型的强化学习算法，适用于有限的马尔可夫决策过程（MDP）。

Matlab程序猿·2023-11-24 15:45

2020-05-20 图像去噪的超核神经网络结构搜索

由于昂贵的训练过程，大多数用于图像增强的NAS解决方案依赖于强化学习或进化算法探索，通常需要数周（甚至数月）的训练。因此，我们引入了一种新的高效的超级核技术实现，它能够快速（6-8

野生小肥猪·2023-11-24 14:57

人工智能的入门知识点

分析逻辑：角色分类，特征提取举例：复联4的观影行为分析一点点的购买行为分析图像的特征如何提取关键点：基础知识+逻辑分析人工智能：机器学习（数据到智能）、强化学习（搜索到智能）机器学习：监督学习、非监督学习

兔黎·2023-11-24 13:11

Deep Reinforcement Learning For Sequence to Sequence Models

这篇论文是一篇综述性质的文章吧，研究了现有的Seq2Seq模型的应用和不足，以及如何通过不同的强化学习方法解决不足，写的深入具体，mark一下。本文的顺序是对文章的一个总结，并不是文章真实的组织顺序。

文哥的学习日记·2023-11-24 12:21

【伤寒强化学习训练】打卡第四十天一期90天

2.6.2白术&苍术白术肠胃道里面有太多的水代谢不掉，用了茯苓跟白术就能够增加吸收的功能白术：补脾胃、增进消化机能龙骨：是埋在土里面的古代动物的化石，它已经失去它的灵魂在地底下住了几百万年，它每天都在叫：我的灵魂回来吧，我的灵魂回来啊，所以呢你吃下去马上就把它的灵魂抓住术：分成白术跟苍术苍术：苍术的另外一个名字叫赤术，红颜色比较红的是苍术，闻起来有一股很明显的香味白术：闻起来没什么味道，吃起来是苦

A卐炏澬焚·2023-11-24 08:13

日新录050：愿望与能力（8）

愿望——能力模型在二象限成员能力提升方面，还可以刻意要求他们强化学习。管理者可以结合自己的理论知识和实践经验，在自己擅长的领域对这类人进行指导。

张远娜·2023-11-24 08:03

强化学习基础篇（十六）首次访问蒙特卡洛预测算法在21点游戏的应用

强化学习基础篇（十六）蒙特卡洛预测算法在21点游戏的应用本节将介绍MonteCarloprediction算法在Blackjack游戏中的进行预测的过程。

Jabes·2023-11-24 00:34

OpenAI API Key 接入指南

这个Key像一把钥匙，使用户能够通过程序访问OpenAI提供的一系列人工智能功能，包括自然语言处理（NLP）、深度学习、强化学习等。

F2API·2023-11-23 19:57

2022吴恩达机器学习第3课week3

2022吴恩达机器学习课程学习笔记（第三课第三周）1-1什么是强化学习1-2示例：火星探测器1-3强化学习的回报1-4决策：强化学习中的策略1-5审查关键概念2-1状态-动作价值函数定义2-2状态-动作价值函数示例

天微亮。·2023-11-23 19:38

[转载] 强化学习开源框架整理

转载https://zhuanlan.zhihu.com/p/582396276本篇主要是介绍了不同的RL开源工作，包括环境开源工作和算法开源工作，同时关注这些开源工作对于多机多卡并行分布式训练的支持。算法框架baselines-openaigithub:https://github.com/openai/baselines多机多卡：不支持OpenAIBaselines是OpenAI的一组高质量R

wp133716·2023-11-23 10:41

【NLP】培训LLM的不同方式

在本文中，我想概述一些最重要的训练机制，包括预训练、微调、人类反馈强化学习(RLHF)和适配器。

Sonhhxg_柒·2023-11-23 10:49

Anthropic LLM论文阅读笔记

将强化学习用于大语言模型（RLHF）：发现这种方法可以提升几乎在所有NLP任务上的性能。随着参数的增加，效果也越来越好。

北岛寒沫·2023-11-23 04:01

人工智能对科学发展的影响

人工智能的发展历经了几个阶段，从早期的符号主义，到后来的连接主义，再到现在的深度学习和强化学习，人工智能不断地突破自身的局限，拓展自身的能力，探索自身的可能性。

人机与认知实验室·2023-11-23 04:05

剖析强化学习 - 第二部分

作者：MassimilianoPatacchiola欢迎来到剖析强化学习系列的第二部分。如果您顺利完成了第一部分，那么恭喜！您学会了强化学习的基础，即动态编程方法。

wilbertzhou·2023-11-23 01:49

如何用gym创建强化学习环境 - 持续更新中

在强化学习中环境（environment）是与agent进行交互的重要部分，虽然OpenAIgym中有提供多种的环境，但是有时我们需要自己创建训练用的环境。

我是弱渣·2023-11-23 01:49

【强化学习】使用近似方法的on-policy预测

目录Value-function逼近预测目标(VE‾)(\overline{VE})(VE)SGD和semi-SGD线性方法线性方法的特征构造多项式基（PolynomialBasis）傅里叶基一维状态n阶傅里叶cos基k维状态n阶傅里叶基粗编码瓦片编码径向基函数手动选择步长参数非线性函数逼近：人工神经网络最小二乘时序差分基于记忆的函数逼近参数方法和非参数方法基于记忆的函数逼近近邻方法最近邻方法（n

sword_csdn·2023-11-23 01:48

PPO算法（附pytorch代码）

（3）GAE（GeneralizedAdvantageEstimation)三、代码代码解析：一、PPO算法（1）简介PPO算法是一种强化学习中的策略梯度方法，它的全称是ProximalPolicyOptimization

还有你Y·2023-11-23 01:17

【更新中…】强化学习-MDP_学习笔记

强化学习-MDP1概念介绍1.1RandomVariable·随机变量1.2StochasticProcess·随机过程1.3MarkovChain/Process·马尔可夫链/过程1.4StateSpaceModel

dreautumn·2023-11-23 01:15

《强化学习周刊》第58期：RFQI、DRL-DBSCAN&广义强化学习

No.58智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息，《强化学习周刊》已经开启“订阅功能”，以后我们会向您自动推送最新版的《强化学习周刊》。

智源社区·2023-11-23 01:14

强化学习--多维动作状态空间的设计

目录一、离散动作二、连续动作1、例子12、知乎给出的示例2、github里面的代码免责声明：以下代码部分来自网络，部分来自ChatGPT，部分来自个人的理解。如有其他观点，欢迎讨论！一、离散动作注意：本文均以PPO算法为例。#time:2023/11/2221:04#author:YanJPimporttorchimporttorchimporttorch.nnasnnfromtorch.dist

还有你Y·2023-11-23 01:13

机器学习——周志华_笔记

机器学习——周志华_笔记机器学习——周志华_笔记机器学习——周志华_笔记神经网络介绍支持向量机SVM介绍贝叶斯分类器EM算法集成学习聚类降维与度量学习特征选择与稀疏学习计算学习理论半监督学习概率图模型强化学习神经网络介绍神经网络介绍

Pandy Bright·2023-11-23 00:44

强化学习——基于机器学习_周志华

上篇主要介绍了概率图模型，首先从生成式模型与判别式模型的定义出发，引出了概率图模型的基本概念，即利用图结构来表达变量之间的依赖关系；接着分别介绍了隐马尔可夫模型、马尔可夫随机场、条件随机场、精确推断方法以及LDA话题模型：HMM主要围绕着评估/解码/学习这三个实际问题展开论述；MRF基于团和势函数的概念来定义联合概率分布；CRF引入两种特征函数对状态序列进行评价打分；变量消去与信念传播在给定联合概

Pandy Bright·2023-11-23 00:14

【强化学习】ICLR 2020 强化学习相关论文与会议slides分享

作者：王小惟知乎链接：https://zhuanlan.zhihu.com/p/137515707本文仅作学术分享，若侵权，请联系后台删文处理(长文来袭，建议做强化学习研究的朋友们，先收藏然后再仔细阅读

深度学习技术前沿·2023-11-23 00:58

【重磅】ICLR2020 || 106篇深度强化学习顶会论文汇总

关注：决策智能与机器学习，深耕AI脱水干货来源|EndtoEnd.ai作者|DeepRL报道|深度强化学习实验室编辑|九三山人【导读】今年的ICLR大会转到了线上举行，DeepMind和哈佛的研究人员投稿了一篇神经网络控制虚拟小白鼠模的论文十分亮眼

九三智能控v·2023-11-23 00:27

LLM-2022：InstructGPT【GPT3-（问题和答案拼成一段对话，使用这些对话微调GPT3）-＞SFT（监督微调）-（SFT的答案排序后的数据集上再训练）-＞RM-＞RL（强化学习）】

一、前言GPT系列是OpenAI的一系列预训练文章，GPT的全称是GenerativePre-TrainedTransformer，顾名思义，GPT的目的就是通过Transformer为基础模型，使用预训练技术得到通用的文本模型。目前已经公布论文的有文本预训练GPT-1，GPT-2，GPT-3，以及图像预训练iGPT。据传还未发布的GPT-4是一个多模态模型。最近非常火的ChatGPT和今年年初公

u013250861·2023-11-22 22:34

梯度引导的分子生成扩散模型- GaUDI 评测

原文链接：GuidedDiffusionforInverseMolecularDesign|MaterialsChemistry|ChemRxiv|CambridgeOpenEngageGaUDI模型有点像强化学习

wufeil·2023-11-22 15:50

Talk | CoRL‘23 最佳系统论文奖入围，庄子文：用深度强化学习让机器狗学会跑酷

他与大家分享的主题是:“用深度强化学习让机器狗学会跑酷”，系统地介绍了他的团队在基于强化学习算法和软动力学约束让四足机器人的运动能力远超传统移动机器人的算法所做的一系列研究成果。

TechBeat人工智能社区·2023-11-22 13:56

深入理解强化学习——马尔可夫决策过程：策略

分类目录：《深入理解强化学习》总目录智能体的策略（Policy）通常用字母π\piπ表示。

von Neumann·2023-11-22 12:00

强化学习 —— 广义优势估计GAE

用δt=rt+γV(st+1)−V(st)\delta_t=r_t+\gammaV(s_{t+1})-V(s_t)δt=rt+γV(st+1)−V(st)表示时序差分误差，公式中的VVV表示一个已经学习的状态价值函数，根据多步时序差分的思想，有：At(1)=δt=−V(st)+rt+γV(st+1)At(2)=δt+γδt+1=−V(st)+rt+γrt+1+γ2V(st+2)At(3)=δt+γ

然后就去远行吧·2023-11-22 02:37

强化学习小笔记 —— 从 Normal 正态分布的对数概率密度到 tanh-Normal的对数概率密度

在学习SAC算法用于连续动作的代码时，遇到了一个不懂的地方，如下代码所示：#pytorchclassPolicyNetContinuous(torch.nn.Module):def__init__(self,state_dim,hidden_dim,action_dim,action_bound):super(PolicyNetContinuous,self).__init__()self.fc1

然后就去远行吧·2023-11-22 02:37

深度学习基础

深度强化学习教程链接DataWhale强化学习课程JoyRLhttps://johnjim0816.com/joyrl-book/#/ch7/main深度学习基础强化学习的问题可以拆分成两类问题，即预测与控制

数分虐我千百遍·2023-11-22 01:04

学习神经网络模型，用不用学习原理？还是只会用就行了

先来系统概述机器学习，如下述思维导图机器学习下分几种学习方法：如，监督学习、无监督学习、强化学习、深度学习，其中深度学习通过神经网络模型实现，常用的有CNN、RNN、LSTM回到问题，学习神经网络模型，

Nubia00·2023-11-21 14:12

基于MINST数据集做分类的机器学习项目

TensorFlow自定义模型和训练使用TensorFlow加载和预处理数据使用卷积神经网络的深度计算机视觉使用RNN和CNN处理序列使用RNN和注意力机制进行自然语言处理使用自动编码器和GAN的表征学习和生成学习强化学习大规模训练和部署

问题很多de流星·2023-11-21 12:51

大语言模型的三阶段训练

为了训练专有领域模型，选择LLaMA2-7B作为基座模型，由于LLaMA模型中文词表有限，因此首先进行中文词表的扩展，然后进行三阶段训练（增量预训练，有监督微调，强化学习）。

hj_caas·2023-11-21 12:53

亲子时间管理打卡1

打卡日期：2019年/3月/4日30天打卡累计天数：1/30今日音频要点：曹微做个自律健康有序的人，与孩子建立亲子时间管理的生活方式，每天学一点点亲子时间管理，学以致用，强化学习，生命才得已重塑，颠覆性的成长

艺沫格兰尚美·2023-11-21 08:04

zhurui_xiaozhuzaizai·2023-11-21 03:40

基于PPO自定义highway-env场景的车辆换道决策

1.场景描述如下图所示，自车（蓝车）与前车（白车）在同一车道行驶，自车初速度为27m/s，前车以22m/s的速度匀速行驶，两车相距80m：目标：自车通过换道，超越前车2.代码实现这里的强化学习采用的是基于

Colin_Fang·2023-11-21 01:40

从性到商业社会，你的愉悦真的来自快感吗？

多巴胺有三个认知功能，运动控制、行为选择和强化学习，目的是为了得到奖励。奖励就是多巴胺的主要作用，呈现方式是愉悦感，而人们为了获得愉悦感，会采取行动。但这种愉悦感会随着

摄影树洞萌萌·2023-11-21 01:53

【强化学习】决策优化问题与Gymnasium环境

强化学习-1老虎机与优化策略老虎机大家应该都玩过看到连成一条线的时候再摁下去，它其实是连不上的，要赢得游戏需要一些策略。

Hellespontus·2023-11-21 00:44

Python实现游戏人工智能与机器学习

本文将介绍Python在游戏人工智能与机器学习方面的应用，主要涉及以下几个方面：游戏AI基础知识游戏AI示例：独立行动游戏（IndependentActionGame，IAG）监督学习与无监督学习遗传算法强化学习深度学习二

心梓知识·2023-11-21 00:50

【Python百宝箱】探索数据科学的瑞士军刀：Python机器学习库大揭秘

文章目录数据魔法：用强化学习和模型解释揭示隐藏的信息1.机器学习基础库1.1**`scik

friklogff·2023-11-20 19:16

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于深度强化学习的园区综合能源系统低碳经济调度》

这个标题涉及到基于深度强化学习的园区综合能源系统低碳经济调度。让我们逐步解读一下：1.园区综合能源系统：指的是一个区域内综合利用多种能源的系统，可能包括电力、热能、风能、太阳能等。

电网论文源程序·2023-11-20 18:04

跨界黑科技：HuggingGPT如何颠覆AI领域？

通过基于人类反馈的强化学习（RLHF）和大规模预训练文本库，LLM可以提供更强大的语言理解、生成、交互和推理能力。

THU智能魔术师·2023-11-20 12:10

强化学习输入数据归一化（标准化）

对于强化学习，其输入数据一般是指状态以及动作。

Coder_Jh·2023-11-20 11:05

生成式大模型的RLHF技术（一）：基础

因此，将LLMs与人类价值观（如helpful,honest,和harmless,即3H）对齐是非常重要的，目前采用的主流的技术即是基于人类反馈的强化学习技术（RLHF）。通常来说，RLHF包

酷酷的群·2023-11-20 09:15

强化学习和生成对抗网络

1.强化学习的定义强化学习（reinforcementlearning）是机器学习的一个重要分支，是一门多领域交叉学科，它的本质是自行解决决策问题，并且能进行连续决策。

鹿衔草啊·2023-11-20 01:26

大语言模型的三阶段训练

为了训练专有领域模型，选择LLaMA2-7B作为基座模型，由于LLaMA模型中文词表有限，因此首先进行中文词表的扩展，然后进行三阶段训练（增量预训练，有监督微调，强化学习）。

hj_caas·2023-11-20 01:22

强化学习中的Transformer发展到哪一步了？清北联合发布TransformRL综述

PaperWeekly·2023-11-19 19:05

【强化学习】DQN及其变体网络的原理讲解和代码实现

DQN网络及其变体的实现一、DQN网络原理回顾DQN采用经验回放和固定的Q-targets根据**ϵ−greedy\epsilon-greedyϵ−greedy**执行行为ata_tat将经验以(st,at,rt+1,st+1)(s_t,a_t,r_{t+1},s_{t+1})(st,at,rt+1,st+1)的形式存储到replaymemoryD将D中随机抽样一个mini-batch的经验(s,

Henry_Zhao10·2023-11-19 19:03

推荐频道

强化学习·

机器学习第12天：聚类

【MATLAB源码-第87期】基于matlab的Q-learning算法栅格地图路径规划，自主选择起始点和障碍物。

2020-05-20 图像去噪的超核神经网络结构搜索

人工智能的入门知识点

Deep Reinforcement Learning For Sequence to Sequence Models

【伤寒强化学习训练】打卡第四十天 一期90天

日新录050：愿望与能力（8）

强化学习基础篇（十六）首次访问蒙特卡洛预测算法在21点游戏的应用

OpenAI API Key 接入指南

2022吴恩达机器学习第3课week3

[转载] 强化学习开源框架整理

【NLP】培训LLM的不同方式

Anthropic LLM论文阅读笔记

人工智能对科学发展的影响

剖析强化学习 - 第二部分

如何用gym创建强化学习环境 - 持续更新中

【强化学习】使用近似方法的on-policy预测

PPO算法（附pytorch代码）

【更新中…】强化学习-MDP_学习笔记

《强化学习周刊》第58期：RFQI、DRL-DBSCAN&广义强化学习

强化学习--多维动作状态空间的设计

机器学习——周志华_笔记

强化学习——基于机器学习_周志华

【强化学习】ICLR 2020 强化学习相关论文与会议slides分享

【重磅】ICLR2020 || 106篇深度强化学习顶会论文汇总

LLM-2022：InstructGPT【GPT3-（问题和答案拼成一段对话，使用这些对话微调GPT3）-＞SFT（监督微调）-（SFT的答案排序后的数据集上再训练）-＞RM-＞RL（强化学习）】

梯度引导的分子生成扩散模型- GaUDI 评测

Talk | CoRL‘23 最佳系统论文奖入围，庄子文：用深度强化学习让机器狗学会跑酷

深入理解强化学习——马尔可夫决策过程：策略

强化学习 —— 广义优势估计GAE

强化学习小笔记 —— 从 Normal 正态分布的对数概率密度到 tanh-Normal的对数概率密度

深度学习基础

学习神经网络模型，用不用学习原理？还是只会用就行了

基于MINST数据集做分类的机器学习项目

大语言模型的三阶段训练

亲子时间管理打卡1

大模型LLM相关面试题整理

基于PPO自定义highway-env场景的车辆换道决策

从性到商业社会，你的愉悦真的来自快感吗？

【强化学习】决策优化问题与Gymnasium环境

Python实现游戏人工智能与机器学习

【Python百宝箱】探索数据科学的瑞士军刀：Python机器学习库大揭秘

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于深度强化学习的园区综合能源系统低碳经济调度》

跨界黑科技：HuggingGPT如何颠覆AI领域？

强化学习输入数据归一化（标准化）

生成式大模型的RLHF技术（一）：基础

强化学习和生成对抗网络

大语言模型的三阶段训练

强化学习中的Transformer发展到哪一步了？清北联合发布TransformRL综述

【强化学习】DQN及其变体网络的原理讲解和代码实现

【伤寒强化学习训练】打卡第四十天一期90天