GAN-强化学习第26页

Python Q-learning 算法 --2023博客之星候选--城市赛道

Q-learning是一种强化学习算法，用于解决马尔可夫决策过程（MDP）问题。什么是马尔可夫决策过程（MDP）问题？马尔可夫决策过程（MDP）是一种用于建模序贯决策问题的数学框架。

SzetoZeZe·2023-09-18 00:36

计算机未来-发展趋势和未来方向

从深度学习到自然语言处理，从计算机视觉到强化学习，这些技术正在不断地改变我们的生活和工作方式。机器学习作为人工智能的一个重要分支，其核心技术包括监督学习、无监督学习和强化学习等。

a谷雨c·2023-09-17 19:57

[NLP] LLM---＜训练中文LLama2(五)＞对SFT后的LLama2进行DPO训练

从人类反馈中强化学习（RLHF）极大地推动了NLP的发展，并将NLP中许多长期面临的挑战抛在了一边。

舒克与贝克·2023-09-17 15:37

在Mujoco环境下详细实现PPO算法应用于Humanoid-v2的完整教程

第一部分：介绍1.背景介绍MuJoCo，或称为多关节动力学与控制的物理引擎，已经成为了强化学习中仿真环境的首选工具。其精确的物理仿真和高效的速度使得研究者可以在这个环境下测试和验证各种算法。

m0_57781768·2023-09-17 11:23

在MuJoCo环境下详细实现PPO算法与Hopper-v2应用教程: 深度学习强化学习实战指南

第一部分：简介与MuJoCo环境的配置1.简介强化学习已经在许多任务中展现了其强大的能力，从简单的游戏到复杂的机器人控制。

m0_57781768·2023-09-17 08:09

Learn Prompt-人工智能基础

在计算机科学中，我们可以把人工智能看成是一个目标，而我们讲的机器学习、深度学习、强化学习等各种算法

xiaoshun007～·2023-09-17 00:45

Learn Prompt-什么是ChatGPT？

它建立在OpenAI的GPT-3.5大型语言模型之上，并采用了监督学习和强化学习技术进行了微调。ChatGPT是一种聊天机器人，允许用户与基于计算机的代理进行对话。

xiaoshun007～·2023-09-16 23:08

机器学习

俞扬：对抗模仿学习与逆强化学习的过程非常相似深度学习的理论基础1.数学基础≠理论基础。用数学描述深度学习只能说明模型是有理论保证的，并不能组成深度学习的理论基础。

walkerfan·2023-09-16 20:10

Secrets of RLHF in Large Language Models Part I: PPO

大型语言模型中RLHF的秘密（上）：PPO摘要1引言2相关工作3人类反馈的强化学习4有益和无害的奖励模型5PPO的探索6评估和讨论局限性摘要大型语言模型（LLM）为通用人工智能的发展制定了蓝图。

UnknownBody·2023-09-16 08:21

强化学习基础篇（二十九）策略梯度(一)

强化学习基础篇（二十九）策略梯度(一)之前我们一直都是对价值函数或者动作值函数进行参数化近似：其中策略是间接得通过值函数进行贪婪策略产生，但本文将介绍如何在model-free场景中对策略进行参数化：1

Jabes·2023-09-16 08:57

分享 8 篇NLP论文，有研究惊奇发现：大语言模型除了学习语言还学到了... ...

的论文，其中主要包括：大预言模型的研究、动态环境下的语言回应、数据增强（使用10％的真实数据训练结果胜过100%的数据）、幽默话术的识别（幽默往往和缺陷相关）、模型幻觉抑制、自动化文章评分、稀疏奖励下的强化学习等

AINLPer·2023-09-15 21:47

大模型RLHF算法更新换代，DeepMind提出自训练离线强化学习框架ReST

这些技术造就了像GPT-3、PaLM等基座生成模型，在这些基座模型之上，研究人员通过引入人类反馈的强化学习算法（RLHF）开发出了例如ChatGPT这些与人类偏好保持一致的可聊天模型

TechBeat人工智能社区·2023-09-15 17:32

强化学习实践

【莫烦Python】机械手臂从零开始(机器学习实战强化学习)_哔哩哔哩_bilibili

笑傲江湖2023·2023-09-15 16:23

深度学习简介及深度学习、神经网络、机器学习、人工智能的关系

大白话解释深度学习三、传统机器学习VS深度学习传统机器学习和深度学习的核心区别四、深度学习的优缺点五、4种典型的深度学习算法1、卷积神经网络–CNN2、循环神经网络–RNN3、生成对抗网络–GANs4、深度强化学习

锦木旻·2023-09-15 15:43

[NLP]TRL 正式推出，来训练你的首个 RLHF 模型

这是一个超全面的全栈库，包含了一整套工具用于使用强化学习(ReinforcementLearning)训练transformer语言模型。

舒克与贝克·2023-09-15 09:38

小土堆pytorch学习笔记

想入门pytorch强化学习，就去找pytorch的课来看。

DWQY·2023-09-15 09:43

【《伤寒论》强化学习训练】打卡第20天，一期目标90天

太阴跟阳明这两个病，其实是一个，几乎就是一个表里关系。虚则太阴，实则阳明。尺寸俱沉细者，太阴受病也，当四五日发。以其脉布胃中，络于嗌，故腹满而嗌干。【3-21】传太阴，脉濡而大，发热，下利，口渴，腹中急痛，宜茯苓白术厚朴石膏黄芩甘草汤。茯苓白术厚朴石膏黄芩甘草汤方茯苓四两白术三两厚朴四两石膏半斤黄芩三两甘草二两（炙）右六味，以水一斗，煮取五升，每服一升五合余，日三服。太阴病最简单、最好开药的是水泄

最闪亮的那颗星_b02d·2023-09-14 18:56

Imitation Learning

1aa占坑，刚接触这个概念，后面再更新References[1]台大教授李宏毅强化学习ImitationLearning_哔哩哔哩_bilibili

Tancenter·2023-09-14 12:05

【深度学习+组合优化】深度学习和强化学习在组合优化方面有哪些应用？

王源WANGYuan·2023-09-14 11:33

主编推荐｜深度学习和强化学习在组合优化方面有哪些应用？

作者：莫思雨&王晶&王源2017年阿里巴巴的一篇用深度强化学习求解3维装箱问题的论文引发了深度学习和强化学习在组合优化问题方面应用的深入探讨。

运筹OR帷幄·2023-09-14 11:30

Learning Collaborative Policies to Solve NP-hard Routing Problems 学习笔记

文章目录摘要一、介绍（0）基础（1）贡献二、相关工作0.基础1.基于深度强化学习的建设型启发式（0）基础（1）AM-变体2.基于深度强化学习的改进型启发式3.带有传统求解器的混合方法三、路由问题的表述（

好奇小圈·2023-09-14 11:56

欧能电话机器人好不好用？这6个关键技术是核心

**机械学习**机械学习是多领域交叉的学科，可以从学习模式和学习方法上面进行分类，学习模式将机器学习分类为监督学习、无监督学习和强化学习等，学习方法可以将机器学习分为传统机器学习和深度学习。

蟪蛄不知·2023-09-14 10:42

【python】CliffWalking悬崖寻路问题

强化学习简介gym库-CliffWalkingSARSAQ-learning示例SARSAQ-learning简介机器学习：监督学习、非监督学习、强化学习模仿人类和动物的试错机制进行学习智能体与环境交互

lorogy·2023-09-14 09:14

强化学习-学习笔记14 | 策略梯度中的 Baseline

优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统本篇笔记记录学习在策略学习中使用Baseline，这样可以降低方差，让收敛更快。14.策略学习中的Baseline14.1

www_xuhss_com·2023-09-14 08:31

TD算法与价值学习高级技巧

参考资料：王树森《深度强化学习》：https://github.com/wangshusen/DRL

Serendipity-Wu·2023-09-14 08:29

【shusen wang】【笔记】深度强化学习(2/5)：价值学习

Dxton·2023-09-14 08:29

深度强化学习基础

参考资料：王树森《深度强化学习》：https://github.com/wangshusen/DRL

Serendipity-Wu·2023-09-14 08:29

深度强化学习（4）： Actor-Critic 方法篇

王树森老师《深度强化学习基础》学习笔记四、Actor-CriticMethodsValueNetworkandPolicyNetwork用策略网络π\piπ来近似策略函数π\piπ（相当于运动员），用价值网络

Sudaa__·2023-09-14 08:26

深度强化学习（1）：基础知识篇

王树森老师《深度强化学习基础》学习笔记一、前提知识：深度学习基础搭神经网络、求导…概率论随机变量（RandomVariable）：一个未知变量，值只取决于一个随机事件的结果（Eg：抛硬币的结果）。

Sudaa__·2023-09-14 08:56

深度强化学习（2）：价值学习DQN篇

王树森老师《深度强化学习基础》学习笔记二、价值学习（Value-BasedReinforcementLearning）DeepQ-Network(DQN)DQN用神经网络近似Q∗Q^*Q∗函数。

Sudaa__·2023-09-14 08:56

强化学习笔记_1_基本概念_Deep Reinforcement Learning

前段时间学习了强化学习和深度强化学习相关的内容，整理了一些笔记，未来几天会陆续将这些笔记整理上传。

k_kun·2023-09-14 08:25

强化学习：基于pygame和pytorch实现ppo算法在扫雷小游戏上的AI决策

目录一.介绍二.环境搭建一.实现代码二.效果展示编辑三.PPO算法一.PPO算法介绍二.代码实现一.policy和value网络设定二.PPO类定义四.环境交互一.主函数定义二.训练结果展示五.总结文章完整源码：github源码一.介绍扫雷游戏是一种单人游戏，其目标是在一个方形区域内找到并标记出所有地雷。游戏板可以被分成若干个格子，每个格子可以为没有地雷的空或一个地雷。玩家可以点击面板上的不同格子

最爱小游侠·2023-09-14 02:09

关于总结github上的强化学习代码库（建议收藏，有需要时翻开）

[总结GitHub上的强化学习代码库](https://mp.weixin.qq.com/s/VGAhKyBXpV3_sgnVoXy-9w)强化学习代码库今天分享的内容不是文字类内容，而是关于github

喝凉白开都长肉的大胖子·2023-09-13 19:18

基于强化学习的智能机器人路径规划算法研究（附代码

目录一.摘要二.路径规划技术的研究进展1.研究现状2.算法分类2.1全局路径规划算法2.2局部路径规划算法三.本文采用的路径规划算法——强化学习1.概念2.与其他机器学习方式的区别3.强化学习模型4.马尔可夫决策过程

喝凉白开都长肉的大胖子·2023-09-13 19:47

RL 的研究

强化学习已经是一种比较火的神经网络训练模型了，各个领域都有所应用并取得了不错的效果其中阿里这个PDF电子书中已经将阿里巴巴在强化学习上的研究过程描述的比较清晰了强化学习在阿里的技术演进与业务创新但是本人对这方面确实了解尚浅

Midorra·2023-09-13 14:10

《强化学习原理与Python实战》揭秘大模型核心技术RLHF！——AIC松鼠活动第七期

强化学习利用奖励信号训练智能体。有些任务并没有自带能给出奖励信号的环境，也没有现成的生成奖励信号的方法。为此，可以搭建奖励模型

Aic山鱼·2023-09-13 14:59

想学机器人的程序猿——开篇立论

硕士主研究方向机器人智能控制、机器学习、强化学习等。大学的最后一年实在是闲的无聊，闷的堵心，于是就想到写点东西治疗一下懒病。

NWPU_HaiboWu·2023-09-13 10:29

Pytorch 机器学习专业基础知识+神经网络搭建相关知识

Wantfly9951·2023-09-13 06:57

2019-03-08派森学习第110天

今天继续观看强化学习的视频，并且把源程序自己下载下来，并且做了修改。强化学习迷宫的游戏，让机器自己学会找到黄色目标。

每日派森·2023-09-13 03:32

强化学习在金融市场中的应用

姓名：谢童学号：16020188008转自微信公众号Bigquant前言今年来，随着AlphaGO的闪亮登场，以及最近强化学习在dota2中战胜职业战队，强化学习越来越受到人们的关注。

小小星辰_850b·2023-09-12 23:40

【论文解读】元学习：MAML

该算法与任何用梯度下降训练的模型兼容，适用于各种学习问题，包括分类、回归和强化学习。

Scc_hy·2023-09-12 06:57

AI入门指南：探索人工智能的基础原理和实际应用

解释监督学习、无监督学习和强化学习的区别。深度学习的核心概念：解释神经网络的基本结构。介绍神经元、层和权重的概念。提及反向传播算法的重要性。第二部分：AI的实际应用自然

执笔人·2023-09-12 04:12

机器学习入门笔记之回归（一）

Experience）中学习关于任务T（Tasks）的某些类别和性能度量P（Performance），让其在任务T中的性能（由P测量的）随着经验E而改善，那么这就是机器学习目前机器学习的主流分为监督学习、无监督学习、强化学习三类

BubbleL·2023-09-12 01:56

AI打游戏-壹

使用开源训练集进行训练实际工作中，算法训练只是一部分，还有很多上下游的工作通过AI打游戏这个主题，来熟悉AI产业全貌说明提到AI是标题党，这次使用的不能算人工智能，只是目标检测(YOLO)的简单应用，并不是强化学习这类高阶

·2023-09-12 01:42

RAT：基于强化学习驱动和自适应测试的Web应用程序防火墙漏洞发现

文章提出了一种用于发现WAFs注入漏洞的自动黑盒测试策略——强化学习驱动自适应测试(RAT)。特别关注SQL注入和跨站点脚本攻击（XSS），这两种攻击在过去十年中一直是十大漏

LAANever·2023-09-11 21:36

AI入门指南：探索人工智能的基础原理和实际应用

解释监督学习、无监督学习和强化学习的区别。深度学习的核心概念：解释神经网络的基本结构。介绍神经元、层和权重的概念。提及反向传播算法的重要性。第二部分：AI的实际应用自然

·2023-09-11 15:34

GAN-对抗生成网络

generator:importargparseimportosimportnumpyasnpimportmathimporttorchvision.transformsastransformsfromtorchvision.utilsimportsave_imagefromtorch.utils.dataimportDataLoaderfromtorchvisionimportdatasetsf

W_en丶·2023-09-11 14:52

DQN模型

1.DQN模型References[1]强化学习第五节（DQN）【个人知识分享】_哔哩哔哩_bilibili

Tancenter·2023-09-11 13:48

机器学习从0到1

机器学习，即machinelearning感谢easyai的精彩讲解：easyai网址文章目录机器学习的概念机器学习的原理监督学习，非监督学习，强化学习监督学习非监督学习强化学习机器学习实操的7个步骤现在举一个具体的任务来说明这些步骤

白云千载尽·2023-09-11 07:23

强化学习-理解及应用:解决迷宫问题

什么是强化学习？强化学习（ReinforcementLearning,RL）是一种机器学习方法，旨在让智能体（agent）通过与环境的交互学习如何做出最优的行动选择以获得最大的累积奖励。

Rnan-prince·2023-09-11 03:34

推荐频道

GAN-强化学习

Python Q-learning 算法 --2023博客之星候选--城市赛道

计算机未来-发展趋势和未来方向

[NLP] LLM---＜训练中文LLama2(五)＞对SFT后的LLama2进行DPO训练

在Mujoco环境下详细实现PPO算法应用于Humanoid-v2的完整教程

在MuJoCo环境下详细实现PPO算法与Hopper-v2应用教程: 深度学习强化学习实战指南

Learn Prompt-人工智能基础

Learn Prompt-什么是ChatGPT？

机器学习

Secrets of RLHF in Large Language Models Part I: PPO

强化学习基础篇（二十九）策略梯度(一)

分享 8 篇NLP论文，有研究惊奇发现：大语言模型除了学习语言还学到了... ...

大模型RLHF算法更新换代，DeepMind提出自训练离线强化学习框架ReST

强化学习实践

深度学习简介及深度学习、神经网络、机器学习、人工智能的关系

[NLP]TRL 正式推出，来训练你的首个 RLHF 模型

小土堆pytorch学习笔记

【《伤寒论》强化学习训练】打卡第20天，一期目标90天

Imitation Learning

【深度学习+组合优化】深度学习和强化学习在组合优化方面有哪些应用？

主编推荐｜深度学习和强化学习在组合优化方面有哪些应用？

Learning Collaborative Policies to Solve NP-hard Routing Problems 学习笔记

欧能电话机器人好不好用？这6个关键技术是核心

【python】CliffWalking悬崖寻路问题

强化学习-学习笔记14 | 策略梯度中的 Baseline

TD算法与价值学习高级技巧

【shusen wang】【笔记】深度强化学习(2/5)：价值学习

深度强化学习基础

深度强化学习（4）： Actor-Critic 方法篇

深度强化学习（1）：基础知识篇

深度强化学习（2）：价值学习DQN篇

强化学习笔记_1_基本概念_Deep Reinforcement Learning

强化学习：基于pygame和pytorch实现ppo算法在扫雷小游戏上的AI决策

关于总结github上的强化学习代码库（建议收藏，有需要时翻开）

基于强化学习的智能机器人路径规划算法研究（附代码

RL 的研究

《强化学习原理与Python实战》揭秘大模型核心技术RLHF！——AIC松鼠活动第七期

想学机器人的程序猿——开篇立论

Pytorch 机器学习专业基础知识+神经网络搭建相关知识

2019-03-08派森学习第110天

强化学习在金融市场中的应用

【论文解读】元学习：MAML

AI入门指南：探索人工智能的基础原理和实际应用

机器学习入门笔记之回归（一）

AI打游戏-壹

RAT：基于强化学习驱动和自适应测试的Web应用程序防火墙漏洞发现

AI入门指南：探索人工智能的基础原理和实际应用

GAN-对抗生成网络

DQN模型

机器学习从0到1

强化学习-理解及应用:解决迷宫问题