强化学习· 第31页

【伤寒强化学习训练】打卡第二十五天一期90天

一、【6.7】病有发热恶寒者，发于阳也，无热恶寒者，发于阴也。发于阳，七日愈，发于阴，六日愈，以阳数七，阴数六故也。1.《伤寒论》和《辅行诀》的源头都是《汤液经法》，条文里面提到的6和7的数字可以结合《辅行诀》里的五行成数来理解。2.五行的生数：天一生水，地二生火，三生木，四生金，五生土，然后转完一圈又回到六是水，七是火……3.阳进为补，其数七火数也，阴退为泻其数六水数也——6的意义除了水以外，还

A卐炏澬焚·2023-08-06 00:47

强化学习的应用领域和案例

你好，我是zhenguo(郭震)今天总结强化学习第四篇：强化学习的应用领域第一：游戏领域。强化学习在游戏领域有很多应用，如围棋、象棋、扑克等游戏的AI对战。

算法channel·2023-08-05 19:43

强化学习案例_强化学习系列案例 | 蒙特卡洛方法实现21点游戏策略

快速获取案例方式：数据酷客公众号内发送“强化学习”。蒙特卡洛方法(MonteCarlomethod)是20世纪40年代中期提出的一种以概率统计为指导的重要数值计算方法。

weixin_39928099·2023-08-05 19:42

强化学习（四） - 蒙特卡洛方法（Monte Carlo Methods）及实例

强化学习（四）-蒙特卡洛方法（MonteCarloMethods）及实例4.蒙特卡洛方法4.1蒙特卡洛预测例4.1:Blackjack(21点)4.2动作价值的蒙特卡洛估计4.3MonteCarlo控制例

Stan Fu·2023-08-05 19:12

强化学习入门例子

flappybird为例子来讲看完这个我好像脑子里有个程序了：https://www.zhihu.com/question/26408259小鸟飞例子-建模关键点：增强学习有三个要素：状态S，动作A，奖惩R的策略QS：d(x,y)表示小鸟离下一根柱子的距离和高度差A：飞一下或者不飞，两种可选动作Q（S+A->R）：为一个策略表，也称之为Q，其实就是我们最终想学到的东西。就是在某状态S下采用不同动作

井底之蛙-hzq·2023-08-05 19:41

强化学习实战-吃豆人Pacman经典案例分析

本文是转载文章：原文来源于知乎KingJames大神的文章：策略产品经理必读系列—第三讲强化学习实战-知乎前言：上篇介绍了什么是强化学习，本篇实战讲解强化学习，提供所有的实战代码，可以自行下载运行。

seaside2003·2023-08-05 19:41

强化学习主要算法原理及代码示例

强化学习算法包括以下几种：Q-learning：基于值函数的强化学习算法，通过学习最优策略来最大化累积奖励。

打入凡间的zhu·2023-08-05 19:41

7个最流行的强化学习算法实战案例（附 Python 代码)

大家好，目前流行的强化学习算法包括Q-learning、SARSA、DDPG、A2C、PPO、DQN和TRPO。

Python数据开发·2023-08-05 19:41

强化学习总结

强化学习主要分为两个分支，一个是Q-Learning，一个是policygradientdecent，还有一个目前的主流研究就是把二者合并本文所有图片和文字来自https://mofanpy.com/tutorials

SimonLiu000·2023-08-05 16:27

01统计学习及监督学习概论

分类1.主要可以分为监督学习、无监督学习、半监督学习、强化学习监督学习的主要任务有回归问题和分类问题，回归问题中，输出是连续的值，分类问题中，输出是分类标签监督学习和无监督学习的区别是有无预先标记的训练实例半监督学习

查理的小号·2023-08-05 12:45

机器学习---概述(一)

特征工程2.3.1特征提取2.3.2特征预处理2.3.3特征降维2.4机器学习2.5模型评估3.机器学习的算法分类3.1监督学习3.1.1回归问题3.1.2分类问题3.2无监督学习3.3半监督学习3.4强化学习

肥大毛·2023-08-05 03:59

【学习强化学习】六、DQN算法原理及实现

文章目录参考资料前言1.StateValueFunction1.1StateValueFunctionEstimation1.1Monte-Carlo(MC)-based1.2TD-based1.3MC跟TD有什么样的差别1.3.1方差1.3.2评估结果不同2.State-actionValueFunction(Q-function)2.1Q函数作用机理分析2.2通过Q函数找最优策略2.2.1为什

CHH3213·2023-08-04 14:23

[强化学习实战]深度Q学习-DQN算法原理

深度Q学习深度Q学习将深度学习和强化学习相结合，是第一个深度强化学习算法。

如果我变成回忆l·2023-08-04 14:52

零基础强化学习入门分享

（一）前言：强化学习入门顺序。以前主要学习硬件PCB单片机等知识，后来接触的项目也大多与电气相关，从一窍不通到稍微找到点门道，中间走过不少弯路，误打误撞中，也留下了一些经验。

YWXonline·2023-08-04 14:22

【强化学习】DQN（Deep Q network）原理及实现

神经网络应用到强化学习中时，输入为状态和动作，价值作为其输出，或者输入为状态，输出为最大值的动作，省略了需要用表格记录动作及状态的过程，可更好的应用于复杂状态下的处理。DQN中还有两种机理用于提升。

cc街道办事处·2023-08-04 14:50

强化学习分享（一） DQN算法原理及实现

（一）强化学习算法介绍DQN，顾名思义，DeepQLearning;在传统强化学习Q-Learning的基础之上，用深度学习的神经网络来拟合函Q值函数，从而达到更好的学习效果。

YWXonline·2023-08-04 14:46

2019-05-05人生算法

4、该算法采用了强化学习——

玉如于成·2023-08-04 10:47

感恩日记133

1.感恩每天的强化学习，有点吃不消，但也硬着头皮去听去学。谢谢、谢谢、谢谢。2.感恩今天又学会存生命之细胞体，感慨时代技术进步之飞速。谢谢、谢谢、谢谢。

宜蔓·2023-08-04 09:47

强化学习(DQN）教程

强化学习(DQN）教程本教程介绍了如何使用PyTorch在OpenAIGym上的CartPole-v0任务上训练深度Q-learning(DQN)智能体。

yanglamei1962·2023-08-04 08:15

python sns绘制回归线_使用seaborn绘制强化学习中的图片

本篇用绘制强化学习中的rewards举例，实际上也可以用来机器学习中的loss曲线，原理类似。

weixin_39814378·2023-08-04 06:37

9月1日一92天中医强化群学习总结（韦爱琪）

2.92天的强化学习，也让自己养成了每天大量看书学习的习惯，也影响到了孩子喜欢看书学习。一路走来，感受到了老师说过的晴耕雨读，一样的时间，不日进则日退。体会

韦爱琪·2023-08-03 23:05

无界AI：2023年AIGC之AI绘画行业发展研究报告（附下载）

关于报告的所有内容，公众【营销人星球】获取下载查看核心观点在赋予NPC更高智能的道路-上，还存在一种更先进的基于强化学习的混沌球算法。

insightortop·2023-08-03 23:35

面向金融科技方向选手！一级学会背书，AI选股与可视分析大赛来啦

在深度学习、强化学习和自然语言处理等技术取得不断突破和创新的今天，AI如何赋能量化投资领域，助力开发者打造表现优异，更加安全可靠的量化模型？

飞桨PaddlePaddle·2023-08-03 20:18

【AI底层逻辑】——篇章6：人工神经网络（深度学习算法）

目录引入一、深度学习算法1、人工神经网络结构2、卷积神经网络3、循环神经网络：模拟记忆①循环神经网络②长短时记忆网络（LSTM）4、强化学习①强化学习的控制论②强化学习的反馈机制③马尔可夫决策过程④强化学习的重要地位往期精彩

柯宝最帅·2023-08-03 14:23

今天继续研究floating base

今天回家看完两个强化学习的视频。

音乐大森林一株小树·2023-08-03 14:12

详解近端策略优化(ppo，干货满满)

在强化学习里面，我们需要学习的其实就是一个智能体。如果要学习的智能体跟和环境互动的智能体是同一个的话，称之为同策略。如果要学习的智能体跟和环境互动的智能体不是同一个的话，称之为异策略。

行者AI·2023-08-03 08:53

Python tqdm的两种用法【教程】

Pythontqdm的两种用法本文记录一下在学习深度强化学习过程中遇到tqdm库显示进度条的用法，以供大家交流。

木心·2023-08-02 17:09

[论文笔记] chatgpt系列 2.6 DeepSpeed-chat 数据集

一、FT数据集&Rewardmodel数据集Deepspeed-chat源代码的数据集：Dahoas/rm-static:这是一个用于强化学习的静态环境数据集，包含了一个机器人在一个固定环境中的运动轨迹

心心喵·2023-08-02 08:05

全职带孩子，这么做，才会与职场同步

担心与职场脱轨，担心变成了中年大妈的模样，再次寻找工作，就非常的困难，所以很焦虑，做到这几点，你就会与职场同步，再次找工作，也会变得简单1.有针对性的学习，阅读与自己工作有关的书籍，文章，工作中需要用到的软件，强化学习

职场的一团绵·2023-08-02 01:59

强化学习笔记

强化学习笔记1.环境配置2.CartPole游戏参考工作需要，可能要自己了解一些DQN方面的知识，所以记录一下自己的学习笔记吧。

我是小z呀·2023-08-02 00:45

【伤寒强化学习训练】打卡第三十七天一期90天

JT·伤寒论慢慢教（第二期）2.4.12.3.2桂麻各半汤&桂二麻一汤&白虎汤&桂二越一汤&去桂加茯苓白术汤桂麻各半汤桂枝汤：风邪没有在体表束住的前提下把风邪扫出去麻黄汤：寒邪已经穿透到血液、骨节里面了，把寒气以开汗孔，出大汗的形式从皮肤表面逼出去桂麻各半汤：（桂枝汤三合，麻黄汤三合）汉代一升是200cc（十合），三合＝60cc，三分之一碗的桂枝汤跟三分之一碗的麻黄汤合起来，弄一个三分之二碗的很小

A卐炏澬焚·2023-08-01 23:31

机器学习：监督学习、无监督学习、半监督学习、强化学习

机器学习分为监督学习（SupervisedLearning）、无监督学习（UnsupervisedLearning）、半监督学习（Semi-supervisedLearning）、强化学习（ReinforcementLearning

智慧医疗探索者·2023-08-01 21:12

如何在矩池云复现开源对话语言模型 ChatGLM

经过约1T标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加

机器学习是魔鬼·2023-08-01 12:20

伤寒强化学习训练打卡第六天一期90天

附子汤【11.24】少阴病，得之一二日，口中和，其背恶寒者，当灸之，附子汤主之。附子汤方附子二枚（炮去皮，破八片）茯苓三两人参二两白术四两芍药三两右五味，以水八升，煮取三升，去滓。温服一升，日三服。肾阳不足，背后的阳气转不上来（背发冷），通常都是附子汤证。特别强调是“口中和”，嘴巴还没有渴。因为《伤寒论》有另外一条是白虎加人参汤证也是背发冷。《伤寒论》有三条讲到背冷：①“背冷如巴掌大”是痰饮②“背

A卐炏澬焚·2023-08-01 05:32

【神经网络搜索】DARTS: Differentiable Architecture Search

https://arxiv.org/pdf/1806.09055v2.pdf1.简介此论文之前的NAS大部分都是使用强化学习或者进化算法等在离散的搜索空间中找到最优的网络结构。

pprpp·2023-07-31 21:32

Centos7.9 离线部署ChatGLM-6B

经过约1T标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加

科技资讯早知道·2023-07-31 12:26

【Machine Learning 系列】一文详解有监督学习(Supervised Learning)

前言机器学习主要分为三类：有监督学习、无监督学习和强化学习。本篇主要介绍有监督学习(SupervisedLearning)的原理、算法及应用。

陈橘又青·2023-07-31 11:38

强化学习资料

在老师的指导下最近开始看一些关于强化学习的东西，加上一些自己找到的资料记录在此，方便以后查看。以后不定期更新。

Maybemust·2023-07-31 11:37

【Machine Learning 系列】一文详解强化学习(Reinforcement Learning)

前言机器学习主要分为三类：有监督学习、无监督学习和强化学习。在本文中，我们将介绍强化学习(ReinforcementLearning)的原理、常见算法和应用领域。

陈橘又青·2023-07-31 11:06

强化学习（PPO,DQN,A3C）

目录1.强化学习和深度学习的区别2.强化学习思路3.baseline4.PPO4.1on-policy和off-policy简单理解4.2actotcritic5.DQN（回归问题）4.1公式4.2Q表参考文献

笑傲江湖2023·2023-07-31 10:51

强化学习（EfficientZero）（应用于图像和声音）

目录摘要1.背景介绍2.MCTS（蒙特卡洛树搜索）（推理类模型，棋类效果应用好，控制好像也不错）3.MUZERO4.EfficientZero（基于MUZERO）展望参考文献摘要在文中，基于传统强化学习在数据训练方面的局限性

笑傲江湖2023·2023-07-31 10:51

强化学习概念笔记

一、强化学习模型：二、算法模型1.目标函数的梯度更新模型：例如：第一个公式为判别模型，第二个为轨迹的回报总和

mbshqqb·2023-07-31 07:44

强化学习实战：AI玩贪吃蛇（PyTorch）

文件game.py游戏用的是pygame库。pygame中的坐标轴init我使用了collections中的namedtuple作为坐标。游戏中的蛇头、蛇身、食物都会用Point表示。定义了方向的枚举类，用来表示方向。Point=namedtuple('Point','x,y')classDirection(Enum):LEFT=1RIGHT=2UP=3DOWN=4def__init__(self

灯笼只能来教室体验生活·2023-07-31 05:46

为什么强化学习的探索策略是随机选择动作？

其实并不是说强化学习只有随机选择策略，而是一种解决办法而已。用来平衡探索和利用(tradeoffexplorationandexploitation)，这类问题是多臂老虎机中要解决的经典问题。

小小何先生·2023-07-30 19:41

【《伤寒论》强化学习训练】打卡第7天，一期目标90天

11.3.1木通的药性与桃花汤讲解肾阳不够，免疫力低落，引发细菌感染或发热的现象，是温病，体质上是少阴。当归四逆汤的名称定义张仲景所命名的方剂：1、以方剂药味命名。2、汤的功能来命名（像承气汤，是东西塞在那边下不来，要把它接下来，所以叫承气汤；陷胸汤是这个人结胸了，要把结住的胸打下去，所以叫陷胸汤。）3、甘草干姜附子的四逆汤古时候叫四顺汤（让手脚暖回来）四逆汤是要“挽回”逆的这个状态，阳气通出来，

最闪亮的那颗星_b02d·2023-07-30 15:09

MedicalGPT：基于LLaMA-13B的中英医疗问答模型（LoRA）、实现包括二次预训练、有监督微调、奖励建模、强化学习训练[LLM:含Ziya-LLaMA]。

项目设计集合（人工智能方向）：助力新人快速实战掌握技能、自主完成项目设计升级，提升自身的硬实力（不仅限NLP、知识图谱、计算机视觉等领域）：汇总有意义的项目设计集合，助力新人快速实战掌握技能，助力用户更好利用CSDN平台，自主完成项目设计升级，提升自身的硬实力。专栏订阅：项目大全提升自身的硬实力[专栏详细介绍：项目设计集合（人工智能方向）：助力新人快速实战掌握技能、自主完成项目设计升级，提升自身的

汀、人工智能·2023-07-30 12:32

强化学习论文《Deep Reinforcement Learning that Matters》笔记

文章目录1.简介2.实验分析超参数网络架构RewardScaleRandomSeedsandTrailsEnvironmentCodebases3.ReportingEvaluationMetricsOnlineviewvs.PolicyOptimizationConfidenceBoundsPowerAnalysisSignificance4.结论5.参考资料1.简介这篇2017年的论文是强化学

beingstrong·2023-07-30 11:28

强化学习 GAE算法：HIGH-DIMENSIONAL CONTINUOUS CONTROL USINGGENERALIZED ADVANTAGE ESTIMATION》论文笔记

文章目录1.简介2.准备知识3.优势函数估计4.用Rewardshaping来解释5.价值函数估计参考资料1.简介论文《HIGH-DIMENSIONALCONTINUOUSCONTROLUSINGGENERALIZEDADVANTAGEESTIMATION》是策略梯度算法中常用的优势估计算法GAE对应的论文，OpenAISpinningUp教程推荐读一读这篇论文。论文摘要翻译：策略梯度方法在强化学

beingstrong·2023-07-30 11:27

深度强化学习总结[1]

深度强化学习总结[1]引言深度学习基础马尔可夫决策过程动作价值函数动作价值函数推导状态价值函数仿真实验环境测试对倒立摆环境进行分析附录1.需要安装的包参考文献引言根据前面分析的对于一个函数可以用连续和非连续的函数来对其进行逼近

赛文忆莱文·2023-07-30 11:16

解决安装强化学习库gymnasium，box2d安装报错的问题

gymnasium是强化学习的库，比较难安装。

tortorish·2023-07-30 11:16

推荐频道

强化学习·

【伤寒强化学习训练】打卡第二十五天 一期90天