E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
强化学习spinningup
2022业界广告推荐技术最新进展与趋势:阿里、腾讯、字节、微软
】2022年8月份热门报告2、【实践】小红书推荐中台实践3、微信视频号实时推荐技术架构分享4、对比学习在宽狩推荐系统中的应用实践5、微博推荐算法实践与机器学习平台演进6、腾讯PCG推荐系统应用实践7、
强化学习
算法在京东广告序列推荐场景的应用
智能推荐系统
·
2023-01-29 11:36
广告
腾讯
大数据
算法
编程语言
《Python深度学习》第2章学习记录2021-11-23
深度学习主要做两类工作1化繁为简其中包括两类分类和回归;2化简为繁,生成GAN和
强化学习
。深度学习喜欢较
阿希学习笔记
·
2023-01-29 09:49
python
python
深度学习
深度学习第一周学习
机器学习中分为三个大块:监督学习、无监督学习和
强化学习
。而监督学习又分为回归算法和分类算法。通过课程也大致了解回归算法与分类算法的区别。后面也看了李牧老师的课程,学习了第一节数据的操作。
啊砉
·
2023-01-29 09:09
python
深度学习
强化学习
1
强化学习
强化学习
强化学习
的交互过程
强化学习
-贝尔曼方程总结Q-learning算法FlappyBird游戏DeepQ-Network实现方法构建模型
强化学习
强化学习
:是机器学习中的一个领域,强调如何基于环境而行动
闲看庭前梦落花
·
2023-01-29 08:29
强化与提高
机器学习
深度学习
python
强化学习
flappy-bird代码阅读理解
强化学习
flappy_bird代码阅读理解导入所需要的库,以及一些参数的定义建立网络训练网络训练步骤:1.定义损失函数2.开启game3.创建双端队列,replaymemory4.初始化游戏状态5.加载保存网络模型参数
闲看庭前梦落花
·
2023-01-29 08:29
强化与提高
机器学习
深度学习
python
【机器学习】什么是随机马尔科夫决策过程?
系列文章目录第十八章Python机器学习入门之
强化学习
目录系列文章目录前言一、什么是随机马尔科夫决策过程二、随机马尔科夫决策过程的重点总结前言马尔科夫决策过程是基于马尔科夫过程理论的随机动态系统的最优决策过程
晓亮.
·
2023-01-29 08:56
机器学习
python
算法
学习
马尔科夫决策
机器学习强基计划6-2:详细推导马尔科夫随机场(MRF)及其应用(附例题)
“深”在详细推导算法模型背后的数学原理;“广”在分析多个机器学习模型:决策树、支持向量机、贝叶斯与马尔科夫决策、
强化学习
等。
Mr.Winter`
·
2023-01-29 08:26
机器学习强基计划
人工智能
python
数据挖掘
强化学习
1:
强化学习
基础学习笔记(基于Python)
强化学习
基础理论
强化学习
与其他机器学习的关系
强化学习
的八大要素代码简单实例Tic-Tac-Toe参考资料理论
强化学习
是研究智能体以及智能体如何通过反复试验学习的方法。
绝对是谨慎提交的昵称
·
2023-01-29 07:32
强化学习·所思所得
强化学习
python
reinforcement
learning
机器学习
人工智能
Python
强化学习
实例,基于上一篇自主寻优,QLearning算法实现序贯决策,迷宫代码
QLearning算法是一个经典算法,是一种
强化学习
中的异策略算法。所谓异就是action的策略使用贪婪策略,即选择的结果就是行为值函数最大的action,或者说最优的action。
baozouxiaoxian
·
2023-01-29 07:00
python
gym
qlearning
python
强化学习
贪心算法
目标检测
机器学习
SEED RL:大规模分布式
强化学习
框架
SEEDRL:Scalable,EfficientDeep-RL,每秒处理数百万张图片的分布式
强化学习
框架。
布谷AI
·
2023-01-29 07:26
强化学习
深度学习
分布式强化学习
SEED
RL
大规模强化学习框架
强化学习
笔记(5)-回合策略梯度算法
以下为阅读《
强化学习
:原理与python实现》这本书第七章的学习笔记。在之前学习到的强度学习方法中,都是通过学习最优价值函数来获得最优策略。
gzroy
·
2023-01-29 07:56
机器学习
人工智能
Python编程
python
算法
机器学习
强化学习
笔记:基于价值的学习之价值迭代(python实现)
目录1.前言2.数学原理3.实现3.1Planner类3.2ValueIterationPlanner类4.运行结果及分析1.前言在
强化学习
中,根据是否依赖于(环境的)模型,可以分为有模型(model-based
笨牛慢耕
·
2023-01-29 07:25
强化学习
人工智能
强化学习
价值迭代
python
【
强化学习
笔记】3.2 基于模型的策略迭代方法编程实现
重新回顾一下策略迭代算法(原理见3.1基于模型的动态规划方法):(1)初始化状态值函数和状态对应的动作(初始化可以采用随机策略,即随机选择状态下的动作)(2)遍历状态,执行状态对应的动作,得到反馈,更新状态值函数,直到状态值函数收敛(3)遍历状态下的动作,选出收益最大的动作,作为状态对应的最终动作(贪心策略),更新状态对应的动作(4)返回(2)直到状态对应的动作不发生变化针对一个迷宫问题,设计基于
AITBOOK
·
2023-01-29 07:55
强化学习
强化学习笔记
强化学习
机器学习
【
强化学习
笔记】3.3 基于模型的值迭代方法编程实现
重新回顾一下值迭代算法(原理见3.1基于模型的动态规划方法):进行策略改善之前不一定要等到策略值函数收敛,可以在评估一次后就进行策略改善,迭代的终止条件是值函数不再发生变化(就是每个状态下的值函数不再发生变化)。(1)初始化状态值函数和状态对应的动作(初始化可以采用随机策略,即随机选择状态下的动作)(2)遍历状态下的动作,选出收益最大的动作,作为状态对应的最终动作(贪心策略),更新状态对应的动作,
AITBOOK
·
2023-01-29 07:55
强化学习
强化学习笔记
强化学习
强化学习
笔记:基于策略的学习之策略迭代(python实现)
目录1.前言2.算法流程3.代码及仿真结果3.1classPolicyIterationPlanner()3.2测试代码3.3运行结果3.3.1价值估计结果3.3.2策略迭代得到的最终策略1.前言在
强化学习
中
笨牛慢耕
·
2023-01-29 07:22
人工智能
强化学习
python
强化学习
策略迭代
机器学习框架梳理(笔记汇总)
从大的框架来说,机器学习分为监督学习、无监督学习、半监督学习、其它(概率图,规则学习、
强化学习
)。对于监督学习,包含线性模型、决策树、神经网络、支持向量机、贝叶斯分类、集成学习。
抄书侠
·
2023-01-29 03:12
【
强化学习
纲要】3 无模型的价值函数估计和控制
【
强化学习
纲要】3无模型的价值函数估计和控制3.1回顾MDP的控制3.2Model-freeprediction3.2.1MonteCarlopolicyevaluation3.2.2TemporalDifference
Wwwilling
·
2023-01-28 17:00
强化学习纲要
算法
强化学习
人工智能
python
机器学习
《
强化学习
:原理与Python实现》笔记——第一章
第1章初识
强化学习
强化学习
(ReinforcementLearning)来源于行为心理学,表示生物为了趋利避害而更频繁实施对自己有利的策略。
鸡米花甜辣酱
·
2023-01-28 17:00
机器学习
强化学习
强化学习
学习笔记
强化学习
学习笔记一、基础概念二、相关问题1、
强化学习
的基本结构是什么?2、
强化学习
相对于监督学习为什么训练会更加困难?(
强化学习
的特征)3、
强化学习
的基本特征有哪些?4、近几年
强化学习
发展迅速的原因?
weixin_48580498
·
2023-01-28 17:00
机器学习
深度学习
强化学习
pytorch
python
强化学习
笔记:基于价值的学习之价值计算(python实现)
目录1.前言2.数学原理3.代码实现3.1游戏设定3.2classState3.3classAction3.4ClassAgent3.5ClassEnvironment4.仿真结果及其分析4.1play()4.2value_evaluation_all_states(grid,max_steps)4.3value_evaluation_one_state(grid,s)4.4仿真结果及分析1.前言
笨牛慢耕
·
2023-01-28 17:59
强化学习
人工智能
学习方法
强化学习
值函数估计
python
贝尔曼方程
强化学习
笔记:MDPs、MC、TD
目录1、
强化学习
的特点2、如何计算价值函数(动态规划、蒙特卡洛、时序差分)动作价值函数的计算公式蒙特卡洛法、时序差分3、蒙特卡洛法与时序差分的区别4、on-policy与off-policy的区别5、Q-learning6
唠叨小主
·
2023-01-28 17:59
强化学习
python
强化学习
算法
强化学习
笔记4:
强化学习
分类
1.1有模型
强化学习
我们可以用马尔可夫决策过程来定义
强化学习
任务,并表
UQI-LIUWJ
·
2023-01-28 17:59
强化学习
python
读《华为训战》的一点点感悟
那就是测试作为一种刺激主动提取检索的有效方法,不仅有助于提升知识留存和记忆,也会
强化学习
经历,促进学习薄弱点的诊断和巩固,避免我们从小就非常熟悉的“一看就会、一做就错、一过就忘”的熟练度错觉。
梅花z
·
2023-01-28 12:02
flappy_bird_DQN_MQBench
项目介绍:
强化学习
的强大在于我们可以使得计算机在不断的学习中掌握到我们希望他掌握到的本领。
RANKING666
·
2023-01-28 12:40
强化学习
深度学习
人工智能
Pytorch深度
强化学习
案例:基于DQN实现Flappy Bird游戏与分析
目录1案例介绍2构造深度Q网络3经验回放与目标网络4训练流程5实验分析1案例介绍FlappyBird是一款由来自越南的独立游戏开发者DongNguyen所开发的作品,于2013年5月24日上线。在FlappyBird中,玩家只需要用一根手指来操控:点击一次屏幕,小鸟就会往上飞一次,不断地点击就会使小鸟不断往高处飞。放松手指,小鸟则会快速下降。所以玩家要控制小鸟一直向前飞行,然后注意躲避途中高低不平
Mr.Winter`
·
2023-01-28 12:09
#
Pytorch深度强化学习
Pytorch深度学习实战
深度学习
人工智能
pytorch
python
计算机视觉
【RL】异策略算法Q-Learning寻宝藏小例子
介绍例子的环境是一个一维世界,在世界的右边有宝藏,探索者只要得到宝藏尝到了甜头,然后以后就记住了得到宝藏的方法,这就是他用
强化学习
所学习到的行为。
Tialyg
·
2023-01-28 11:25
实战
算法
python
强化学习
深度
强化学习
笔记(二)——Q-learning学习与二维寻路demo实现
深度
强化学习
笔记(二)——Q-learning学习与二维寻路demo实现文章目录深度
强化学习
笔记(二)——Q-learning学习与二维寻路demo实现前言理论什么是Q-Learning算法学习率折扣因子初始条件例子代码基础版走迷宫示意图升级版走迷宫示意图完整代码前言这几天稍微闲下来
没有顶会的咸鱼
·
2023-01-28 11:23
【
强化学习
】Q-Learning用于二维空间探索【Python实现】
【
强化学习
】Q-Learning算法详解以及Python实现【80行代码】本文主要做了两件事情将上篇文章中得弱智般的treasureonright问题,扩张到二维。且将teasure位置随机。
肥宅_Sean
·
2023-01-28 11:23
机器学习+深度学习+强化学习
Python
算法
python
强化学习
算法
PCA降维及降维过程python可视化分析
0引言机器学习算法的类型目前主要分为三类:监督学习、无监督学习和
强化学习
。其中无监督学习代表算法主要有聚类和降维,降维的经典算法是PCA降维算法。
一只程序猿林
·
2023-01-28 10:14
python
开发语言
每日学术速递1.27
CV-计算机视觉|ML-机器学习|RL-
强化学习
前沿推介:ICLR2023ICLR全称为国际学习表征会议(InternationalConferenceonLearningRepresentations
AiCharm
·
2023-01-28 10:09
#
每日学术速递
人工智能
深度学习
王树森
强化学习
笔记——多智能体
强化学习
多智能体
强化学习
想要了解更多
强化学习
的内容,推荐观看王树森教授的教学视频深度
强化学习
(王树森)设定在之前的学习当中,我们讨论的都是单个智能体如何进行决策,然而现实中还存在需要同时控制多个智能体进行决策的复杂情况
xianyuqishi
·
2023-01-28 07:45
人工智能
深度学习
第五章 模型和训练 | 多智能体
强化学习
第五章模型和训练1、多智能体
强化学习
为什么需要多智能体(multi-agent)学习梯度下降算法寻优方法类似从山顶放置小球向下滚,希望寻找最快最好的路径,到达最低的谷底。
阿岛格
·
2023-01-28 07:45
人工智能.量化投资
深度学习
神经网络
tensorflow
机器学习
数据挖掘
强化学习
笔记:self-attention + multi-agent RL(中心化训练)
0前言多智能体系统中有m个智能体,每个智能体有自己的观测()和动作。我们考虑非合作关系的multi-agentRL。如果做中心化训练,需要用到m个状态价值网络或m个动作价值网络由于是非合作关系,m个价值网络有各自的参数,而且它们的输出各不相同。我们首先以状态价值网络v为例讲解神经网络的结构。1不使用自注意力的状态价值网络每个价值网络是一个独立的神经网络,有自己的参数。底层提取特征的卷积网络可以在m
UQI-LIUWJ
·
2023-01-28 07:44
强化学习
强化学习
多智能体
强化学习
之值函数分解:VDN、QMIX、QTRAN系列优缺点分析(转载)
因为多智能体
强化学习
模型训练参数是
难受啊!马飞...
·
2023-01-28 07:43
强化学习
人工智能
强化学习
Pensieve Multi_agent代码详解以及A3C
强化学习
代码详解
Pensieve中最主要的函数及其调用关系,及函数内容详解下图的env是fixed_env,但是实际上是env,除了trace_index和delay,应该没有太大差别,不影响代码的理解A3C的代码结构如下图所示
白菜价卖辣辣
·
2023-01-28 07:13
码率控制算法
视频编解码
强化学习
——多智能体
强化学习
文章目录前言多智能体系统的设定合作关系设定下的多智能体系统策略学习的目标函数合作关系下的多智能体策略学习算法MAC-A2C非合作关系下的多智能体策略学习算法MAC-A2C纳什均衡前言本文总结《深度
强化学习
菜到怀疑人生
·
2023-01-28 07:42
深度学习
机器学习
算法
神经网络
人工智能
深度学习
基于模型的多目标
强化学习
及其在传染病控制的应用
在这项工作中,我们提出了一个基于多目标模型的
强化学习
框架,以促进数据驱动的决策并最大限度地降低整体长期成
AITIME论道
·
2023-01-28 07:41
算法
大数据
python
机器学习
人工智能
多智能体
强化学习
Multi agent,多任务
强化学习
Multi task以及多智能体多任务
强化学习
Multi agent Multi task概述
概述在我之前的工作中,我自己总结了一些多智能体
强化学习
的算法和通俗的理解。
难受啊!马飞...
·
2023-01-28 07:40
强化学习
强化学习
喷射吧,“多巴胺”
谷歌推出新型
强化学习
框架Dopamine,多巴胺。虽然夜以至深,我却少有的感叹眼前的技术洪流之壮观。github上star每几秒都在更新,这样的波澜壮阔很让人怀念吧。
431奴隶主
·
2023-01-28 02:33
ChatGPT - 横看成岭侧成峰
该程序使用基于GPT-3.5架构的大型语言模型并通过
强化学习
进行训练。ChatGPT以对话方式进行交互,可以用于包括自动文本生成、自动问答、自动摘要等在内的多种任务。
SoftwareTeacher
·
2023-01-27 17:11
人工智能实战
chatgpt
人工智能
职场和发展
大数据
软件工程
元学习总览
强化学习
博客链接深度
强化学习
博客链接自动机器学习博客链接自研一第二学期以来,研究元学习有小半年时间,但是出于某种不可抗力,我的研究方向突然变更为自动机器学习(AutoML)。
麦晓宇
·
2023-01-27 15:26
深度学习
机器学习
人工智能
用tensorflow 创建一个基于策略网络的Agent来解决CartPole问题
和之前的任务不同,在
强化学习
中可能没有绝对正确的学习目标,样本的feature和label也不在一一对应。我们的学习目标是期望价值,即当前获得的reward和未来潜在的可获取的reward。
河南骏
·
2023-01-27 11:03
强化学习
入坑之路04
强化学习
入坑之路04今天继续
强化学习
的学习,这些内容的学习主要参考了李宏毅的
强化学习
教程,在此基础上加入了个人的理解和总结。好,废话少说下面开始进入正题。
尼尔-冯-哈尔滨
·
2023-01-27 09:42
我的博客
神经网络
深度学习
走向开放世界
强化学习
、IJCAI2022论文精选、机器人 RL 工具、
强化学习
招聘、《
强化学习
周刊》第73期...
No.73智源社区
强化学习
组
强化学习
周刊订阅《
强化学习
周刊》已经开启“订阅功能”,扫描下面二维码,进入主页,选择“关注TA”,我们会向您自动推送最新版的《
强化学习
周刊》。
智源社区
·
2023-01-26 15:56
机器人
人工智能
使用CNN进行2D路径规划
如今
强化学习
被广泛
·
2023-01-26 12:29
人工智能:现代方法阅读笔记3
3.1问题求解智能体信息已知的问题求解过程:目标形式化、问题形式化、搜索、执行搜索问题和解搜索问题的形式化定义包括:状态空间、初始状态、目标状态、行动、转移模型、动作代价函数(跟
强化学习
何草不玄丶
·
2023-01-26 12:13
算法
人工智能
人工智能入门杂记
目录1.数据挖掘、机器学习、深度学习、云计算、人工智能2.深度学习、
强化学习
、对抗学习、迁移学习3.基础知识--线性代数4.基础知识--概率与数理统计5.常用工具库6.机器学习6.1什么是训练什么是推理
三三木木七
·
2023-01-26 10:05
机器学习
杂记
人工智能
Datawhale组队学习-机器学习Task1
(1)建立function3.机器学习的相关技术(1)有监督学习(2)半监督学习(3)迁移学习(4)无监督学习(5)结构化学习(6)
强化学习
Datawhale组队学习-机器学习Task1视频学习链接:李宏毅
SIGH233
·
2023-01-26 08:53
机器学习
python
机器学习读书笔记:
强化学习
文章目录
强化学习
基本模型K-摇臂赌博机模型ϵ\epsilonϵ-贪心Softmax有模型学习策略评估策略改进免模型学习蒙特卡洛
强化学习
采样策略改进时态差分学习值函数近似模仿学习直接模仿学习逆
强化学习
强化学习
基本模型
强化学习
的过程如下图所示
新兴AI民工
·
2023-01-26 07:31
机器学习读书笔记
机器学习
强化学习
马尔可夫链蒙特卡洛方法
K-摇臂
推荐算法最前沿|KDD2020推荐系统论文一览
同时,GNN、
强化学习
、多任务学习、迁移学习、AutoML、元学习在推荐系统的落地应用也成为当下的主要研究点。此
文文学霸
·
2023-01-25 15:07
百度
编程语言
推荐系统
算法
ai
上一页
47
48
49
50
51
52
53
54
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他