E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
GAN-强化学习
0基础创建自定义gym环境-以股票市场为例
翻译完,我自己都觉得语句不通顺,各位看客见谅哈,英文水平慢慢修炼中OpenAI的gym是一个非常棒的包(package),可以用来创建自定义
强化学习
智体。自带许多内置环境如:CartPole、
quantLearner
·
2022-11-30 13:21
#
强化学习
#
强化学习与量化交易
0基础
自定义
gym环境
股票市场
OpenAI
零基础创建自定义gym环境——以股票市场为例
强化学习
算法直接调用了stable-base
sumilkk
·
2022-11-30 13:18
强化学习
人工智能
DRL基础(四)——编程:python与numpy基础
现代深度
强化学习
,包括多智能体
强化学习
,研究者大多使用Python进行试验验证。主要的原因就是Python语言较为贴近自然语言,入门容易,具有各种方便好用的功能包。
二向箔不会思考
·
2022-11-30 13:13
python
numpy
入门
Python字典
Python类
Datawhale机器学习学习总结22-11-27
:机器学习简介首先讲了[机器学习介绍],介绍了什么是机器学习,人工智能、机器学习、深度学习的关系,以及常见的几种机器学习领域:监督学习(回归、分类、结构化学习)半监督学习(元学习、迁移学习)无监督学习
强化学习
回归模型介绍然后着
晨哥是个好演员
·
2022-11-30 12:55
机器学习
学习
人工智能
统计学习方法及监督学习
§1.2统计学习分类♧1.2.1基本分类统计学习或
强化学习
一般包括监督学习、无监督学习和
强化学习
。有时还包括半监督学习和主动学习。♡1监督学习本质是学习输入到输出的映射的统计规律。
sunflower_level1
·
2022-11-30 11:55
机器学习
监督学习
《
强化学习
周刊》第25期:DeepMind提出无模型风险敏感
强化学习
、谷歌发布 RLDS数据集生态系统...
No.25智源社区
强化学习
组
强化学习
研究观点资源活动关于周刊
强化学习
作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。
智源社区
·
2022-11-30 11:24
算法
大数据
python
机器学习
人工智能
强化学习
实战——Motion Imitation环境配置+所遇问题(win10)
GitHub代码注意:本篇环境配置是基于上一篇
强化学习
实战——OpenAIGym环境配置+实战演示(win10)环境的延续!!!
李卓璐
·
2022-11-30 10:38
强化学习实战
python
开发语言
强化学习
实战——OpenAI Gym环境配置+实战演示(win10)
一、OpenAIGym环境配置1、创建虚拟环境condacreate--namezyj(环境名)python==3.7condaactivatezyj2、下载依赖包参考材料#可以直接pip下载的包:pipinstallffmpegpipinstallpyvirtualdisplaypipinstallimportlib-metadata==4.12.0pipinstallstable-baseli
李卓璐
·
2022-11-30 10:38
强化学习实战
python
linux
ubuntu
深度
强化学习
(DRL)学习笔记(1 - 4章)
文章目录前言常用符号摘自课本概念、参数出处或者定义(方便理解和查阅)第一章概率论基础与蒙特卡洛概率论基础(具体自己补)蒙特卡洛第二章深度学习基础线性模型线性回归逻辑斯蒂回归Softmax分类器神经网络全连接神经网络(多层感知层)卷积神经网络(CNN)反向传播和梯度下降梯度下降反向传播第三章马尔可夫决策过程(MDP)基本概念(一定要牢记
流荧静水
·
2022-11-30 10:03
人工智能
人工智能
深度学习
【医疗人工智能】DKDR:一种用于疾病诊断的知识图谱和深度
强化学习
方法
Article作者:YuanyuanJia,ZhirenTan,JunxingZhang文献题目:DKDR:AnApproachofKnowledgeGraphandDeepReinforcementLearningforDiseaseDiagnosis文献时间:2019摘要使用人工智能解决医疗问题一直是一个有趣但具有挑战性的话题。近年来,随着电子病历(EMR)的出现,许多研究人员开始专注于通过挖
Wwwilling
·
2022-11-30 06:53
医疗人工智能
知识图谱
深度学习
人工智能
强化学习
【
强化学习
论文】小样本策略泛化的提示决策转换器
与旨在通过更好的算法设计实现快速适应的离线元
强化学习
相比,我们研究了架构归纳偏差对少样本学习能力的影响。
Wwwilling
·
2022-11-30 06:53
推荐系统论文阅读
深度强化学习
Transformer系列论文
transformer
人工智能
NeurIPS论文解读|Decision Transformer: 通过序列建模解决离线
强化学习
问题
今天为大家推荐一篇2021年被NeurIPS收录的一篇论文。《DecisionTransformer:reinforcementlearningviasequencemodeling》推荐读者将本博客结合原论文食用。如有谬误偏颇烦请指出!论文链接:https://openreview.net/forum?id=a7APmM4B9d1.论文概览先谈谈我的看法:在我看来,DecisionTransfo
OpenDILab开源决策智能平台
·
2022-11-30 06:50
OpenDILab
强化学习
transformer
深度学习
人工智能
Transformer + RL:是
强化学习
魔高一尺,还是 Transformer 道高一丈? (1)
引言:为什么Transformer在RL上不workTransformer最早发源于自然语言处理领域(NLP),以一个非常惊人的标题“AttentionisAllYouNeed”催生了无数后续工作,而Transformer最近的一些变体已经在NLP领域证明了其可以在大多数任务中取代并超越经典模型LSTM/GRU。另一方面,其他领域的研究者也在尝试Transformer是否可以将其优势和潜力推广出来
OpenDILab开源决策智能平台
·
2022-11-30 06:50
强化学习
transformer
深度学习
人工智能
【Pytorch教程】:自编码 (Autoencoder)
分类)快速搭建法批训练加速神经网络训练Optimizer优化器卷积神经网络CNN卷积神经网络(RNN、LSTM)RNN循环神经网络(分类)RNN循环神经网络(回归)自编码(Autoencoder)DQN
强化学习
生成对抗网络
_APTX4869
·
2022-11-30 06:50
Pytorch
Decision Transformer 前沿追踪——万物皆可归于序列预测
引言如果想要将
强化学习
技术应用在某个决策领域,最重要的就是将原始问题转换为一个合理的MDP(马尔科夫决策过程)问题,而一旦问题环境本身有一些不那么友好的”特性“(比如部分可观测,非平稳过程等等),常规
强化学习
方法的效果便可能大打折扣
OpenDILab开源决策智能平台
·
2022-11-30 06:20
OpenDILab
transformer
深度学习
人工智能
Online Decision Transformer
摘要最近的工作表明,离线
强化学习
(RL)可以表述为序列建模问题(Chenetal.,2021;Janneretal.,2021),并通过类似于大规模语言建模的方法来解决。
Wwwilling
·
2022-11-30 06:45
Transformer系列论文
深度强化学习
推荐系统论文阅读
transformer
深度学习
人工智能
Gym学习(1)基本的环境搭建与参数含义
因为gym中封装了很多
强化学习
的环境,我们在入门或者研究DRL时可以轻视调用gym中写好的环境,帮助我们快速完成任务。OpenAIGym是一个环境仿真库,里面包含了很多现有的环境。
小帅吖
·
2022-11-30 02:56
gym学习
gym
python
DRL
强化学习
丨n步时序差分算法(n-step Bootstrapping)及编程实践
算法介绍3.2算法应用四、n步离轨策略学习4.1算法介绍4.2带控制变量的每次决策型方法4.3n步树回溯4.3.1算法介绍4.3.2算法应用五、总结一、算法介绍上篇文章对(单步)时序差分算法做了介绍:
强化学习
丨时序差分算法
XD_MaoHai
·
2022-11-30 00:45
强化学习
算法
python
强化学习
机器学习
强化学习
丨蒙特卡洛方法及关于“二十一点”游戏的编程仿真
目录一、蒙特卡洛方法简介二、蒙特卡洛预测2.1算法介绍2.2二十一点(Blackjack)2.3算法应用三、蒙特卡洛控制3.1基于试探性出发的蒙特卡洛(蒙特卡洛ES)3.1.1算法介绍3.1.2算法应用3.2同轨策略(on-policy)MC控制算法3.2.1算法介绍3.2.2算法应用3.3离轨策略(off-policy)3.3.1重要度采样3.3.2离轨策略MC预测算法3.3.3离轨策略MC控制
XD_MaoHai
·
2022-11-30 00:14
强化学习
算法
python
马尔可夫链蒙特卡洛方法
强化学习
丨时序差分算法TD(0)及相关编程仿真
目录一、算法简介二、时序差分预测2.1算法介绍2.2算法应用:随机游走问题2.3TD(0)与MC的比较以及批量更新三、Sarsa:同轨策略下的时序差分控制算法3.1算法介绍3.2算法应用:悬崖行走问题(CliffWalking)四、Q学习:离轨策略下的时序差分控制算法4.1算法介绍4.2算法应用五、期望Sarsa5.1算法介绍5.2算法应用5.3三种控制算法之间的比较六、最大化偏差与双学习6.1最
XD_MaoHai
·
2022-11-30 00:14
强化学习
算法
python
强化学习
机器学习
强化学习
丨多臂老虎机相关算法的总结及其MATLAB仿真
目录一、前言二、Bandit问题介绍三、相关算法介绍及仿真3.1ε-贪心算法3.1.1算法介绍3.1.2仿真程序3.1.3仿真结果及说明3.2非平稳问题3.2.1算法介绍3.2.2仿真程序3.2.3仿真结果及说明3.3乐观初始值3.3.1算法介绍3.3.2仿真程序3.3.3仿真结果及说明3.4无偏恒定步长技巧3.4.1算法介绍3.4.2仿真程序3.4.3仿真结果及说明3.5基于置信度上界(uppe
XD_MaoHai
·
2022-11-30 00:44
强化学习
算法
多智能体
强化学习
文献阅读记录(一):Shapley Q-Value: A Local Reward Approach to Solve Global Reward Games
ShapleyQ-Value:ALocalRewardApproachtoSolveGlobalRewardGamesWang,J.,Zhang,Y.,Kim,T.K.,&Gu,Y.(2020,April).ShapleyQ-value:Alocalrewardapproachtosolveglobalrewardgames.InProceedingsoftheAAAIConferenceonAr
木子泽月生
·
2022-11-29 23:20
python
人工智能
四轮移动机器人(小车)数学建模
理论工作也快完成了,在整理笔记的时候突然想起自己自从本科做智能车之后好久都没更新自己的CSDN博客了,因此新开一个专栏用于记录自己做项目和发文章的过程中学习的理论知识,博主目前的研究方向为机器人的决策规划与
强化学习
尔过留香
·
2022-11-29 21:40
理论笔记
机器人
David Silver
强化学习
公开课自学笔记——Lec3动态规划
本笔记摘自知乎博主旺财的搬砖历险记和叶强,仅用于自学1.动态规划介绍(1)定义Dynamic:sequentialortemporalcomponenttotheproblem.Programming:optimisinga“problem”动态:该问题的时间或序列部分规划:优化一个策略,与线性规划不同动态规划是解决复杂问题的一个方法把复杂问题分解问子问题求解子问题通过整合子问题的解得到整个问题的
Angel濠梁之上
·
2022-11-29 18:34
David
Silver强化学习公开课
算法
深度学习
David Silver
强化学习
公开课自学笔记——Lec2马尔科夫决策过程
本笔记摘自知乎博主旺财的搬砖历险记和叶强,仅用于自学0.数学规范大写字母表示随机变量:S,A,RS,A,RS,A,R等小写字母表示具体的值:s,a,rs,a,rs,a,r等空心字母表示统计运算符:E,P\mathbb{E},\mathbb{P}E,P等花体字母表示集合或函数:S,A,P\mathcal{S},\mathcal{A},\mathcal{P}S,A,P等1.马尔科夫过程(1)MDPs的
Angel濠梁之上
·
2022-11-29 18:33
David
Silver强化学习公开课
python
开发语言
强化学习
DQN Pytorch
1.游戏环境采用gym中的实例CartPole-v0环境,环境简介如下2.
强化学习
伪代码(1)原文DQN的基本思想最开始在如下文章内提出文中DQN的伪代码如下(2)原文中提出的DQN步骤:1.初始化定义经验池的大小和形状
Angel濠梁之上
·
2022-11-29 18:02
强化学习
pytorch
深度学习
人工智能
深度
强化学习
CS285-Lec18 Meta-Learning in RL
Meta-RL概述一、问题定义1.1监督学习1.2元学习1.3Meta-Learning的数据集设定与学习方式1.3.1元学习的数据集是怎样的?1.3.2Meta-Learning的学习方式1.4Meta-Learning的一些理解二、Meta-RL2.1问题描述:2.2Recurrence(fff为RNN,LLL为PG——PolicyGradient)2.3Optimization-Based(
Nemo555
·
2022-11-29 18:31
Deep
RL
深度强化学习
元学习
深度学习
深度
强化学习
CS285-Lec17 Distributed RL
TransferLearning与DistributedRL概述一、分布式RL架构1.1DQN1.2GORILA1.3A3C1.4IMPALA1.5Ape-X1.6R2D3二、其它引用较高的分布式RL架构2.1QT-Opt2.2AlphaZero2.3提升性能的Trick——PBT三、开源分布式架构——RLlib后记概述RL与监督学习的训练过程的区别在于,RL需要与环境进行交互获得样本来估计更新中
Nemo555
·
2022-11-29 18:01
Deep
RL
深度强化学习
分布式
神经网络
机器学习
深度
强化学习
CS285 lec13-lec15 (下)
逆
强化学习
IRL概述一、InverseRL背景1.1ImitationLearning与InverseRL1.2StandardRL与InverseRL二、InverseRL2.1Recap2.2MaximumLikelihoodLearning2.3MaximumEntropyIRL2.4GuidedCostLearning2.5GAIL2.6GAIRL
Nemo555
·
2022-11-29 18:30
Deep
RL
深度强化学习
深度学习
人工智能
机器学习
深度
强化学习
CS285 lec13-lec15 (中)
SoftOptimality概述一、概率图基础知识二、SoftOptimalityFramework2.1Recap2.2SoftOptimality与ValueIteration的联系2.3OptimismProblem(关键哦!)2.3.1Optimism问题的引出2.3.2Soft与StandardRL的区别2.3.3Deterministicdynamics的Objective2.3.4S
Nemo555
·
2022-11-29 18:29
Deep
RL
深度强化学习
人工智能
机器学习
深度
强化学习
CS285 lec13-lec15 基础知识:变分推断VI与GAN
变分推断VariationalInference、生成对抗网络GAN概述一、简要回顾信息论1.1概念与公式1.2小总结二、变分推断(VariationalInference)2.1背景2.2VariationalInference三、GAN3.1原始GAN3.2“-logDtrick”的GAN小结概述Lec1-Lec4RLIntroduction介绍传统ImitationLearning的背景、算
Nemo555
·
2022-11-29 18:28
Deep
RL
深度学习
机器学习
深度强化学习
深度
强化学习
CS285 lec5-lec9(超长预警)
深度
强化学习
CS285lec5-lec9学习感悟一、策略梯度(PolicyGradient)1.1REINFORCE1.2改进方法1.2.1因果性(Causality)1.2.2基准(Baselines
Nemo555
·
2022-11-29 18:27
Deep
RL
强化学习
人工智能
算法
深度学习
机器学习
cs285深度
强化学习
课程笔记-lec1
cs285深度
强化学习
课程笔记lec1深度
强化学习
的概念核心观点智能机器必须能学会适应深度学习有助于处理非结构化的环境
强化学习
提供了一种行为范式深度
强化学习
提供了端到端的方案。
HarryChi
·
2022-11-29 18:54
cs285深度强化学习课程笔记
机器学习
人工智能
2018UCBerkeley深度
强化学习
-模拟学习Lec2
课程内容符号的介绍模仿学习(imitatelearning)符号符号含义这里不再赘述,这里需要注意的是:state与observation的区别。正如课堂中老师所说:Thestateisactuallythesufficientkindofsummaryofwhat‘sgoingonintheworld.Theobservationisaconsequenceofstatebutitmightbe
sunflower_level1
·
2022-11-29 18:48
深度学习
人工智能
强化学习
2018UCBerkeley深度
强化学习
Lec1
课程内容深度学习(DeepLearning)的简介
强化学习
(ReinforcementLearning)的简介深度
强化学习
深度学习适用环境:无结构环境(unstructuredenvironment)优点
sunflower_level1
·
2022-11-29 18:17
强化学习
深度学习
神经网络
David Silver
强化学习
公开课自学笔记——Lec1
强化学习
简介
本笔记摘自知乎博主旺财的搬砖历险记和叶强,仅用于自学1.背景介绍(1)背景
强化学习
是多学科多领域交叉的产物,本质是解决决策问题,即学会自动决策,在各个领域体现不同,但都归结为人类如何且为什么能做出最优决策
Angel濠梁之上
·
2022-11-29 18:15
David
Silver强化学习公开课
算法
人工智能
集成图像算法通信传感集成的搬运服务机器人工程
图像方面:2D3D成像,算法:目标检测,路径规划,深度学习,
强化学习
通信:无线5G毫米波激光场景图像成像,
强化学习
训练动作过程场景识别,路径规划,深度学习目标识别通信和传感器形成控制系统,储能系统,100
听海拉拉
·
2022-11-29 16:55
机器视觉工程
嵌入式图像
机器人
深度学习在医疗领域的应用
JeffDean等发文《NatureMedicine》,综述深度学习在医疗领域的应用医疗行业中的深度学习技术,主要从计算机视觉、自然语言处理、
强化学习
和通用方法这些方面入手。
qq_43222384
·
2022-11-29 13:14
AI医疗
强化学习
在图像分割上的新应用:协同分割
ANovelImageCo-SegmentationAlgorithmwithDeepReinforcementLearning单位:北京理工大学计算机学院北京智能信息技术实验室作者:XinDuan,XiabiLiu,XiaopengGong,MengqiaoHan论文链接:https://arxiv.org/ftp/arxiv/papers/2204/2204.05951.pdf1.Abstra
回想sy
·
2022-11-29 10:20
论文阅读
强化学习
机器学习
深度学习
DDQN与DQN算法用tensorflow2.0实现
深度
强化学习
DoubleDeepQLearning算法和DeepQLearning用tensorflow2.0实现DQN算法实现首先搭建网络结构,是一个很简单的三个全连接层。
回想sy
·
2022-11-29 10:49
深度学习
神经网络
强化学习
算法
tensorflow
机器学习——推荐系统和
强化学习
目录一、无监督学习1.1聚类1.1.1K-means的直观理解1.1.2K-means算法实现1.1.3优化目标1.1.4初始化K-means1.1.5选择聚类数量1.2异常检测1.2.1发现异常事件1.2.2高斯正态分布1.2.3异常检测算法1.2.4开发与评估异常检测系统1.2.5异常检测与监督学习的对比1.2.6选择使用什么特征二、推荐系统2.1算法构建2.1.1使用每个特征2.1.2协同过
清园暖歌
·
2022-11-29 10:03
机器学习
机器学习
tensorflow
人工智能
推荐算法
无监督学习
【
强化学习
论文合集 | 2021年合集】四. ICLR-2021
强化学习
论文
欢迎订阅本专栏:《
强化学习
论文合集》订阅地址:https://blog.csdn.net/m0_38068876/category_12115798.html【
强化学习
论文合集】专栏介绍(订阅前必读)【
Allenpandas
·
2022-11-29 10:30
强化学习论文合集
人工智能
强化学习
深度学习
Other-Website-Contents.md
Othersticky:10toc:truekeywords:机器学习基础深度学习基础人工智能数学知识机器学习入门date:9999-12-3123:59:59本站包含作者原创的关于人工智能的理论,算法等博客,目前包括:
强化学习
非主流科学家
·
2022-11-29 10:56
机器学习
DQN-TC搭建整理
当前的文本是当前episode的最后一个的时候r[j]=EG,否则r[j]=0【EG:推文的期望增益】N:文本数量,G(t):文本的增益具体流程:1、使用单层LSTM层作为编码器,用于生成文本的向量表示2、
强化学习
中使用三层架构的神
卧语寒蝉
·
2022-11-29 09:57
nlp
第1关:机器学习类型
相关知识为了完成本关任务,你需要掌握:监督学习;非监督学习;
强化学习
。
畜牧当道
·
2022-11-29 08:29
神经网络学习
人工智能
python
第十二周学习总结 Progress & Lack
还有重要的是计划应该是可执行可完成的,本周制定计划时大而无象,
强化学习
的学习之路尚不明确,应该从教材、博客、论文的阅读起步,不应该因为畏惧而拖延,因完不成感到挫败。计划也应该和其他
孔孔_FuZhan
·
2022-11-29 08:39
毕业设计的博客
学习
人工智能
算法
强化学习
(Q-learning)
强化学习
RF简介
强化学习
是机器学习中的一种重要类型,一个其中特工通过执行操作并查看查询查询结果来学习如何在环境中表现行为。
我不是zzy1231A
·
2022-11-29 07:12
强化学习
人工智能
机器学习
算法
强化学习
【头歌】神经网络学习之机器学习基础
C、
强化学习
不需要训练数据。D、非监督学习的结果具有不确定性。【答案】AC2、下列关于回归和分类问题的说法错误的是:A、回归问题的输出y为离散的类别标记或者数值。B、分类问题的主要手段为概率计算。
MQiyirs
·
2022-11-29 07:24
头歌
神经网络
学习
Recommendation Fairness: From Static to Dynamic 阅读笔记
论文链接https://arxiv.org/abs/2109.03150v1Section1引言越来越多的推荐系统开始将推荐建模为一个马尔可夫决策过程,并使用
强化学习
来解决这个问题。
Catherine_he_ye
·
2022-11-29 03:00
强化学习
算法公平
【五】AI Studio 项目详解【VisualDL工具、环境使用说明、脚本任务、图形化任务、(五)在线部署及预测】PARL
相关文章【一】-环境配置+python入门教学【二】-Parl基础命令【三】-Notebook、&pdb、ipdb调试【四】-
强化学习
入门简介【五】-Sarsa&Qlearing详细讲解【六】-DQN【
汀、
·
2022-11-28 22:31
#
飞桨parl_AI
stdio项目详解
飞桨parl
python
人工智能
强化学习
机器学习
深度学习
上一页
71
72
73
74
75
76
77
78
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他