E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
GAN-强化学习
【无标题】
基于LSTM预测和深度
强化学习
的任务卸载在物联网中的高效边缘计算摘要在物联网边缘计算中,任务卸载会导致额外的传输延迟和传输能耗。
动物园警铃大作-
·
2022-12-05 23:53
edge
前端
缓存
【论文解析】Fast Adaptive Task Offloading in Edge Computing Based on Meta Reinforcement Learning
基于元
强化学习
的边缘计算快速自适应任务卸载摘要:多接入边缘计算(multi-accessedgecomputing,MEC)旨在将云服务扩展到网络边缘,以减少网络流量和业务延迟。
橙子渣渣
·
2022-12-05 23:52
论文与源码
机器学习
算法
python
Adaptive Digital Twin and Multiagent Deep Reinforcement Learning for Vehicular Edge Computing and Ne
目录研究背景keypoints:系统模型:V2V为主4数字孪生与多智能学习在车辆边缘计算管理中的整合方案4.1数字孪生网络辅助边缘车辆聚合4.2多智能体学习赋能边缘资源分配
强化学习
:协调图CG解耦合:4.3
qvolve
·
2022-12-05 23:22
边缘计算
人工智能
初探
强化学习
(1)蒙特卡洛采样
文本从这个网页搬来的:https://zhuanlan.zhihu.com/p/3381036921.蒙特卡洛的概念蒙特卡洛原来是一个赌场的名称,用它作为名字大概是因为蒙特卡洛方法是一种随机模拟的方法,这很像赌博场里面的扔骰子的过程。最早的蒙特卡洛方法都是为了求解一些不太好求解的求和或者积分问题例如下图是一个经典的用蒙特卡洛求圆周率的问题,用计算机在一个正方形之中随机的生成点,计数有多少点落在1/
难受啊!马飞...
·
2022-12-05 23:50
强化学习
强化学习
如何在AI工程实践中选择合适的算法?
在使用深度
强化学习
(DeepReinforcementLearning,DRL)算法解决实际问题的过程中,明确任务需求并初步完成问题定义后,就可以为相关任务选择合适的DRL算法了。
博文视点
·
2022-12-05 23:47
博文视点IT荐书吧
算法
机器学习
深度学习
Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems
DeepReinforcementLearningforTaskOffloadinginMobileEdgeComputingSystems移动边缘计算系统中任务卸载的深度
强化学习
时间:2020期刊:TMC
动物园警铃大作-
·
2022-12-05 23:15
edge
前端
缓存
【李佳辉_周报_2022.10.23】
文章目录1.本周学习主要内容1.1Transformer和Bert1.2机器学习模型部署1.3基于DQN的
强化学习
算法1.4机器学习特征工程的复习2.所遇到问题及代办3.本周重点3.1Transformer
qq_44954885
·
2022-12-05 14:06
深度学习
人工智能
《因果科学周刊》第7期:2021因果
强化学习
第一课
本期的主题是“因果
强化学习
”,它在众多通向通用人工智能的路径中备受关注,我们非常荣幸邀请到了剑桥博士陆超超,研究方向是因果
强化学习
,一位在此领域特别有活力的青年科学家,他精心为大家挑选了因果
强化学习
领域的
智源社区
·
2022-12-05 14:27
算法
人工智能
大数据
编程语言
python
【学习周报】
强化学习
基础内容
在上周,通过结合HMN项目中的video信息与其各项评估分数(BLEU、CIDEr、METEOR、ROUGE)加以分析,发现了模型在某些类别活动上的识别效果一般,为了改善模型在数据集上的表现,尝试借助
强化学习
的方式
Bohemian_mc
·
2022-12-05 14:56
学习
深度学习
目标检测
动手学深度学习(1)—— 基础知识
文章目录一、基本概念1.1关键组件数据模型目标函数优化算法1.2各种机器学习问题监督学习无监督学习
强化学习
1.3神经网络的特点二、预备知识2.1数据操作入门运算符广播机制索引和切片节省内存转换为其他python
zyw2002
·
2022-12-05 13:55
深度学习基础
深度学习
人工智能
DeepMind成功使用"深度
强化学习
"技术完美控制"核聚变反应堆"!
本文约1400字,建议阅读5分钟DeepMind开发出世界上第一个深度
强化学习
AI。DeepMind在蛋白质折叠问题上实现巨大突破后,目标又转向核聚变了。
数据派THU
·
2022-12-05 13:51
人工智能
深度学习
机器学习
算法
大数据
DeepMind
强化学习
算法控制核聚变登上Nature
来源:机器之心本文约2400字,建议阅读5分钟用
强化学习
控制核聚变反应堆内过热的等离子体。
数据派THU
·
2022-12-05 13:51
算法
人工智能
大数据
python
机器学习
首个深度
强化学习
AI,能控制核聚变,成功登上《Nature》
编译|禾木木出品|AI科技大本营(ID:rgznai100)最近,DeepMind开发出了世界上第一个深度
强化学习
AI,可以在模拟环境和真正的核聚变装置中实现对等离子体的自主控制。
AI科技大本营
·
2022-12-05 13:16
神经网络
人工智能
机器学习
深度学习
大数据
史上首次,
强化学习
算法控制核聚变登上Nature:DeepMind让人造太阳向前一大步...
来源:机器之心过去三年,DeepMind和瑞士洛桑联邦理工学院EPFL一直在进行一个神秘的项目:用
强化学习
控制核聚变反应堆内过热的等离子体,如今它已宣告成功。
人工智能学家
·
2022-12-05 13:46
人工智能
大数据
python
机器学习
深度学习
有AI学会控制核聚变反应堆了,来自DeepMind,登上今日Nature
最近,它开发出了世界上第一个深度
强化学习
AI——可以在模拟环境和真正的核聚变装置(托卡马克)中实现对等离子体的自主控制。陌生名词不要急,后面马上解释。
QbitAl
·
2022-12-05 13:45
人工智能
机器学习
深度学习
算法
神经网络
GNN的第一个简单案例:Cora分类
GNN–Cora分类Cora数据集是GNN中一个经典的数据集,将2708篇论文分为七类:1)基于案例、2)遗传算法、3)神经网络、4)概率方法、5)、
强化学习
、6)规则学习、7)理论。
想成为风筝
·
2022-12-05 12:01
python
深度学习
机器翻译
强化学习
中loss函数不下降
问题描述采用PPO算法训练gym.make('CartPole-v0')环境。参数设置如下:hidden_units=50layers=3learning_rate=0.001#critic和actorlearningrate相同max_train_episodes=int(1e4)在训练过程中效果逐渐变好,即每50步的平均reward增加,但是loss函数不下降但是训练过程中的criticlos
彬-
·
2022-12-05 10:14
先用深度学习与
强化学习
踢场 FIFA 18
全文共分为两部分:用神经网络监督式地玩FIFA18;用
强化学习
Q学习玩FIFA18。
weixin_34415923
·
2022-12-05 10:31
人工智能
python
游戏
关于gym新版本0.23.0版本的一些问题以及Box2D的安装
1、所遇到的问题由于我在
强化学习
需要使用Box2D模块,于是我先使用anaconda卸载重装了当前的gym包(旧版本为0.21.0)。
深度不睡觉
·
2022-12-05 10:55
深度学习&强化学习
pygame
python
开发语言
李宏毅机器学习笔记
reinforcementlearning
强化学习
,机器自主进行学习。
FF_y
·
2022-12-05 09:20
python
【Sarsa&Q-learning】表格型
强化学习
方法
文章目录1.项目准备1.1.问题导入1.2.环境介绍2.SARSA算法2.1.算法简介2.2.算法伪码2.3.算法实现(1)前期准备(2)构建智能体(3)训练与测试3.Q-learning算法3.1.算法简介3.2.算法伪码3.3.算法实现(1)前期准备(2)构建智能体(3)训练与测试4.实验结论写在最后1.项目准备1.1.问题导入Sarsa算法和Q-learning算法是两种基于表格的经典强化学
Kevin Tang
·
2022-12-05 07:53
机器学习
机器学习
python
推荐系统的发展与简单回顾
“本文结合百度和支付宝两段推荐系统相关的实习经历,针对工业界的模型发展做了简单梳理与回顾,涵盖表示学习,深度学习,
强化学习
知识图谱以及多任务学习”表示学习和深度学习在推荐系统中的应用是目前工业界比较成熟的
夕小瑶
·
2022-12-05 07:57
机器学习算法的开源可视化工具: MLDemos
MLDemos介绍MLDemos是一种用于机器学习算法的开源可视化工具,用于帮助研究和理解多个算法如何运作以及它们的参数如何影响和修改分类,回归,聚类,降维,动态系统和
强化学习
(奖励最大化)等问题的结果
weixin_33724046
·
2022-12-04 22:17
人工智能
操作系统
git
第二次作业:深度学习基础
然后讲解了机器学习的定义,即计算机系统能够利用经验提高自身的性能,将机器学习分为三个主要部分:模型、策略和算法,讲解了半监督学习、监督学习、无监督学习和
强化学习
的特征。比较了参数模型和无参数模型。
qq_52390277
·
2022-12-04 19:54
深度
强化学习
中利用N-步TD预测算法在随机漫步应用中实战(超详细 附源码)
需要源码请点赞关注收藏后评论区留下QQ或者私信~~~一、N-步TD预测N步TD预测算法在TD(0)和MC之间架起了一座桥梁,而TD(L)算法则能进一步实现两者之间的无缝衔接。下面介绍N步TD预测N步TD算法更新方式介于TD(0)和MC之间,该类算法利用未来多步奖赏和多部之后的值函数估计求得目标值,例如两步更新就是利用未来两步奖赏和两步之后的值函数估计得到两步回报。N步TD属于TD(时序差分法)当前
showswoller
·
2022-12-04 16:15
深度强化学习
算法
深度学习
pycharm
人工智能
(ICLR-2019)DARTS:可微分架构搜索
与传统的在离散的、不可微分的搜索空间上应用进化或
强化学习
的方法不同,我们的方法是基于架构表示的连续松弛,允许使用梯度下降法有效搜索架构。在C
顾道长生'
·
2022-12-04 14:12
神经架构搜索
架构
深度学习
计算机视觉
论文笔记(七)Learning from Longitudinal Face Demonstration - Where Tractable Deep Modeling Meets Inverse
这篇文章是关于逆
强化学习
的应用,主要是实现了人脸的老化,是最近发表在arxiv上的文章。论文地址本文主要是对这篇文章阅读过程的笔记。
daydayjump
·
2022-12-04 10:20
每周论文笔记
aging
inverse
reinforcement
learning
读书笔记-Coordinated Deep Reinforcement Learners for Traffic Light Control
在交通灯控制问题引入了一种新的奖励函数,并提出了将DQN算法与传输规划transferplanning相结合的多代理深度
强化学习
方法。
EmilyGnn
·
2022-12-04 10:50
交叉口控制
读书笔记
论文笔记之:Continuous Deep Q-Learning with Model-based Acceleration
ContinuousDeepQ-LearningwithModel-basedAcceleration本文提出了连续动作空间的深度
强化学习
算法。
a1424262219
·
2022-12-04 10:19
开发工具
人工智能
强化学习
w/ Keras + OpenAI的实践:Actor-Critic模型
快速回顾在上次的Keras/OpenAI教程中,讨论了一个非常基础的
强化学习
算法——DQN(深度Q网络)。
TUPUTECH
·
2022-12-04 08:08
Actor-Critic模型
【
强化学习
笔记-02】多任务深度
强化学习
“ASurveyofMulti-TaskDeepReinforcementLearning”-2020中文整理:https://zhuanlan.zhihu.com/p/265750570在中文整理的基础上对一些方法进行了补充。存在的问题:普通RL算法在同一环境中跨相关任务的许多场景中的适用性有限本文的目的是surveyDRL领域中与多任务相关的研究挑战,并通过比较sota方法——DISTRAL(
Xieyh@CUC
·
2022-12-04 07:12
强化学习
强化学习
深度
强化学习
实验室(http://deeprlhub.com)
总结1:周志华||AI领域如何做研究-写高水平论文总结2:全网首发最全深度
强化学习
资料(永更)总结3:《
强化学习
导论》代码/习题答案大全总结4:30+个必知的《人工智能》会议清单总结5:2019年-57
深度强化学习实验室
·
2022-12-04 07:02
强化学习
人工智能
深度学习
编程语言
自然语言处理
基于
强化学习
的综合能源系统管理综述-笔记
这篇笔记主要突出
强化学习
的特点以及于综合能源系统管理上的应用,着重于引出后文的可研究点。具体的方法论文可以参见最后的推荐论文,大都为近年顶刊。
新一k
·
2022-12-04 07:59
综合能源系统规划研究
人工智能
机器学习
能源
深度
强化学习
的组合优化[1] 综述阅读笔记
组合优化问题基础1.定义(1)定义(2)常见问题2.方法(1)精确方法(2)近似方法(3)深度学习方法3.文章架构一、概述1.神经网络(1)Hopfield网络(2)指针网络Ptr-Net(3)图神经网络3.深度
强化学习
好奇小圈
·
2022-12-04 07:54
个人笔记
算法
深度学习
Unity
强化学习
工具包MLAgents环境搭建
你可以使用reinforcementlearning(
强化学习
)、imitationlearning(模仿学习)、neuroevolution(神经进化)或其他机器学习方法通过简单易用的PythonAPI
WEIXW99
·
2022-12-03 21:52
python
unity
人工智能
[Unity与
强化学习
] ML-Agents Python Api 环境配置与开发
unity官方提供基于PyTorch的
强化学习
算法的实现,使游戏开发人员和爱好者能够轻松地为2D、3D和VR/AR游戏训练智能代理。
丧心病狂の程序员
·
2022-12-03 21:22
unity
python
python
机器学习
深度学习
unity
pygame
Unity的机器学习工具包ML-Agents
而在几年前随着人工智能的兴起,
强化学习
算法的不断改进,
Peter_Gao_
·
2022-12-03 21:50
计算机视觉
Unity3D
Python
unity
游戏引擎
强化学习
笔记:AlphaGo(AlphaZero) ,蒙特卡洛树搜索(MCTS)
1AlphaZero的状态围棋的棋盘是19×19的网格,可以在两条线交叉的地方放置棋子,一共有361个可以放置棋子的位置,因此动作空间是A={1,··,361}。比如动作a=123的意思是在第123号位置上放棋子。AlphaGoZero使用19×19×17的张量表示一个状态。张量每个切片(Slice)是19×19的矩阵,对应19×19的棋盘。一个19×19的矩阵可以表示棋盘上所有黑子的位置。如果一
UQI-LIUWJ
·
2022-12-03 19:04
强化学习
强化学习
强化学习
(五)—— AlphaGo与Alpha Zero
强化学习
(五)——AlphaGo与AlphaZero1.AlphaGo1.1论文链接1.2输入编码(State)1.3训练及评估流程1.4模仿学习(BehaviorCloning)1.5策略网络依据策略梯度进行学习
CyrusMay
·
2022-12-03 19:03
强化学习
强化学习
OpenAI
Gym
python
人工智能
阿尔法狗
动手学
强化学习
Day1-基本概念
文章目录1.1什么是
强化学习
1.2
强化学习
的环境1.3
强化学习
的目标1.4
强化学习
的数据1.5
强化学习
的特征1.1什么是
强化学习
在机器学习领域,有一类重要的任务和人生选择很相似,即序贯决策(sequential
GallopZhang
·
2022-12-03 18:36
强化学习
人工智能
算法
Meta-World:多任务、持续学习、终身学习、元学习、
强化学习
的基准和评估
1.背景论文链接,斯坦福大学、加州大学伯克利分校、哥伦比亚大学、南加州大学、谷歌联合完成,发表于PMLR2020paperwithcode网页链接项目主页链接源代码链接2.基准相关的持续学习论文LifelongPolicyGradientLearningofFactoredPoliciesforFasterTrainingWithoutForgettingLifelongMachineLearni
阿航626
·
2022-12-03 13:22
机器人操作持续学习论文
人工智能
元学习
持续学习
强化学习
机器人操作
ManiSkill 2022机器学习顶会ICLR上的世界顶尖机械臂大赛官网信息整理
1.基本介绍2.时间点2022.08.15全面开始还未公布结束时间,根据去年比赛,估计在12月或2023年1月中上旬结束3.三大赛道模仿学习/
强化学习
:操作刚体(不可使用外部数据集)无限制地操作刚体无限制地操作软体
阿航626
·
2022-12-03 13:52
机器人操作持续学习论文
机器学习
人工智能
ICLR
机器人学习
机器人操作
ManiSkill 2022机器学习顶会ICLR上的世界顶尖机械臂大赛赛题解读,演示轨迹转换,点云查看
1.赛事相关信息点击查看2.赛题分析软体对GPU要求较高,环境配置复杂,选择刚体环境先以模仿学习/
强化学习
的刚体环境为基础,后期再考虑无限制刚体环境部分任务(如将物块移动到指定位置),存在相机之外的额外输入
阿航626
·
2022-12-03 13:19
AI比赛与实战
机器人学习
matplotlib
点云
技能学习
机器人持续学习
【Nature重磅】OpenAI科学家提出全新
强化学习
算法,推动AI向智能体进化
深度
强化学习
实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑:DeepRL近年来,人工智能(AI)在
强化学习
算法的加持下
深度强化学习实验室
·
2022-12-03 13:19
游戏
编程语言
人工智能
强化学习
深度学习
单视频播放量超20万的公开课配套教材,猫书来了~
很难想象,网友们会用这些词来形容一个纯分享深度
强化学习
基础知识的视频课。
turingbooks
·
2022-12-03 13:32
人工智能
深度学习
1.2 无监督学习和
强化学习
1.2无监督学习和
强化学习
无监督学习定义无监督学习与监督学习的区别相关概念流程图
强化学习
无监督学习定义无监督学习(UnsupervisedLearning)是指从无标注数据中学习预测模型的机器学习问题,
是我樂樂呀
·
2022-12-03 12:08
统计学习方法
人工智能
算法
《
强化学习
》第四章 动态规划
文章目录4.1策略评估(预测)例4.1练习4.1练习4.2练习4.34.2策略改进4.3策略迭代例4.2杰克租车问题练习4.4练习4.5练习4.6练习4.7(编程)4.4价值迭代例4.3赌徒问题练习4.8练习4.9(编程)练习4.104.5异步动态规划4.6广义策略迭代4.7动态规划的效率4.8本章小结动态规划(DynamicProgramming,DP)是一类优化方法,在给定一个用马尔科夫决策过
草帽KIKI
·
2022-12-03 12:03
强化学习
算法
机器学习
强化学习
强化学习
-动态规划-杰克租车问题
例4.2:杰克管理一个全国性汽车出租公司的两个地点。每天一些顾客到这两个地点租车。如果有车可租,杰克就将车租出并从公司得到10美元的回扣。如果这个地点没车,杰克就失去了这笔生意。还回的车第二天就可以出租。为了使需要车的地点有车可租,每天晚上,杰克可以在两个地点间移动车辆,移动每辆车的费用是2美元。我们假设每个地点的车的需求量和归还量都是泊松分布变量。假设租车的期望值是3和4,还车的期望值是3和2。
龙今天超越了自己
·
2022-12-03 12:03
强化学习
强化学习
动态规划
强化学习
算法复现(二):动态规划_杰克租车问题【价值迭代】
价值迭代的思想是改变最优价值函数,使其包括对所有可能性动作的评估。这样我们就可以只关注valuefunction的收敛过程,只要valuefunction达到最优,那策略也达到最优,valuefunction没有最优,策略也还没有最优。待valuefunction收敛以后在进行决策,从而简化了迭代步骤。可视化过程如下动图所示:frommatplotlibimportpyplotaspltimpor
保护我方vivian
·
2022-12-03 12:33
强化学习
强化学习
算法
python
强化学习
——杰克出租车问题
杰克出租车问题代码地址https://github.com/LC044/Jack_Car_Rental一、代码结构├──ReadMe.md//帮助文档├──Jack_Car_RENTAL.py//主函数├──params.py//主要参数├──calculate_value.py//更新价值函数├──figure.py//绘图│├──result//运行结果二、问题描述三、问题分析将这个问题当作连
司小远
·
2022-12-03 12:01
python
学习
动态规划
策略模式
上一页
68
69
70
71
72
73
74
75
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他