论文笔记-Learning Latent Dynamics for Planning from Pixels

Learning Latent Dynamics for Planning from Pixels

1 介绍

论文笔记-Learning Latent Dynamics for Planning from Pixels_第1张图片
输入图像经过编码网络(灰色梯形)变成隐藏状态(绿色),然后隐藏状态可以被映射成奖励和图片。
论文笔记-Learning Latent Dynamics for Planning from Pixels_第2张图片
为了预演,我们将当前图片经过编码网络变成当前隐藏状态变成绿色,然后进行各个序列的虚拟预测,计算各个序列的奖励,最后返回最好序列的第一个action执行

2 算法

Deep planning net
论文笔记-Learning Latent Dynamics for Planning from Pixels_第3张图片
planning algorithm
论文笔记-Learning Latent Dynamics for Planning from Pixels_第4张图片
training loss
论文笔记-Learning Latent Dynamics for Planning from Pixels_第5张图片
论文笔记-Learning Latent Dynamics for Planning from Pixels_第6张图片
loss 可以分为两项,第一项为通过 s t s_t st预测的 o t o_t ot与真实的 o t o_t ot的MSE,第二项为上图实线对应的 p ( s t ∣ s t − 1 , a t − 1 ) p(s_t|s_{t-1},a_{t-1}) p(stst1,at1)和虚线对应的 q ( s t ∣ s t − 1 , a t − 1 , o t ) q(s_t|s_{t-1},a_{t-1},o_t) q(stst1,at1,ot)的KL散度

3种model

论文笔记-Learning Latent Dynamics for Planning from Pixels_第7张图片
RNN中 h t h_t ht为确定数值,SSM中 s t s_t st为随机变量,由均值和方差组成,RSSM结合两种model, s t s_t st为随机变量, h t h_t ht为确定数值。

4 实验结果

论文笔记-Learning Latent Dynamics for Planning from Pixels_第8张图片
与之前的强化学习算法相比,训练效率提升50倍。

你可能感兴趣的:(论文笔记)