Learning Real-World Robot Policies by Dreaming 论文速读

Learning Real-World Robot Policies by Dreaming 论文速读

文章目录

  • Learning Real-World Robot Policies by Dreaming 论文速读
    • 前言:
    • title: Learning Real World Robot Policies by Dreaming
    • Main Idea
    • 和model-based的区别,用作者的原话:
    • 信息流图
    • 不同的实验设置:
    • 效果:
    • 联系方式:

前言:

好久没有细看论文了,最近好奇一个新的领域,搜了十几篇文章。
但是如果认真看,时间肯定来不及,因此整一个速读。
康康能不能两小时整一篇比较感兴趣的文章。
模板直接借用刘嘉俊大佬的。

title: Learning Real World Robot Policies by Dreaming

Paper: http://arxiv.org/abs/1805.07813

Website: https://piergiaj.github.io/robot-dreaming-policy/

Keywords
data efficiency, real-world, dreaming model(world model)

Main Idea

设计了一个dreaming model,使机器人在其中进行interaction,而不是直接和real-world。
能够处理没有见过的(unseen)场景,这个就有点意思了。
任务场景:
任务场景1为导航到目标点
任务场景2为避开目标点。
总共就一两米的场景,接近0.2米内就算成功,这任务也太…

预训练过程:

we collect a dataset consisting of 40,000 images (400 random trajectories)

训练:

except initial random action policy samples in all
our experiments

和model-based的区别,用作者的原话:

We use “dreaming” to refer to far more than just model-based RL. What our “dreaming” model does is learns a state-transition model that we can randomly sample previously unseen trajectories from (i.e. what we call dreaming).

Dreaming Model 由 FCNN, VAE, action-conditioned future regressor(ACFR)构成。

ACFR: 可以模拟机器人执行指令action之后的state变化。这就意味着,Dreaming Model相较于之前的Model-based方法,引入了 imagined trajectories 来代替之前的 real trajectories,这也是作者 use the word ‘dreaming’ rather than ‘model-based’ 的用意。详见reddit上的debate.

以下是dreaming生成的imagine trajectories的可视化:

Learning Real-World Robot Policies by Dreaming 论文速读_第1张图片

It is really awesome, isn’t it?

信息流图

那我们接下来看一下如此marvelous的dreaming是如何实现的吧!
Learning Real-World Robot Policies by Dreaming 论文速读_第2张图片

利用VAE对state图像进行表征,而不是简单的自编码器,因此有一定的生成能力,能处理没有见过的场景。但是缺点是生成的图片太模糊。
那我们接下来看一下如此marvelous的dreaming是如何实现的吧!

Learning Real-World Robot Policies by Dreaming 论文速读_第3张图片

Opinion
其实我一直认为像VAE,GAN这种生成网络是可以用于RL提升data efficiency的,这篇文章确实在像这个方向做,但是GAN本身在实际使用时训练时间过长,消耗大量资源,所以对RL来说是利是弊还得看具体使用。

  1. 利用VAE对state图像进行表征;
  2. 创建一个state-transition model,以 s t , a t s_t, a_t st,at 作为输入,以 s t + 1 s_{t+1} st+1作为输出,使其成为action-conditioned s t + 1 = f ( s t , a t ) = F ( s t , G ( a t ) ) s_{t+1}=f(s_t, a_t)=F(s_t, G(a_t)) st+1=f(st,at)=F(st,G(at))
  3. 在这里插入图片描述
  4. 总loss: L = L V A E + γ ∗ L f L = L_{VAE}+ \gamma* L_{f} L=LVAE+γLf

不同的实验设置:

  1. 没什么可说的,这个思路还行,但是效果不够吸引我。

效果:

图都不想贴了~

联系方式:

ps: 欢迎做强化的同学加群一起学习:

深度强化学习-DRL:799378128

欢迎关注知乎帐号:未入门的炼丹学徒

CSDN帐号:https://blog.csdn.net/hehedadaq

极简spinup+HER+PER代码实现:https://github.com/kaixindelele/DRLib

你可能感兴趣的:(机器人,机器视觉,DRL,VAE,model-based,强化学习,DRL,RL)