2018-05-25

接着更接着更。。。

今天有不少收获

首先是有一篇AAAI2018的文章《Guiding Search in Continuous State-action Spaces by Learning an Action Sampler from Off-target Search Experience》

里面提到了一个方法,就是现在的做法是


这也是DDPG存在的问题,就是在将连续动作空间离散化的过程中,歇逼了

所以本文做的事情就是:既然你要用到一个针对每个state进行采样的行为取样器,而这个行为取样器的好坏对于我能否很好的完成任务影响很大,那我干脆就去学一下这个行为取样器呗,所以这篇文章用GAN学了一下行为取样器,好的,文章就出来了

那么我看可以做什么呢?

1. 因为对方用的是GAN,而GAN其实成本也是很高的--计算成本 时间成本,所以我要看看有没有什么别的网络去做,适用范围可能小一些,但是效率高很多

2. 自己另起炉灶  搞个新的

3. 挑刺

你可能感兴趣的:(2018-05-25)