SAC、LSTM、PPO、DDPG

一、SAC算法

知乎Flood Sung
感觉学习SAC前,有必要把基础知识好好学习学习啊,比如书本教材什么的

链接中的公式(10)好像有问题,应该是Q(st, at),而不是Qsoft(st, at);而且log前面似乎不应该再乘上系数阿尔法

论文Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor颇有些都不懂啊…先硬着头皮读完,然后读一读、跑一跑代码试试看。

另外,不能跑偏了主题,要时刻记得:此时学习SAC是为了比较当前算法的优劣,重点仍然是根据“环境”来解决问题,要尽快出成果!

二、LSTM算法

知乎陈诚

三、PPO

https://www.jianshu.com/p/f4d383b0bd4c

https://blog.csdn.net/weixin_41045354/article/details/104132049

四、DDPG

https://www.jianshu.com/p/22cdc0d9fa13
https://github.com/yanpanlau/DDPG-Keras-Torcs
https://blog.csdn.net/kenneth_yu/article/details/78478356

你可能感兴趣的:(SAC、LSTM、PPO、DDPG)