2.深度强化学习------SAC(Soft Actor-Critic)算法资料整理

SAC是深度强化学习中对于连续动作控制的又一经典。近期简单的看了一下SAC算法的思想,目前尚未深入研究,先把当前的资料整理一波,便于进一步学习。后续再作进一步更新

1. SAC原理介绍

可重点看前三篇

SAC原理讲解BLOG①:这篇blog非常详细的讲解了SAC的实现过程,包括理论推导过程,看懂这篇blog基本就差不多明白SAC了。
SAC原理讲解BLOG②:这篇blog对于SAC的算法思路做了一个很好的梳理,不涉及理论推导。
SAC原理讲解BLOG③:这篇blog与第二篇类似,同时还附带了SAC的pytorch实现。
SAC原理讲解BLOG④
SAC原理讲解BLOG⑤

2. SAC中的trick

信息熵的概念:暂时把它可理解为一个概率

3. 基于PyTorch的SAC的实现

Demo①
Demo②

你可能感兴趣的:(深度强化学习)