DDPG强化学习中的loss

Loss = (r + gamma * Q(s') - Q(s))^2

其中 :

r + gamma * Q(s')代表用未来的状态价值来估算当前的状态价值

Q(s) 代表当前的状态价值

如果这两个价值相等,说明价值函数能够完美表达长期的价值收益

 

tensorflow实现ddpg:

https://www.cnblogs.com/zle1992/p/10247326.html

 

你可能感兴趣的:(DDPG强化学习中的loss)