深度强化学习系列tensorflow2.0自定义loss函数实现policy gradient策略梯度
本篇文章利用tensorflow2.0自定义loss函数实现policygradient策略梯度,自定义loss=-log(prob)*Vt现在训练最高分能到193分,但是还是不稳定,在修改中,欢迎一起探讨文章代码也有参考莫烦大佬的代码action_dim=2//定义动作state_dim=4//定义状态env=gym.make('CartPole-v0')classPGModel(tf.kera