DDPG训练过程中梯度恒为0

AC都用的简单的全连接,两层,结果梯度值总是0,即使loss已经很大了,梯度仍然是0.

检查发现,网络权值初始化的时候出了问题,我自己定义的初始化,本来是在一个区间【-0.1,0.1】之间均匀分布,然而手抖把minval和maxval都写成了-0.1,就导致网络权值初始化全部为-0.1,然后不知为啥梯度就一直是0.

改了之后梯度正常出现。

你可能感兴趣的:(DDPG训练过程中梯度恒为0)