强化学习小笔记 —— 从 Normal 正态分布的对数概率密度到 tanh-Normal的对数概率密度
在学习SAC算法用于连续动作的代码时,遇到了一个不懂的地方,如下代码所示:#pytorchclassPolicyNetContinuous(torch.nn.Module):def__init__(self,state_dim,hidden_dim,action_dim,action_bound):super(PolicyNetContinuous,self).__init__()self.fc1