PyTorch 1.0 中文文档:torch.distributions

译者:hijkzzz

distributions 包含可参数化的概率分布和采样函数. 这允许构造用于优化的随机计算图和随机梯度估计器. 这个包一般遵循 TensorFlow Distributions 包的设计.

通常, 不可能直接通过随机样本反向传播. 但是, 有两种主要方法可创建可以反向传播的代理函数. 即得分函数估计器/似然比估计器/REINFORCE和pathwise derivative估计器. REINFORCE通常被视为强化学习中策略梯度方法的基础, 并且pathwise derivative估计器常见于变分自动编码器中的重新参数化技巧. 得分函数仅需要样本的值 cb804637f7fdaaf91569cfe4f047b418.jpg, pathwise derivative 需要导数 385dbaaac9dd8aad33acc31ac64d2f27.jpg. 接下来的部分将在一个强化学习示例中讨论这两个问题. 有关详细信息, 请参阅 Gradient Estimation Using Stochastic Computation Graphs .

得分函数

当概率密度函数相对于其参数可微分时, 我们只需要sample()log_prob()来实现REINFORCE:

b50e881c13615b1d9aa00ad0c9cdfa99.jpg

51b8359f970d2bfe2ad4cdc3ac1aed3c.jpg 是参数, 82005cc2e0087e2a52c7e43df4a19a00.jpg 是学习速率, f9f040e861365a0560b2552b4e4e17da.jpg 是奖励 并且 2e84bb32ea0808870a16b888aeaf8d0d.jpg 是在状态 0492c0bfd615cb5e61c847ece512ff51.jpg 以及给定策略 5f3ddae3395c04f9346a3ac1d327ae2a.jpg执行动作 070b1af5eca3a5c5d72884b536090f17.jpg 的概率.

在实践中, 我们将从网络输出中采样一个动作, 将这个动作应用于一个环境中, 然后使用log_prob构造一个等效的损失函数. 请注意, 我们使用负数是因为优化器使用梯度下降, 而上面的规则假设梯度上升. 有了确定的策略, REINFORCE的实现代码如下:

probs = policy_network(state)
# Note that this is equivalent to what used to be called multinomial
m = Categorical(probs)
action = m.sample()
next_state, reward = env.step(action)
loss = -m.log_prob(action) * reward
loss.backward()

Pathwise derivative

实现这些随机/策略梯度的另一种方法是使用来自rsample()方法的重新参数化技巧, 其中参数化随机变量可以通过无参数随机变量的参数确定性函数构造. 因此, 重新参数化的样本变得可微分. 实现Pathwise derivative的代码如下:

阅读全文/改进本文

转载于:https://www.cnblogs.com/wizardforcel/p/10492567.html

你可能感兴趣的:(PyTorch 1.0 中文文档:torch.distributions)