rollout

似乎是策略网络在游戏状态 s s s可能的移动 a a a确定一个概率分布 p ( a ∣ s ) p(a\mid s) p(as),程序以随机的方式搜索游戏树,而 p p p确定了其该这样进行这种搜索。我们希望这个功能能“引导”程序做出强者可能做出的动作。这是有道理的,因为当你搜索游戏树的时候,以错误开始的分支在与一个聪明的对手评估当前棋盘位置时不太相关。
当他们说rollout策略(我相信他们借用了西洋双陆棋的术语——“rollout”)是一个线性的softmax函数时,这是用在逻辑回归中的 σ \sigma σ函数的推广。该函数的形式为:

e β i T x ∑ j = 1 k e β j T x \frac{e^{\beta^T_i x}}{\sum_{j=1}^{k} e^{\beta_j^T x}} j=1keβjTxeβiTx

其中的 x x x是当前棋盘位置的一个函数的一个向量(根据线性softmax只能够在策略网络的最后一步使用的论文), b e t a i beta_i betai是权重向量。 x x x b e t a i beta_i betai一起决定了策略网络选择动作 a i a_i ai的概率。

你可能感兴趣的:(Reinforcement,Learning)