从 Supervised Learning 到 Policy Gradients

http://karpathy.github.io/2016/05/31/rl/ 的翻译

从 Supervised Learning 到 Policy Gradients_第1张图片
如图,对于有监督学习,深度网络的输出结果是
30% 可能性 predict-label = 0
70% 可能性 predict-label = 1
有labeled ground-truth-label = 0
然后,对类似image 提升predict-label=0 的概率,降低predict-label=1的概率

从 Supervised Learning 到 Policy Gradients_第2张图片
如图,对于强化学习的 Policy Gradients,深度网络的输出结果是
30% 可能性 predict-label = 0
70% 可能性 predict-label = 1
有reward / ground-truth-label = 0
然后,对类似image 提升predict-label=0 的概率,降低predict-label=1的概率

你可能感兴趣的:(强化学习,深度学习,深度学习,人工智能,机器学习)