揭秘深度强化学习-2强化学习主要挑战

看完觉得深受启发的一篇文章,根据自己的理解翻译过来留以后再次翻看

原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/

回忆一下童年游戏打砖块(Breakout)。在这个游戏中,玩家通过控制一根屏幕上的平板,让一颗不断弹来弹去的“球”在撞击作为过关目标消去的“砖块”的途中不会落到屏幕底下,每当球撞到一个砖块,砖块会消失同时你的分数会增长——你获得奖励

揭秘深度强化学习-2强化学习主要挑战_第1张图片

想象一下,你想要教会一个神经网络玩这个游戏。你的神经网络输入值应该是屏幕图像信息,并且输出是三个动作:向左、向右、发射弹球。我们可以把它视为一个分类问题——对于每一个游戏屏幕信息,你需要决定是否向左、向右或发射弹球。听起来很简单?当然了,但是接下来你需要训练样本,非常非常多的训练样本。你也许可以去记录专业玩家的游戏记录信息,但这真的不是我们想要的学习途径,我们不需要别人数以百万次过来告诉我们该如何选择行动。我们只需偶尔的反馈我们做对了,然后其他问题自己分析解决。

这就是强化学习试图解决的问题。强化学习介于监督学习和无监督学习之间。在监督学习中,每一个训练样本有一个目标标签,而在无监督学习中完全没有标签。强化学习拥有的是稀少的并且时间延迟的标签——奖励。智体仅仅通过这些奖励学习在特定环境中该如何行动

尽管这个想法非常直观,在实践中将会有很多的挑战。比如说,当你玩打砖块时碰到一个砖块并且获得一个分数奖励,它通常与你刚刚对平板所做的操作无关,而是之前将“小棒”放在准确位置并且反弹小球后,重要的工作就都做完了。这被称为信用分配问题(credit assignment problem)——也就是说,哪些行为与获取奖励有关并且相关度有多少。

当你找出一个策略来收集一定奖励分数时,你应该坚持使用它还是尝试获取可能更高的奖励呢?在上面的打砖块游戏中一个简单策略是移动到左边并且在这里等待,当发射时,小球往往倾向于向左边飞,你可以在游戏结束之前很轻松的获得10分。你是满足于此,还是想要更多?这被称为探索-利用两难问题(explore-exploit dilemma),就是你会利用已知的策略,还是探索其它可能更好的策略。

强化学习是一个关于我们如何学习重要的模型。来自父母的赞美,学校的评分,工作获得的薪水——这些都是奖励(Reward)。信用分配问题(credit assignment problem)和探索-利用两难问题(explore-exploit dilemma)也出现在工作,人际关系方方面面。这就是这些难题重要的原因,而游戏构成一个完美沙盒试图帮助我们找到解决这些问题的新方法。

你可能感兴趣的:(强化学习)