Efficient Text-based Reinforcement Learning by Jointly LeveragingState and Commonsense Graph Repres

Efficient Text-based Reinforcement Learning by Jointly LeveragingState and Commonsense Graph Repres_第1张图片

摘要

基于文本的游戏(TBGs)已经成为评估基础语言理解和强化学习(RL)交叉阶段进展的有用基准。最近的工作提出了使用外部知识来提高TBG的RL制剂的效率。在本文中,我们假设为了在TBG中有效地行动,代理必须能够在检索和使用相关常识知识的同时跟踪游戏的状态。因此,我们为TBG提出了一个代理,它可以诱导游戏状态的图形表示,并将其与来自ConceptNet的常识知识图形结合起来。这种结合是通过两个符号表示之间的双向知识图注意来实现的。我们表明,将常识纳入博弈状态图的代理优于基线代理。

1.介绍

基于文本的游戏(tbg)是一种模拟环境,在这种环境中,代理完全以文本的形式与世界进行互动。TBG已经成为研究强化学习代理如何解决语言理解、部分可观察性和在组合大的动作空间中生成动作的挑战的关键基准。TextWorld (Côté et al., 2018)是一个基于文本的游戏环境,近年来备受关注。

最近的工作表明,需要更多的知识来解决TBG中的挑战。Ammanabrolu和Riedl(2019)提出了手工制作的规则,使用状态知识图(很像游戏地图)来表示游戏的当前状态。我们自己之前的工作(Murugesan等人,2021年)提出了TextWorld的扩展,称为TextWorld Commonsense (TWC),以测试代理在与世界交互时使用常识知识的能力。TWC背后的假设是,常识知识使行为主体能够理解当前的行为如何影响未来的世界状态;并支持前瞻性规划(Juba, 2016),从而导致在每一步的行动的样本高效选择,并推动代理更接近最佳性能。

在本文中,我们假设要在这种基于文本的游戏环境中有效地

你可能感兴趣的:(强化学习,游戏,人工智能)