今日arXiv最热NLP大模型论文:无需数据集,大模型可通过强化学习与实体环境高效对齐 | ICLR2024
引言:将大型语言模型与环境对齐的挑战虽然大语言模型(LLMs)在自然语言生成、理解等多项任务中取得了显著成就,但是在面对看起来简单的决策任务时,却常常表现不佳。这个问题的主要原因是大语言模型内嵌的知识与实际环境之间存在不对齐的问题。相比之下,强化学习(RL)能够通过试错的方法从零开始学习策略,从而确保内部嵌入知识与环境的对齐。但是,怎样将先验知识高效地融入这样的学习过程是一大挑战,为了解决这一差距