【Transformer】《PaLM-E: An Embodied Multimodal Language Model》译读笔记

《PaLM-E: An Embodied Multimodal Language Model》

摘要

大语言模型已被证明可以执行复杂的任务。不过,要在现实世界中实现通用推理,例如解决机器人问题,则需要解决概念落地的挑战。本文提出具现化的语言模型,将现实世界的连续传感器模态直接整合到语言模型中,并建立单词和感知之间的联系。具现化模型的输入是多模态的语句,包含视觉、连续状态估计估计和文本输入encodings。本文将这些encodings预训练的大语言模型一起进行端到端训练,用于多个具体任务,包括 sequential robotic manipulation planning, visual question answering, and captioning。本文的评估实验表明,PaLM-E这种单一的大型具现化多模态模型,可以解决多种具体推理任务,从多种观测模态到多种具象任务,并且表现出positive的迁移效果:该模型从互联玩规模的语言、视觉和 visual-language域的多样化联合训练中受益。本文最大的模型,具有562B参数的 PaLM-E-562B,除了在机器人任务上进行训练外,还是一个 visual-language generalist,在 OK-VQA上具有最先进的性能,并随着规模的增加保持通用的语言能力。

1. 引言

大型语言模型(Large Language Model, LLM)在各个领域展示了强大的推理能力,包括对话【Glaese_2022, Thoppilan_2022_LaMDA】,逐步推理【Wei_2022_Chain-of-Thought, Kojima_2022_Zero_Shot_Reasoners】,数学问题求解【Lewkowycz_2022_Solving_Quantitative_Problems, Polu_2022_Mathematics_Statement】和代码编写【Chen_2021a_Evaluating_LLM_on_Code】。然而,这类模型在现实世界中的推理中存在一个限制,即概念落地的问题:虽然,将LLMs在大规模文本数据上训练,可能会产生与当前物理世界相关的representations,但将这些表示与现实世界的视觉和物理传感器模态connecting起来,对于解决计算机视觉和机器人领域的更广泛的现实世界问题才是最为重要的【Tellex_2020_Robots_Use_Language】。之前的工作将LLM的输出与学习到的机器人策略和可使用的函数相结合以作出决策,但其局限性在于LLM本身仅提供文本输入,这对于许多需要了解场景几何构造的任务来说是不够的。此外,本文的实验表明当前最先进的 visual-language模型 在典型的 vision-language任务 上进行训练,无法直接解决机器人推理任务。

本文提出具现化语言模型,它直接将来自 embodied agent 的传感器模态的连续输入纳入模型中,从而使语言模型本身 能够为现实世界中的顺序决策做出更有根据的推理。

你可能感兴趣的:(Transformer)