3D-AFFORDANCELLM: HARNESSING LARGE LANGUAGE MODELS FOR OPEN-VOCABULARY AFFORDANCE DETECTION
摘要3D可及性检测是一个具有挑战性的问题,在各种机器人任务中有着广泛的应用。现有方法通常将检测范式制定为基于标签的语义分割任务。这种范式依赖于预定义的标签,缺乏理解复杂自然语言的能力,导致在开放世界场景中的泛化能力有限。为了解决这些限制,我们将传统的可及性检测范式重新定义为指令推理可及性分割(IRAS)任务。该任务旨在根据查询推理文本输出可及性掩码区域,避免了输入标签的固定类别。相应地,我们提出了