PIQA:Reasoning about physical commonsense in natural language

2019.11 AAAI 2020

论文
数据集和评测网站

在本文中,我们介绍了物理常识推理的任务以及相应的基准数据集“物理交互:问答”或“ PIQA”。 尽管人们发现数据集很容易(准确度达到95%),但大型的预训练模型仍然很困难(〜77%)。 我们提供有关现有模型缺乏的知识维度的分析,这为将来的研究提供了重要的机会。

在孩子学习语言之前,他们开始根据周围物体的物理特性来形成类别和概念。这个模型的世界随着他们学习说话而变得更加富裕,但是他们已经准备好掌握有关日常物品的常识知识:它们的物理特性、承受能力,以及如何操纵它们。

这些知识对于人类的日常生活至关重要,包括诸如解决问题(露营时我可以用作枕头吗)和表达需求和愿望(为我带来更坚硬的枕头)等任务。同样,我们假设建模物理常识知识是实现真正AI完整性的主要挑战,包括与世界互动并理解自然语言的机器人。

现状:美术百科全书可以可靠地回答问题,或认可具名实体,但是尚不清楚他们是否能够强有力地回答需要物理常识的问题。

为了研究这个问题并开始弥补表示差距,我们提出 物理交互问答:PIQA 以评估他们对物理常识知识的语言表达。

我们专注于偏向非典型解决方案的日常情况。

Q:如何用一瓶水将蛋清和蛋黄分开?

a:挤压水平,将其压向蛋黄;释放,产生吸力并提起蛋黄。

b:放置水壶,然后将其压向蛋黄,不断推动,产生吸力,并提起蛋黄。

人:选a。机器:?。

PIQA涵盖了广泛的现象。以上是示例质量监察队的两类。

左:要求了解对象的基本属性(柔韧性、曲率和多孔性) ---- 形状、材质、目的

​ 如何制作一个户外枕头?

​ 制作硬壳的炸玉米饼?

​ 如何找到丢失在地毯上的东西?

右:常识性便利

​ 如何确保房屋中的所有时钟都正确设置?

​ 在整个工作中,首先详细介绍物理常识的新基准的构建。其次表明,大规模语言预训练的流行方法虽然在许多抽象任务上非常成功,但在需要世界物理模型时却不足。最后,我们的目标是引发对构建捕获现实世界细节的语言表示形式的进一步研究。为此,我们执行错误和语料库分析,以提供见识以供将来工作。

当前的预测性能,随机的结果是 50%
PIQA:Reasoning about physical commonsense in natural language_第1张图片

你可能感兴趣的:(论文)