PIQA: Reasoning about Physical Commonsense in Natural Language
AAAI 2020
current status: In more physical domains, text is inherently limited due to reporting bias.
question to be solved: Can AI systems learn to reliably answer physical commonsense questions without experiencing the physical world?
solution:
Physical commonsense knowledge can be learned by children along with language learning. We hypothesize that modeling physical commonsense knowledge is a major challenge on the road to true AI-completeness.
The pros and cons of PTLMs.
PIQA is inspired by instructionables.com. Annotators add to PIQA a distractor, for each correct answer, based on perturbations. AFLiter algorithm is used to clean easy to identified artifacts.
Corpora and error analysis are performed.
We follow standard best practices in adapting these models for two-way classification. We consider the two solution choices independently: for each choice, the model is provided the goal, the solution choice, and a special [CLS] token. At the final layer of the transformer, we extract the hidden states corresponding to the positions of each [CLS] token. We apply a linear transformation to each hidden state and apply a softmax over the two options: this approximates the probability that the correct solution is option A or B. During finetuning, we train the model using a cross-entropy loss over the two options. For GPT, we follow the original implementation and include an additional language modeling loss, which improved training stability.
Generally, we found that finetuning was often unstable with some hyperparameter configurations leading to validation performance around chance, particularly for BERT. We follow best practices in using a grid search over learning rates, batch sizes, and the number of training epochs for each model, and report the best-scoring configuration as was found on the validation set. For all models and experiments, we used the transformers library and truncated examples at 150 tokens, which affects 1% of the data.
我们遵循标准的最佳做法,将这些模型用于双向分类。我们分别考虑目标(goal)的两个解决方案选项(solution choices):对每个选项,将目标、解决方案选项和一个特殊的[CLS]符号送入模型。在Transformer的最后一层,我们提取与每个[CLS]符号位置相对应的隐藏状态。我们对每个隐藏状态应用线性变换,并在两个选项上应用softmax:这近似了正确的解决方案是选项A或B的概率。在微调期间,我们使用两个选项上的交叉熵损失来训练模型。对于GPT,我们遵循原始实现,并包括一个额外的语言建模损失,从而提高了训练稳定性。
通常,我们发现在某些超参数配置的情况下,微调通常不稳定,从而只能得到偶然情况下的验证性能,尤其是对于BERT。我们遵循使用最佳实践,对每个模型的学习率、批量大小和训练epoch,并报告在验证集上找到的最佳评分配置。对于所有模型和实验,我们使用了Transformers库和截断为150个符号的示例,这会影响1%的数据。
结果
特别是,我们考察了性能最高的模型RoBERTa所产生的错误,以期仅通过语言即可学习到的物理常识知识。
在验证集和训练集的大约60%数据中,两个解决方案之间只有1-2个编辑距离。在图6的底部,我们显示了数据集的复杂度通常随着解决方案对之间的编辑距离而增加。但是,分布的头部表示一个易于学习的空间。
总体而言,这些示例表明,物理理解(尤其是涉及常见对象的新颖组合)对仅基于文本进行预训练的模型提出了挑战。
语言。在NLP中,除了大规模模型外,在这些模型中因果效应/暗示的推理(Bosselut等,2019),从模型中提取知识(Petroni等,2019)以及调查何处也取得了进展。大规模语言模型无法捕获食谱中的工具知识和程序知识(Bisk et al.2019)。程序知识和指令遵循的概念是视觉和机器人技术领域中一个更一般的相关任务。仅从文本来看,工作表明对动词使用的隐含物理情况(Forbes和Choi 2017)以及对象的相对大小(Elazar等人2019)有很多了解。
视觉。可以在视觉世界中发现和评估物理知识。研究已经研究了预测图像(Krishna等人2016)以及动作及其相关对象(Yatskar,Zettlemoyer和Farhadi 2016)的视觉关系。与此相关的是,最近的HAKE数据集(Li et al.2019)特别注释了哪些对象/身体部位对于完成或定义动作必不可少。图像数据还可以用于研究名词的具体性,并为进一步研究提供了自然的途径(Hessel,Mimno和Lee 2018)。与物理常识相关的视觉常识研究已经研究了直观物理学(Wu等人,2017),因果关系(Mottaghi等人,2016)以及可以合理地推断出单一图像之外的东西(Zellers等人,2019a)。
机器人技术。从交互和直观物理学中学习(Agrawal等人,2016年)也可以被编码为探索世界时的先验经验(Byravan等人,2018年),物理,形状和材料强度的内部模型使工具的使用有所进步(Toussaint等人,2016年) (2018年)或建筑业(Nair,Balloch和Chernova 2019年)。我们这项工作的研究重点是帮助构建语言工具,这些工具可以捕获足够的物理知识,从而加快机器人语言应用程序的启动速度。语言工具应提供强大的学习先驱(Tellex等人2011; Matuszek 2018),然后通过互动和对话加以完善(Gao等人2016)。
我们已经针对大规模的预训练模型进行了评估,因为它们已经成为NLP领域进步的事实标准,但主要是对它们的表现和失败产生了兴趣,因为这种机制可以提高人们仅从语言中学习世界的地位,是限制。未来的研究可能会通过找到大量域内数据源并进行大量微调来“匹配”人类在我们的数据集上的作用,但这并不是重点。从哲学上讲,应该从与世界的互动中学习知识,并最终与语言进行交流。在这项工作中,我们介绍了“物理交互:问题回答”或PIQA基准,用于评估和研究自然语言模型中的物理常识理解。我们发现最好的可用预训练模型缺乏对我们周围世界的一些最基本物理特性的了解。我们与PIQA的目标是为语言表示方法的发展提供洞察力和基准,以捕获传统上仅可见或经验丰富的知识,以构建NLP社区以外有用的语言模型。