Social IQA:Commonsense Reasoning about Social Interactions

EMNLP 2019.9

论文及数据:https://maartensap.github.io/social-iqa/
参考代码:https://github.com/huggingface/transformers

概览

介绍了Social IQA,第一个面向社会情况常识推理的大规模基准,包含38000个覆盖日常情形中社交情感和智慧的多选题。(涵盖了关于在情境中描述人们的行为的各种类型的推断)

比如:Q:乔丹想告诉特雷西一个秘密,所以乔丹向特雷西靠近,为什么乔丹这么做?

A:为了保证别人听不到。

通过众包,收集常识性问题以及有关社交互动的正确和错误答案; 设计新的框架:通过要求工作人员为不同但相关的问题提供正确答案,来缓解错误答案的比例。

实验结果表明,对于基于预先训练的语言模型的现有问答模型,我们的基准测试具有挑战性,与人类表现差距20%。

值得注意的是,我们进一步将Social IQA建立为常识知识的迁移学习的资源,从而应用在多项常识推理任务上,取得比原来的最好效果更好的成绩。(比如Winograd Schemas,COPA)。

介绍

多选题分类:关于动机解释的,关于接下来发生什么事情,正常情感反应。

(正确回答问题需要对动机,情绪反应,或可能的前后动作)

(wants, reactions, descriptions, motivations, needs, effects;但实际上,社交IQA中,问题多集中在某人之后的感受和接下来可能做什么有关)

书面语料库中知识的偏差限制了可以学习的常识知识的范围。

基于AI系统,此数据集仍然具有挑战性,最佳性能基准达到64.5%(bert-large)。

模型面临着明显与观察到的上下文有关的问题,在三个竞争选择中可以找到正确的答案。

根据设计,这些问题需要对情境的社会原因和影响进行推理,符合AI助手与人类用户交互所需的智能类型。

(比如知道老人跌倒了要扶起来)

(与脚本事件预测区别在于问答类型的丰富,选项的减少,关注重点–从环到背景常识知识的改变)

这些推断的进行能够让我们成为社交场合的专家,并且心智论,对信念、动机进行推理的能力和理解其他人的需求密切相关。

赋予这种类型的智能机器是AI长期以来难以实现的目标。

ATOMIC

作为任务创建的起点,借鉴了ATOMIC的社会常识知识去播种我们的情景和问答类型。ATOMIC是一个大型知识图,其中包含有关24k短事件的起因和结果的推论知识。

创建数据库

事件定义

为了涵盖各种社会情况,使用ATOMIC的基本事件作为上下文创建的提示。作为预处理步骤,我们运行MTurk任务:要求工作人员将通过添加名称,修复潜在的语法错误以及填写占位符,将ATOMIC事件变成一个句子。

(一个事件的标注花了0.35美元)

上下文、问题及答案创建

运行一个任务,其中注释者创建完整的上下文问题-答案三元组。自动生成覆盖ATOMIC的9大常识推理维度的问题示例。使用事件句子和推理问题提示众包者,以使其成为更详细的上下文,以及如果需要提高的个性化的问题的编辑版本,并且还要求工人提供两个可能的正确答案。

众包特殊规则

除了正确答案外,还会收集四个正确答案选项,其中我们会过滤两个选项。为了创建对模型不利但对人类容易的不正确选项,我们使用两种不同的方法收集。专门设计这两种方法是为了避免注释伪像的实体类型不同,从而使模型更难以依靠数据偏差。我们集成和过滤答案选项,并通过人工评估任务验证最终的质量检查元组。

手写错误答案

第一种方法涉及得到需要对上下文进行推理的手写不正确答案:这些答案在主题、长度和样式方面都与正确答案类似,但实际上是错误的。其中的两个答案是在同一MTurk任务期间与原始上下文,问题和正确答案一起收集的。 我们将这些负面回答称为手写的错误答案。

问题转换答案(QSA)

我们这样做是为了避免在候选答案中出现认知偏差和注释伪影,例如由于撰写错误答案或否定词而引起的认知偏差和注释伪影。

在此众包任务中,我们提供与原始问题相同的上下文,以及从不同但相似的ATOMIC维度自动生成的问题,并要求工人写出两个正确答案。

通过包含对相同上下文的不同问题的答案,我们确保这些对抗性回答具有正确答案的风格特征,并且与上下文主题密切相关,同时仍然是错误的,从而使模型难以简单地执行模式匹配。

创建QA组

作为流程的最后一步,我们将数据汇总为三项多项选择题。 根据Zellers等人的启发,对于由众包工作者贡献的每个创建的情境问题对,我们选择一个随机的正确答案和最少包含正确答案的错误答案。

多次核实表决;应用了轻量级的对抗过滤器,通过使用深度样式分类器来删除开发和测试集上更简单的示例,从而使任务更具挑战性。

为了获得人类的绩效,运行了一项单独的任务,要求三名新员工从900个开发人员的随机子集中选择正确答案。900个测试示例,这些子集上的人类绩效分别是87%和84%。

结论

介绍了Social IQA,这是社会常识的第一个大型基准。社交IQA由38k个多项选择题组成,涵盖了有关在情境中描述人们的行为的各种推断。

设计了一个用于收集质量检查对的众包框架,可通过对抗性问题切换方法来减少否定答案的文物。尽管人类的性能接近90%,但基于大型预训练语言模型的计算方法只能达到65%的精度,这表明这些社会推理仍然是AI系统的挑战。

除了提供新的基准外,还演示了如何将学习从Social IQA转移到其他常识性挑战,可以如何产生重大改进,在COPA和Winograd Schema Challenge数据集上均获得最新的最新性能。

你可能感兴趣的:(论文)