(COMET-)ATOMIC2020: On Symbolic and Neural Commonsense Knowledge Graphs

(COMET-)ATOMIC2020: On Symbolic and Neural Commonsense Knowledge Graphs阅读笔记

1. introduction

常识理解和推理非常具有挑战。大规模的语言模型已经在NLP领域取得了巨大的成就。

最近的工作假设,语言模型之所以可以取得如此显著的成效是因为它训练得到的参数可以存储事实。因此,许多工作以语言模型作为知识库。用语言模型表示常识知识的初步成功强有力地说明L语言模型可以编码常识知识,从而可以抛弃对结构知识资源的需求。

本文对语言模型的这种能力持更加怀疑的态度--扩大语言模型的规模真的使他们具有常识知识?虽然语言模型可以成功地表示某些知识,但是最好的结果是在狭窄的特定环境下观察到的。因此,可以通过语言模型直接访问的知识类型仍然受到限制。

然而,之前的工作已经表明:用知识元组训练得到的语言模型可以直接表示隐式的知识,从而可以提供常识知识。这样的模型称为adapted knowledge models (AKM)。因此,作者认为在今后的研究中常识性知识库可以有两种用途:1)用作静态图,可以被链接为了获取离散的知识;2)用作资源,使语言模型具有生成未标注过的常识知识的能力。

针对第二种用途,作者提出评估常识知识库能带给语言模型的补充信息有多少。他们构建了一个高质量的常识知识图ATOMIC2020. 实验结果表示,ATOMIC2020在覆盖率和正确率上超过了现有的常识性知识库。同时,实验结果还强调了构建高覆盖率、多样的通常常识性知识仍然具有很大的挑战。

作者形式化的定义了COMET框架,使其结合多种LM并训练在知识图上。他们经验性的研究得出了两个结论:1)相比较没有知识库信息作为补充的LM,KG-adapted LM 学到的知识更加准确。2)ATOMIC2020作为迁移资源,给COMET模型带来了巨大的提升。

3. ATOMIC2020

ATOMIC2020这个CKB包含1.3M条日常推理知识元组。构建ATOMIC的目的是作为当前LM编码常识知识的补充。这些常识被分为三大类:9种社会互动的常识关系、9种物理常识关系、7种事件为中心的常识关系。

在物理常识关系和以事件为中心的常识关系种,ObjectUse和HinderedBy是两种规模最大新产生的关系。ObjectUse:什么样的行为可以被施加在目标实体上,如(爆米花桶,ObjectUse,装爆米花/存储东西)。HinderedBy:现实世界中的许多事件都可以通过收集阻碍实现目标的障碍来消除(这或许对于反事实推理等任务很有用),如(某人X想要养一只猫,HinderedBy,X对猫过敏)。

ATOMIC2020的一部分常识也来源于ConceptNet(v5.7)。作者只选择英文常识知识的一部分,去掉了IsA,InstanceOf,RelatedTo,LocatedNear, 因为这些常识可以简单的被LM恢复。

4. Symbolic Knowledge Graph Comparison

从知识元组的准确性和知识库的覆盖率的角度,比较ATOMIC2020、ConceptNet、ATOMIC、TransOMCS. 实验结果表明ATOMIC2020全面领先。

5. Neural Knowledge Graph Comparison

之前的工作已经证明了:用结构化的知识重新训练LM,有助于LM执行更好的知识迁移。因此,知识图的一个新用途是帮助LM泛化出新的、未见过的知识元组。

实验设置:GPT2、BART、GPT-3

评估设置:将知识图划分为训练集、验证集和测试集。对于所有的数据集,他们元组的head都是不相重叠的。用常见的文本生成的评估标准对生成的新元组进行打分:

BLEU、ROUGE、CIDEr、BERT以及人工评估

结果:

(COMET-)ATOMIC2020: On Symbolic and Neural Commonsense Knowledge Graphs_第1张图片

(COMET-)ATOMIC2020: On Symbolic and Neural Commonsense Knowledge Graphs_第2张图片

实验结果表明:

  1. 语言模型可以从常识知识图中学习事实,从而受益。但这并不代表,LM仅从预训练在大规模语料库上就可以精确的表达这种知识(也就是说,预训练的LM不具备这种CK,这种CK是通过在知识库上的微调得到的)。
  2. 即使高性能的LM模型出现,高质量的知识也是必要的。
  3. LM需要高质量的常识知识库作为支撑,TransOMCS不具备这个能力。

6 Discussion

  • 预训练的语言模型是否已经编码常识知识?

本文在这个问题上的结论是混杂的,取决于对知识编码的模糊定义。我们的实验结果表示,LM在零学习时无法表示各种各样的知识。但当它结合为COMET结构时,它又可以生成新的未见过的知识。本文认为:COMET结构并不是一种从知识库中学习知识的方法,它更多地看作是一种从知识库中学习知识的一种方式,从而通过语言生成的方式来泛化出新的知识元组。

  • 设计常识性知识资源时应考虑哪些因素?

由于各种各样的知识已经可以通过LM来表达,因为设计CKB时应该关注于收集LM可能不知道的样本和知识类别。此外,CKB的构建应该以元组的准确度和关系覆盖率未目标。只要提供样本,LM就可以归纳出各种常识关系。因此,我们应该构建包含大量关系的CKB,以便可以将LM中的知识建立在各种关系的基础上。

你可能感兴趣的:((COMET-)ATOMIC2020: On Symbolic and Neural Commonsense Knowledge Graphs)