论文笔记 EMNLP 2020|A Method for Building a Commonsense Inference Dataset based on Basic Events

文章目录

    • 1 简介
      • 1.1 创新
    • 2 方法
    • 3 实验

1 简介

论文题目:A Method for Building a Commonsense Inference Dataset based on Basic Events
论文来源:EMNLP 2020
论文链接:https://aclanthology.org/2020.emnlp-main.192.pdf
代码链接:https://nlp.ist.i.kyoto-u.ac.jp/EN/index.php?KUCI

1.1 创新

  • 提出了一个可扩展、低偏差、低成本的方法构造常识推理数据集。

2 方法

论文笔记 EMNLP 2020|A Method for Building a Commonsense Inference Dataset based on Basic Events_第1张图片
构造数据集的方法如上图包括下面4个部分:

  • 提取基本事件:使用 case frames自动获得谓词-论元结构(基本事件),如下图:
    论文笔记 EMNLP 2020|A Method for Building a Commonsense Inference Dataset based on Basic Events_第2张图片
  • 提取基本事件对:使用依赖和话语解析提取事件对(因果关系、条件关系),同时加入一些约束,进行补全和筛选。
  • 通过众包对基本事件对进行验证。
  • 生成常识推理问题(事件对中的第一个事件作为上下文,第二个事件作为选择),同时加入一些约束(选择之间的cos相似度、上下文之间的cos相似度、错误选择的长度),保证问题是可辨别的。

3 实验

实验选择BERT模型,将上下文和选择进行拼接,然后输入BERT进行分类,概率计算公式如下:
论文笔记 EMNLP 2020|A Method for Building a Commonsense Inference Dataset based on Basic Events_第3张图片
实验结果如下:
论文笔记 EMNLP 2020|A Method for Building a Commonsense Inference Dataset based on Basic Events_第4张图片
论文笔记 EMNLP 2020|A Method for Building a Commonsense Inference Dataset based on Basic Events_第5张图片
错误分析:
论文笔记 EMNLP 2020|A Method for Building a Commonsense Inference Dataset based on Basic Events_第6张图片
验证数据库的偏差,仅对模型输入选择,准确率为41.2%,原因可能是有很多选择被复用,如下图:
论文笔记 EMNLP 2020|A Method for Building a Commonsense Inference Dataset based on Basic Events_第7张图片
相似度的相融实验:
论文笔记 EMNLP 2020|A Method for Building a Commonsense Inference Dataset based on Basic Events_第8张图片

你可能感兴趣的:(NLP,论文,常识推理,自然语言处理)