Chapter7-10_Deep Learning for Question Answering (1/2)

文章目录

  • 1 什么是Question Answering(QA)
  • 2 按答案分类
    • 2.1 答案是一个单词
    • 2.2 答案是多个选项
    • 2.3 答案是source中的一段话
    • 2.4 答案是生成的一段话
  • 3 按source分类
    • 3.1 source是网页
    • 3.2 source是图片或者视频
    • 3.3 source是语音
    • 3.4 source是视频

本文为李弘毅老师【Deep Learning for Question Answering (1/2)】的课程笔记,课程视频youtube地址,点这里(需)。

下文中用到的图片均来自于李宏毅老师的PPT,若有侵权,必定删除。

文章索引:

上篇 - 7-9 Deep Learning for Dependency Parsing

下篇 - 待更新

总目录

1 什么是Question Answering(QA)

顾名思义,QA要做的事情就是回答问题。我们的问题类型大致可以分为三类。

  • 可以从一个source中直接找到答案的问题,如"Who is the U.S. president?"
  • 需要从多个sources中找答案的问题,如"Is Trump older than Obama?"
  • 没有标准答案的问题,如"Who should pay for the date, and why?"

这些问题的答案都是从sources中整合出来的,sources可以是文本,语音,视频等等。现有的模型基本思路都是一致的,就是把sources放到一个类似BERT的模型里做embedding,同时也把question放到另一个BERT里做embedding,这两个module之间往往需要做一下attention,最后把两个modules的输出放到一个生成答案的module当中去,得到最终的答案。

答案也可以分为好几类。

  • 一个词
  • source中的一段话
  • 选择题的话就是一个或多个选项
  • 也可以是生成的一个段落
    Chapter7-10_Deep Learning for Question Answering (1/2)_第1张图片

2 按答案分类

2.1 答案是一个单词

早在2015年的时候,就有了一个测试QA的数据集bAbI,这个数据集把问题分成了20个类别,每个问题的答案都是一个单词。当时人们觉得要让机器自动回答出这些问题是非常困难的,但是如今这20类问题都被deep learning破解了,所以现在的paper也很少有拿bAbI来当数据集的。
Chapter7-10_Deep Learning for Question Answering (1/2)_第2张图片

这种答案只有一个单词的问题,就是一个简单的分类问题,训练一个模型,然后取概率最高的那个答案就可以了。
Chapter7-10_Deep Learning for Question Answering (1/2)_第3张图片

2.2 答案是多个选项

当答案为几个选项时,就要给模型增加一个choice的module。source,question和choice这三个module之间是有attention的。每次丢给choice module的输入是其中的一个选项,模型只需要输出yes或者no就可以了。这样的方式适用于选项数量会变,答案数量也会变的情况。
Chapter7-10_Deep Learning for Question Answering (1/2)_第4张图片

2.3 答案是source中的一段话

有一类答案必定是source中的一段话,典型的就有SQuAD和DRCD,这样的QA也被称为是extraction-based。对于这类答案,我们会给source中的每一个token输出一个start score和一个end score。分别取start score最大的和end score最大的,就是答案的头和尾了。
Chapter7-10_Deep Learning for Question Answering (1/2)_第5张图片
模型大概长下图这个样子,在没有BERT的时候,answer module是LSTM,而在有了BERT之后,就只需要是一个start vetor和end vector就可以了。
Chapter7-10_Deep Learning for Question Answering (1/2)_第6张图片

2.4 答案是生成的一段话

也有的答案的自由度比较高:

  • 有可能是source中不同的spans拼凑起来的
  • 有可能是答案是在问题和source之中的
  • 有可能是部分答案在问题和source中都没有
  • 有可能根据source根本得不到答案

这类问题比较经典的模型有MS MARCO和DuReader。有些人也会直接用extraction-based的方法来解决这个问题。
Chapter7-10_Deep Learning for Question Answering (1/2)_第7张图片

不管用何种方法,当答案不在source中时,模型会强行在source中找个答案,这也必定会犯错。为了解决这个问题,有人会在source中加一个Null的token,这样当Null的start score和end score都超过某个阈值时,就表示没有答案了。
Chapter7-10_Deep Learning for Question Answering (1/2)_第8张图片

如果不是extraction-based的方法,那就会对答案做一个额外的分类,判断有无答案。下图中上面的这个模型,会吃source,question和answer来验证答案对不对,不对的话就是没有答案;下图中下面这个模型会仅根据source和question来判断source中有没有答案。
Chapter7-10_Deep Learning for Question Answering (1/2)_第9张图片

3 按source分类

3.1 source是网页

从一篇文章中去找答案不是我们一般情况下会有的需求,这样的工作,人做也是很轻松的,困难的是,我们不知道问题的答案在哪篇文章里。这个时候的做法就是用所搜索引擎去搜索这个问题,然后拿前几篇,判断这几篇文章是否和问题有关,然后再从有关的文章中查找答案。
Chapter7-10_Deep Learning for Question Answering (1/2)_第10张图片

比较经典的就有V-Net,它就是综合了多篇文章的答案,然后认为大多数的文章都是有正确答案的,采用投票的方式得到最终的答案。
Chapter7-10_Deep Learning for Question Answering (1/2)_第11张图片

3.2 source是图片或者视频

有时候问题可能是针对图片或者视频的内容的,这个时候的处理方法和NLP的没有太多的差异,只要用CNN抽取图片的embedding,其他就和NLP的QA一样了。
Chapter7-10_Deep Learning for Question Answering (1/2)_第12张图片

3.3 source是语音

早在2016年的时候,李老师的团队就开始尝试语音作为source的QA了。他们在网上爬取了托福的听力资料作为训练数据进行训练。在当时是很了不起的尝试。
Chapter7-10_Deep Learning for Question Answering (1/2)_第13张图片

技术进步之后,发布了ODSQA数据集,也提出了基于语音辨识的Subword Units和Adversarial learning的QA。
Chapter7-10_Deep Learning for Question Answering (1/2)_第14张图片

当然也尝试过直接用语音作为输入的,但是效果不及有语音辨识的。
Chapter7-10_Deep Learning for Question Answering (1/2)_第15张图片

3.4 source是视频

最后还有输入是一段视频的,被称为Movie QA。这个时候的输入信息不光有视频,还有音频和字幕。不过最终发现,大部分还是靠的字幕,视频和音频起的作用不大。
Chapter7-10_Deep Learning for Question Answering (1/2)_第16张图片

你可能感兴趣的:(课程笔记,人工智能,自然语言处理,机器学习,神经网络,李宏毅)