斯坦福大学-自然语言处理入门 笔记 第二十一课 问答系统(2)

一、问答系统中的总结(summarization)

  • 目标:产生一个摘要文本包含那些对用户重要和相关的信息
  • 总结的应用领域:任何文档的摘要和大纲,邮件摘要等等
  • 根据总结的内容,我们可以把总结分为两类:
    • 单文档总结:给出一个单一文档的摘要、大纲、标题
    • 多文档总结:给定一组文档,给出内容主旨;比如说同一个事件的新故事,关于一些话题和问题的网页
  • 根据总结的目的,我们可以把总结分为两类:
    • 泛总结:总结文档的内容
    • 聚焦请求的总结:基于用户请求展现出的信息需求在总结文档;这是一种复杂的问答系统,通过总结含有某些信息的文档来构建回答
  • 根据回答的特点,我们可以把总结分为两类:
    • 提炼(extractive)总结:基于源文档的词组和句子来构建总结
    • 抽象(abstractive)总结:用一部分的不同单词来表达源文档的观点
  • 一个非常简单的方法:使用第一行的句子
    斯坦福大学-自然语言处理入门 笔记 第二十一课 问答系统(2)_第1张图片

二、生成片段(snippets)

  • 总结的三个阶段:
    • 内容选择:选择从文档中抽取的句子
    • 信息排序:为这些句子选择顺序
    • 句子实现:清理句子
      斯坦福大学-自然语言处理入门 笔记 第二十一课 问答系统(2)_第2张图片

1、无监督的句子选择

  • 这个思想主要源于Luhn(1958):选择那些更重要和更有信息性的单词
  • 两种定义重要单词的方法:
    • tf-idf:对每个在文档j中的单词wi进行tf-idf权重计算
    • 话题署名:选择更小一部分的重要单词
      • 互信息
      • 对数似然比例(LLR)
        斯坦福大学-自然语言处理入门 笔记 第二十一课 问答系统(2)_第3张图片
  • 选择更有信息性的单词
    • 对数似然比例(LLR)
    • 是否在请求中出现
      斯坦福大学-自然语言处理入门 笔记 第二十一课 问答系统(2)_第4张图片
  • 句子重要性计算:句子中的单词的重要性的和
    在这里插入图片描述

2、有监督句子选择

  • 给定:对训练文档进行标注,标注出好总结
  • 对应关系:文档中的句子和总结中的句子的对应关系
  • 抽取特征:句子的位置(第一句话?),句子的长度,单词的信息等等
  • 训练:进行一个二分类的训练,判断是否要把句子放到总结中
  • 问题:很难得到标注的数据;找到对应关系很困难;效果并不比无监督算法
  • 所以在实际中,无监督的内容选择是更普遍。

三、总结器的评估:ROUGE

  • 这是对
    • 基于BLEU(机器学习所使用的度量)
    • 并不比人工评估好(即直接让人工判断这个回答是不是用户的问题)
    • 但是会更方便
  • 给定一个文档D和一个自动生成的总结X
    • 有N个人工产生的可以参考的关于D的总结
    • 运作总结器,给出自动生成的总结X
    • 参考总结中二元组在X中出现的比例就是度量
      斯坦福大学-自然语言处理入门 笔记 第二十一课 问答系统(2)_第5张图片
  • 一个例子:
    斯坦福大学-自然语言处理入门 笔记 第二十一课 问答系统(2)_第6张图片

四、更复杂的问题:总结多个文档

  • 这部分现在还没有商业化,但是目前研究的议题。如何回答更长更困难的问题?比如
    斯坦福大学-自然语言处理入门 笔记 第二十一课 问答系统(2)_第7张图片
  • 两种通过请求聚焦总结(query-focused summarization)进行困难问题的回答的方法
    • 从下往上的片段方法:找到一系列相关的文档;从这些文档中利用tf-idf,MMR来进行信息性句子抽取;排序并调整句子形成答案
    • 从上往下信息抽取方法:对不同的问题类型建立特定的回答格式
      • 个人传记需要包含:生卒年月、教育、国籍等等
      • 定义需要包含:属、上义关系

1、从下往上的片段方法

  • 聚焦请求的多文档总结的流程
    斯坦福大学-自然语言处理入门 笔记 第二十一课 问答系统(2)_第8张图片
  • 简化句子:最简单的方法是利用句法分析句子,根据一些人工规则来决定哪些修饰语可以被删除,现在越来越多开始使用机器学习的方法
    斯坦福大学-自然语言处理入门 笔记 第二十一课 问答系统(2)_第9张图片
  • 从多文档中抽取内容的方法:最大边际关联(MMR)
    • 一种贪婪的方法,迭代选择最好的句子插入到总结中。最好的句子是相关且含有新含义的句子
    • 相关:和用户请求的最大相关,即与请求的cosine相似度高
    • 新颖:和现在已经有的总结相比,相关度更低,即与请求的cosine相似度低
      在这里插入图片描述
      • 当满足想要的长度的时候就停止
  • LLR+MMR:选择有丰富含义同时新颖的句子
    • 第一步,对每个句子基于LLR计算分数
    • 第二步,把得分最高的句子放入总结中
    • 第三步:迭代加入得分高且含有新含义的句子
  • 信息排序
    • 时间顺序:根据文档的时间顺序排序
    • 连贯性:使得相邻的句子相似的顺序;使得相邻的句子讨论同一个实体
    • 话题顺序:学习源文档的话题顺序

2、从上往下信息抽取方法

  • 从上往下信息抽取方法:对不同的问题类型建立特定的回答格式,比如
    • 个人传记需要包含:生卒年月、教育、国籍等等
    • 定义需要包含:属、上义关系
      斯坦福大学-自然语言处理入门 笔记 第二十一课 问答系统(2)_第10张图片
  • 一个例子
    斯坦福大学-自然语言处理入门 笔记 第二十一课 问答系统(2)_第11张图片

你可能感兴趣的:(introduction,to,NLP)