Pointer Network 生成文本摘要

指针网络 Pointer Network 是一种 Seq2Seq 模型,但是其 Decoder 预测的结果是从 Encoder 的输入序列中得到的。Pointer Network 从输入序列中得到输出结果,所以比较适合用于文本摘要的生成,并且可以比较好的避免 OOV (Out of vocabulary) 问题。本文主要介绍两种利用 Pointer Network 的文本摘要算法:Pointer-Generator Networks 和 Multi-Source Pointer Network。

1.引言

在之前的文章中介绍过指针网络 Pointer Network,指针网络是一种 Seq2Seq 模型,但是其 Decoder 预测的结果是从 Encoder 的输入序列中得到的。指针网络改变了传统 Seq2Seq 模型 Attention 的用法,用 Encoder 输入序列中 Attention 得分最高的作为当前输出。下图展示了传统 Seq2Seq Attention 与 Pointer Network 使用上的区别。简单来说,传统的 Seq2Seq 在预测时计算的是整个字典中的概率分布,而 Pointer Network 预测时计算的是输入序列中每个单词的概率分布。

Seq2Seq Attention
Pointer Network Attention

而文章摘要是 NLP 中一个比较重要的领域,常见的文章摘要方法可以分为抽取式摘要和生成式摘要。抽取式摘要主要从源文档中提取现成的句子作为摘要句,一般在语句流畅程度上比生成式摘要好,但是容易引入较多的冗余信息。生成式摘要主要根据源文档内容,通过算法模型生成摘要,而非提取原文的句子。

Pointer Network 由于可以复制输入序列的 token 作为输出,因此比较适合用于文本摘要,另外 Pointer Network 可以在一定程度上缓解 OOV 问题。例如训练集里面没有出现 "哈士奇" 这一个单词,但是在预测的时候出现了 "哈士奇",一般的 Seq2Seq 在生成摘要时通常会用 "UNK" 替换 "哈士奇",但是 Pointer Network 可以直接从输入序列中复制 "哈士奇" 作为输出。

本文主要介绍两种利用 Pointer Network 的文本摘要算法:Pointer-Generator Networks 和 Multi-Source Pointer Network。Pointer-Generator Networks 是一种同时利用了抽取式和生成式的摘要算法,而 Multi-Source Pointer Network 主要是抽取式。

2.Pointer-Generator Networks

Pointer-Generator Networks 出自论文 《Get To The Point: Summarization with Pointer-Generator Networks》。Pointer-Generator Networks 的主要内容包括以下两点:

  • 传统 Seq2Seq 模型可以计算输出时整个字典所有 token 的概率分布,Pointer-Generator Networks 在此基础上融合了指针网络计算出的输入序列 token 概率分布。从而可以缓解 OOV 问题,并且同时赋予模型生成新单词和复制原始序列两种能力。
  • 为了解决 Seq2Seq 生成摘要时容易重复相同单词的问题,Pointer-Generator Networks 加入了 coverage 机制,coverage 可以记录已生成的内容,避免重复生成。

2.1 模型

Pointer-Generator Networks 在 Seq2Seq 基础上加入了指针网络,首先看一下 Seq2Seq 的模型结构图,如下图所示。

Seq2Seq 的模型结构图

Seq2Seq 中利用 Decoder 的输出和 Encoder 每一时刻的输出计算出 Attention 分数,并根据 Attention 分数融合 Encoder 的输出得到 context vector,将 context vector 和 Decoder 的输出传入 Softmax 得到字典中 token 的概率分布。计算的公式如下:

Seq2Seq Attention

Pointer-Generator Networks 在 Seq2Seq 中加入了指针网络的机制,模型如下图所示。

Pointer-Generator Networks

可以看到,Pointer-Generator Networks 在 Seq2Seq 预测的概率分布 P_vocab (图中绿色部分) 加上了 Attention 分布 (图中蓝色部分),得到最后的概率分布。可以看到 P_vocab 中原本没有单词 "2-0",但是在 Attention 分布中包含了 "2-0",因此最后的分布也加入了 "2-0",从而减缓 OOV 问题。Pointer-Generator Networks 通过一个参数 p_gen 将两个分布加在一起,p_gen 通过学习得到。

2.2 coverage 机制

Pointer-Generator Networks 为了避免模型生成重复的序列以及遗漏翻译,加入了 coverage 机制。通过一个 coverage 向量 ct 记录 t 时刻前所有的 Attention 分数,因此可以通过 coverage 向量中每个 token 的取值判断该 token 是否被使用过,取值高的更可能被使用过。

coverage 向量

然后在计算 Attention 时要加入 coverage 向量。

计算 Attention

最后要在 Loss 中加上 coverage loss,可以看到对于第 i 个单词,如果其 attention 值和 coverage 值都很大,说明之前已经大概率生成过单词 i,则此时 coverage loss 会很大。

2.3 实验效果

实验效果

上面是三种模型的摘要对比,蓝色的是参考摘要,红色的是错误的摘要,可以看到 Seq2Seq 模型的摘要包含较多错误以及 UNK 单词。绿色的是重复的摘要,Pointer-Generator Networks 虽然比较少错误和未知单词,但是其会生成重复的摘要。而加上了 coverage 机制的 Pointer-Generator Networks 则可以比较好避免重复摘要。

3.Multi-Source Pointer Network

Multi-Source Pointer Network (以下简称 MS-Pointer) 出自论文《Multi-Source Pointer Network for Product Title Summarization》,是阿里巴巴团队提出的,用于生成产品的标题。

MS-Pointer 需要两个数据源,其中一个是商品原来的标题,另一个是一些额外的信息。额外的信息称为 "knowledge",主要包含商品名和品牌名,类似与一些商品的标签。

由于产品的标题不应该引入不相关的信息并且要保留原来的重要信息,所以 MS-Pointer 采用了抽取式的方法,摘要中所有的 token 均来自标题或者 "knowledge"。

MS-Pointer 和 Pointer-Generator Networks 比较类似,区别在于 MS-Pointer 使用一个标题 Encoder 得到标题 token 的 Attention 分布,使用一个 "knowledge" Encoder 得到 "knowledge" 的 Attention 分布,将两个 Attention 分布融合在一起。模型的示意图如下:

MS_Pointer

如上图所示,MS-Pointer 将两个 Attention 分布融合,融合的参数用以下公式计算:

MS_Pointer 融合的参数

4.参考文献

Get To The Point: Summarization with Pointer-Generator Networks

Multi-Source Pointer Network for Product Title Summarization

你可能感兴趣的:(Pointer Network 生成文本摘要)