论文阅读:Pointer over Attention: An Improved Bangla Text Summarization Approach Using Hybrid Pointer Gen

结合指针和注意力:一种改进的基于混合指针生成器网络的孟加拉语文本摘要方法

摘要: 尽管神经序列到序列模型在抽象文本摘要中取得了成功,但它也有一些缺点,例如重复不准确的事实细节,并倾向于重复自己。我们提出了一种混合指针生成器网络来解决事实细节再现不充分和短语重复的缺点。我们使用混合指针生成器网络来增强基于注意力的序列到序列,该网络可以生成词汇表外的单词,并提高再现真实细节的准确性,以及防止重复的覆盖机制。它产生了一个合理大小的输出文本,保留了输入文章的概念完整性和事实信息。为了评估,我们主要使用了“BANSData”1,这是一个高度采用的公开可用孟加拉语数据集。此外,我们准备了一个名为“BANS­133”的大规模数据集,其中包含133k篇与人类生成的总结相关的孟加拉新闻文章。通过对所提出的模型进行实验,我们获得了BANSData数据集的ROUGE1和ROUGE2分数分别为0.66和0.41,BANS­133k数据集的得分分别为0.67和0.42。我们证明,所提出的系统超越了先前最先进的孟加拉语抽象摘要技术,并且在更大的数据集上具有稳定性。“BANS­133”数据集和代码库将公开用于研究。

本文贡献
• 使用混合指针生成网络和不对重复单词进行鼓励的覆盖机制,来增强具有注意力机制的Seq2Seq模型。—笔者认为此处正是问答中可以采用的方法
注意力机制的基本思想是避免试图为每个句子学习单一的向量表示,而是根据注意力权值来关注输入序列的特定输入向量。

• 我们提出的系统在定量和定性评估方面优于现有的先进技术。

模型介绍
我们的模型通过使用[20]中提出的指针生成器网络解决了不准确的复制问题。通过指向,这种混合网络可以选择从源复制单词,同时保持从固定词汇生成单词的能力。指针生成器网络的架构如下图所示:
论文阅读:Pointer over Attention: An Improved Bangla Text Summarization Approach Using Hybrid Pointer Gen_第1张图片
Encoder&Decoder
首先,源文本被逐字输入到编码器RNN,编码器RNN生成一系列编码器隐藏状态。编码器RNN读取完原始输入文本后,解码器RNN生成一串单词来构建摘要。解码器收集摘要的前一个单词作为其输入(在第一阶段,这是一个唯一的<START>符号,这是序列开始的指示),并使用它来更新解码器的隐藏状态。使用该信息计算原始输入词上的注意力分布。

attention distribution
根据图1的示例数据点:解码器生成了第一个单词,然后专注于剩下的单词并抽象生成单词使用注意力分布(具有最高注意力分布的单词较早生成)。它现在专注于输入序列词的其余部分并将生成单词具有最高的注意力分布值。

context vector
上下文向量是使用注意力分布创建的,注意力分布是编码器隐藏状态的加权和。它记录了从原文中读到的内容。随后,使用上下文向量和解码器隐藏状态来确定词汇分布。

Pointer­Generator
在本节中,我们计算了后期生成概率,这使我们能够将注意力和词汇分布结合到最终分布中。生成概率表示从词汇表中生成单词与从原始文本中复制单词的可能性[20]。生成概率值介于0和1之间[20]。稍后,基于最终的分布,模型决定是否需要生成一个单词或指向源文本中可用的任何位置。这就是它超越所有其他最先进模型的地方。在此之前,模型可以从源中指向单词,也可以从词汇表中生成单词,但不能根据需要同时使用这两种技术。此外,指针生成器系统简化了使用指向从原始文本复制单词的过程,这提高了准确性,并在管理产生新单词的能力的同时管理了单词外词。

Coverage Mechanism
为了解决单词重复问题,使用了一种叫做“覆盖”的技术。其想法是,注意力分布用于跟踪到目前为止覆盖的内容,并惩罚网络再次关注相同部分。根据[21],为了构建覆盖机制,每个输入单词的注释都附加到覆盖向量。每个向量的值最初设置为零,但在相应单词注释的每次“仔细阅读”(即,在解码期间,注意最可能生成的单词的过程)后,会对其进行修改。该向量是注意力机制的输入,以帮助后续注意力的偏好,从而允许系统考虑更多非生成的输入词。如果任何单词受到更多的关注,则覆盖向量将阻止对其增加关注,从而将注意力引导到输入句子中较少关注的部分。覆盖机制使用此策略来减少重复。

你可能感兴趣的:(OpenQA论文阅读,学习笔记,计算机,论文阅读)