基于BERT-PGN模型的中文新闻文本自动摘要生成

论文创新点

1.将BERT与指针生成网络(PGN)相结合,提出了一种面向中文新闻文本的生成式摘要模型,实现快速阅读;
2. 结合多维语义特征的BERT-PGN模型对摘要原文的理解更加充分,生成的摘要内容更加丰富,全面且有效地减少重复、冗余内容的生成;

概念及模型

   首先利用预训练语言模型 BERT 获取新闻文章的词向量,同时利用多维语义特征对新闻中的句子进行打分,将二者进行简单拼接生成输入序列;然后将得到的输入序列输入到指针生成网络模型中,使用coverage机制减少生成重复文字,同时保留生成新文字的能力,得到新闻摘要。

基于BERT-PGN模型的中文新闻文本自动摘要生成_第1张图片

模型解析

一、BERT预训练语言模型

  • BERT 采用双向 Transformer 作为编码器进行特征抽取,使用多个注意力机制来获取到更多的上下文信息,极大程度地提升了语言模型抽取特征的能力。Transformer编码单元包含自注意力机制和前馈神经网络两部分。
  • 自注意力机制的输入部分是由来自同一个字的三个不同向量构成的,分别是Query向量(Q),Key向量(K)和Value向量(V)。通过Query向量和Key向量相乘来表示输入部分字向量之间的相似度,记做[QK]T,并通过dk进行缩放,保证得到的结果大小适中。最后经过 softmax 进行归一化操作,得到概率分布,进而得到句子中所有词向量的权重求和表示。这样得到的词向量结合了上下文信息,表示更准确,计算方法如下:
    在这里插入图片描述

二、多维语义特征

  • 词频特征是反映新闻文章中最重要信息的一种统计特征,也是最简单、最直接的一种统计特征。新闻文章中出现词的词频可以利用式(3)进行计算:
    基于BERT-PGN模型的中文新闻文本自动摘要生成_第2张图片其中,wordj代表文章中第j个词出现的次数。
    新闻文章中第i个句子的词频特征打分公式如下:
    在这里插入图片描述
    其中:TFi表示第i个句子中包含的词的词频之和,seni代表第i个句子中包含的所有词。
  • 位置特征同样是反映新闻文章中重要信息的一种统计特征。一篇新闻文章是由多个句子组成的,句子所在的位置不同,其代表的重要性也不同,例如文章中的第一个句子大多是新闻文章中最重要的一句话。新闻文章中第 i个句子的位置特征打分公式如下:
    在这里插入图片描述
    其中:Posi代表第 i个句子的位置得分,pi代表第 i个句子在新闻文章中的位置,n代表文章中的句子总个数。
    新闻文章中第 i个句子的主题特征得分,打分公式如下:
    基于BERT-PGN模型的中文新闻文本自动摘要生成_第3张图片
    其中:Simi表示第 i个句子与新闻文章标题的相似度,s和 t分别代表标题和新闻文章中句子的向量化表示。

三、基于指针生成网络模型的句子生成阶段

  • 文本中的文字 wi依次传入 BERT-多维语义特征编码器、双向长短时记忆神经网络(Bidirectional Long Short-Term Memory,Bi-LSTM)编码器,生成隐层状态序列 hi。在 t 时刻,长短时记忆(Long Short-Term Memory,LSTM)神经网络解码器接收上一时刻生成的词向量,得到解码状态序列st。注意力分布at用来确定t时刻输出序列字符时,输入序列中需要关注的字符。计算公式如下:
    基于BERT-PGN模型的中文新闻文本自动摘要生成_第4张图片
    为了解决生成词语重复的问题,本文引入了 coverage机制。引入 coverage 向量 ct跟踪已经生成的单词,并对已经生成的单词施加一定的惩罚,尽量减少生成重复。coverage向量ct计算方式如下:
    基于BERT-PGN模型的中文新闻文本自动摘要生成_第5张图片

实验部分

一、数据集

  • 使用NLPCC2017中文单文档新闻摘要评测数据集。
    基于BERT-PGN模型的中文新闻文本自动摘要生成_第6张图片

二、实验环境及参数设置

  • 本文实验使用单个GTX-1080Ti(GPU)进行训练。本实验获取文本词向量使用 BERT-base 预训练模型。BERT-base 模型 共 12 层 ,隐 层 768 维 。 设 置 最 大 序 列 长 度 为 128,train_batch_size为16,learning_rate为 5E-5。指针生成网络模型设置 batch_size 为 8,隐层 256维,设置字典大小为50k。训练过程共进行 700k 次迭代,训练总时长约为7 d5 h(合计173 h)。

三、实验结果
基于BERT-PGN模型的中文新闻文本自动摘要生成_第7张图片
基于BERT-PGN模型的中文新闻文本自动摘要生成_第8张图片
基于BERT-PGN模型的中文新闻文本自动摘要生成_第9张图片
基于BERT-PGN模型的中文新闻文本自动摘要生成_第10张图片

展望未来

     下一步将尝试挖掘更多要素,例如:面向新闻文本的有效人工特征等,提升摘要结果;简化模型,缩短模型训练时间;提升生成摘要内容的完整性、流畅性;构建新闻领域的外部数据,帮助模型结合句子上下文充分理解句子含义。

你可能感兴趣的:(基于BERT-PGN模型的中文新闻文本自动摘要生成)