[ACL22] HIBRIDS:Hierarchical Biases for Structure-aware Long Document Summarization 阅读笔记

HIBRIDS: Attention with Hierarchical Biases
for Structure-aware Long Document Summarization
[pdf]

  • 论文状态:被ACL22接收
  • 作者:University of Michigan的 Shuyang Cao 和 Lu Wang
  • TL;DR: 本文用相对关系矩阵为transformer引入文档结构信息,进而提升长文档摘要的效果,并介绍了一个新的任务:结构化"问题-摘要对"生成.

1. Motivation

文档的结构对于摘要是很重要的信息,如何有效地给摘要模型加入结构信息是一个有趣的问题.

受到自顶向下知识学习的启发:人们是从问宽泛的问题开始学习整体知识,再深入到细节中学习的.

于是作者提出一个新任务:给定一个文档,自动生成问题和摘要,并把"问题-摘要对"排列成文档的类似结构.
[ACL22] HIBRIDS:Hierarchical Biases for Structure-aware Long Document Summarization 阅读笔记_第1张图片

2. Contribution

  • 发明了一种有效地给摘要模型提供源文档结构信息的方法:相对位置矩阵
  • 发布了一个新的摘要任务: 生成"问题-摘要对",从中提取文档的结构信息

3. Model

作者构建文档的结构树,用一个矩阵 B B B,引入了2个值来表示树结构:

  • PathLen(x,y):章节x与y之间路径的长度
  • LvlDiff(x,y): x与y在树中深度(到root的距离)的差异

对应的图:
[ACL22] HIBRIDS:Hierarchical Biases for Structure-aware Long Document Summarization 阅读笔记_第2张图片
作者以这个树结构矩阵 B B B为查询表,为transformer的attention计算方式提供额外的结构信息.

对于encoder, 给定i号查询 q i q_i qi和由输入的n个token的key组成的矩阵 K K K
更改self-attention机制为:
a i j = s o f t m a x ( q i K T + b i ) j b i = [ b i 1 , b i 2 , . . . , b i n ] a_{ij} = softmax(q_iK^T + b_i)_j \\ b_i = [b_{i1},b_{i2},...,b_{in}] aij=softmax(qiKT+bi)jbi=[bi1,bi2,...,bin]
其中,bias项的计算方式是查表:
b i j = B [ PathLen ( i , j ) , LvlDiff ( i , j ) ] b_{ij}=B[\text{PathLen}(i,j),\text{LvlDiff}(i,j) ] bijB[PathLen(i,j),LvlDiff(i,j)]
此外,作者还对decoder进行了设计,引入结构信息.

4. Experiments

数据的来源是GOVREPORT摘要数据集,里面是政府的报告和摘要,很长,源文档平均长度为9409,摘要平均长度为553.
作者请了11个大学生来在GOVREPORT数据集的基础上标注,标注者会根据每个摘要段落创造结构化的问题,并只能选择摘要句子作为答案.

作者的结构化"问题-摘要对"生成分了3个任务:

  • QSGen-Hier: 给定对齐的文档和根问题,生成一个能回答问题且有结构的摘要.
  • QSGen-ChildQ: 给定一个"问题-摘要对"和对齐的文档章节,生成所有的子问题.
  • Full Summary Generation: 生成整个长文档的摘要.

作者采用的摘要模型是Longformer,窗口长度设置为1024,在此基础上加入结构信息.
最后的实验表明,只在encoder里加结构信息貌似是最能帮助摘要生成的.

5. Key takeaways

  • 可以通过PathLen与LvlDiff构建矩阵,表示树中节点之间的相对位置关系.
  • 可以直接用查相对位置表的方式给Transformer引入结构信息.

你可能感兴趣的:(看论文,人工智能,神经网络,nlp,深度学习)