近期工作: Contributions of Transformer Attention Heads in Multi- and Cross-lingual Tasks

名称

Contributions of Transformer Attention Heads in Multi- and Cross-lingual Tasks
收录于:ACL 2021 (long oral),本人三作
一篇比较具有启发性的Transformer的结构和应用探究.

大致介绍

前提

  1. 基于前人的研究结论1 2,BERT的144(12*12)个heads里面,有一些heads对于任务来说是冗余的。或者说对于特定的任务,这些heads的contribution是不一样的,将一些当前任务用处不大的heads mask 掉,模型性能comparable甚至能有一定的提升。
  2. 有研究表明3,预训练语言模型Transformer等,可以捕捉学习到一些隐藏的linguistic features,语言语法特点(e.g., syntactic)

假设

基于前提 1,2 ,我们假设:

  1. 前提 2中所述的linguistic feature能够通过heads’ contribution 体现.
  2. 前提 2 中所述的linguistic feature是task-specificlanguage-shared的,即某种特定的任务会有特定的features,能够在不同语言之间共享(这个想法是直觉上的,我们猜测相较于语言这个factor,任务对语言模型的潜在特征学习影响是更大的)

动机

基于上述假设,我们的动机很明确了:

  1. 验证我们的假设,即跨语言间共享transformer捕捉到的linguistic featrues
  2. 若我们的假设是正确的,那么我们希望借助这些性质,来对低资源语言的训练进行指导。让BERT在一些语料资源丰富的语言(en,ch, etc.)上tune,获得这种language-shared的linguistic features (即heads contribution和mask location),然后对一些语料资源匮乏的语言(du,de,etc.)进行辅助 (mask 掉一些heads),让其性能得到一定的提升。

方法

问题的关键在于如何知道BERT heads的contribution,知道哪些heads需要被mask
受到前人工作的启发4, 我们希望利用模型inference的时候,反馈的gradient作为一种信号,来reveal heads的importance (很直觉,因为我们觉得如果一个head的contribution大,那么training被施加的loss自然也更大) 具体来讲,我们方法分为三个步骤:

  1. 在某个特定任务的特定语言的training set上tune transformer几轮.
  2. tune过的模型继续在eval set上进行loss back propagation,但是不会update parameter,将每个batch反馈的gradient(绝对值,我们不考虑正负)累积起来,获得一个12 * 12的matrix (以bert-base为例)
  3. 对这个matrix进行layer-wise normalization (启发自4),由于transformer layer之间的gradient数值上差距比较大 (基本上gradient最小的head都是集中在BERT的顶层),我们还对所有head进行了global min-max normalization. 获得一个最终的head contribution matrix.

我们就是利用上述的head contribution matrix作为mask head的依据,contribution弱的head会在training的时候被mask掉,并在不同language之间共享这个matrix。

实验

我们做了大量实验,在三种sequence labeling task(NER、POS,SF)上,用两种pre-trained multi-ling model(mBERT、XLM-R)作为实验对象,对9种language(由于human-label的数据集限制,SF用的语言和NER、POS不太一样)进行了cross-ling和multi-ling的实验。

注:
1.souce langage: 资源比较丰富的语言我们作为tune head contribution matrix的语言,我们主要使用三种语言(en,ch,ar)
2.target language:资源比较欠缺的小语种,我们作为利用资源丰富语言的head mask进行援助的目标
3.cross-ling: source language参与模型的训练,直接在target language上eval (相当于target language的zero-shot)
4.multi-ling: source language与target language都参与模型的训练

放上实验主表之一 (POS任务上):
近期工作: Contributions of Transformer Attention Heads in Multi- and Cross-lingual Tasks_第1张图片
主要比较pruned 和unpruned,statistic test过,基本上可以观察到general的提升,还有一些是comparable的

更多实验内容和细节,以及一些论证我们假设的discussion, 推荐读者阅读原文

贡献:

个人认为,我们的工作有如下的贡献 (站在我自己的,对我们工作的看待角度):

  1. 拓展了前人研究,证明了前人所述,mask 掉一些contribution弱的heads能够对任务完成产生一定的裨益,同时证明了该结论是language-shared的。
  2. 我们提出的基于gradient来定位masked head的方法,能够在消耗比较少的情况下对资源匮乏语言能够产生一定的援助 (算是一个比较有启发性的BERT application,而且比较贴近最近研究热门的一个应用场景,lower-resource training)。
  3. 对未来transformer的模型结构设计(head prune、parameter distillation)具有一定的启示。

ref

  • [1] Olga Kovaleva, Alexey Romanov, Anna Rogers, and Anna Rumshisky. 2019. Revealing the dark secrets of BERT. In Proceedings ofthe 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natu- ral Language Processing (EMNLP-IJCNLP), pages 4365–4374, Hong Kong, China. Association for Computational Linguistics.
  • [2] Elena Voita, David Talbot, Fedor Moiseev, Rico Sen- nrich, and Ivan Titov. 2019. Analyzing multi-head self-attention: Specialized heads do the heavy lift- ing, the rest can be pruned. In Proceedings of the 57th Annual Meeting of the Association for Com- putational Linguistics, pages 5797–5808, Florence, Italy. Association for Computational Linguistics.
  • [3] Jesse Vig and Yonatan Belinkov. 2019. Analyzing the structure of attention in a transformer language model. In Proceedings of the 2019 ACL Workshop
    BlackboxNLP:BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, pages 63–76, Florence, Italy. As- sociation for Computational Linguistics.
  • [4] Yanzhuo Ding, Yang Liu, Huanbo Luan, and Maosong Sun. 2017. Visualizing and understanding neural machine translation. In Proceedings of the 55th An- nual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1150– 1159, Vancouver, Canada. Association for Computa- tional Linguistics.

你可能感兴趣的:(个人工作,transformer,自然语言处理,深度学习)