关于BERT的一个一致性定理

原文: https://machinethoughts.wordpress.com/2019/07/14/a-consistency-theorem-for-bert/

BERT[1] 看起来和伪-似然函数有关。这其实可以导出关于 BERT 的一个一致性定理。查阅论文[2],发现 Wang 和 Cho 也指出了 BERT 和 伪-似然函数之间的联系。Wang 和 Cho 将 BERT 看成是 Markov 随机场 (MRF) 并使用了 Gibbs 采样来采样句子。但他们没有提及一致性。本文将探讨 BERT 作为一个语言模型——作为在完整语句上的一个概率分布——是一致的。

关于BERT的一个一致性定理_第1张图片
Bert

对伪-似然函数的经典证明假设了实际的总体分布由 MRF 权重的某个设定定义的。对于 BERT 我们将这个假设替换成深度模型具备准确地建模不同条件分布的能力。因为深度模型直觉上比通过手工设计的特征的线性 MRF 更具有表达能力,这个深度表达性假设看起来比经典假设更弱。

除了假设普遍表达能力,我会假设训练找到了一个全局最优点。对于完全优化的假设目前是很多有关深度学习的直觉理解的基础支撑。考虑 GAN 的一致性定理,这个定理假设了生成器和判别器的普遍表达能力和完全优化。尽管这些假设看起来比较暴力,GAN 一致性定理已经成为了 GAN 架构的设计思路的源头。因此,这样暴力的假设的价值不应该被低估。

为了训练 BERT,我们假设一个在 个词 的语句块(或者语句)上的总体分布. 我将假设 BERT 是通过在每个块中空出一个词来进行训练的。这个单个词-空出假设对证明有用,不过在实践中不一定重要。而且我相信证明可以被修改来处理 XLNet,它是为每个块预测单个拿出的序列而不是多个独立建模的空出。

令 为 BERT 的参数并令 为 BERT 在第 个词空出时分配给第 个词的所有词上的分布。BERT 的训练目标函数是:

\begin{array}{rcl} \Phi^* & = & \mathrm{argmin}_\Phi\;\;E_{\vec{y} \sim \mathrm{Pop},\;i \sim 1,\ldots k}\;\;-\ln\;Q_\Phi(y_i|\vec{y}/i) \\ \\ & = & \mathrm{argmin}_\Phi \;\frac{1}{k} \sum_{i=1}^k\;E_{\vec{y}\sim\mathrm{Pop}}\;-\ln\;Q_\Phi(y_i|\vec{y}/i) \\ \\ & = &\mathrm{argmin}_\Phi\;\sum_{i=1}^k \;H(\mathrm{Pop}(y_i),Q_\Phi(y_i)\;|\;\vec{y}/i) \end{array}

其中 表示条件于 上的交叉熵. 每个交叉熵项是在 时是单独最小化的。我们普遍假设是存在一个 同时满足所有这些条件分布。基于这个假设,对所有的 和 ,我们有:

现在我必须定义由 给定的语言模型(完全语句分布)。对此,我使用了 Gibbs 采样——定义在通过随机选择 和使用一个来自 的样本来替换 之上的随机过程。这个语言模型现在定义成为这个 Gibbs 采样过程的稳定分布。但是这个 Gibbs 过程是 和通过总体条件分布来进行 Gibbs 采样相同的。所以稳定分布必然是 。 证明毕。


  1. BERT, or Bidirectional Encoder Representations from Transformers, is a new method of pre-training language representations which obtains state-of-the-art results on a wide array of Natural Language Processing (NLP) tasks. google-research bert ↩

  2. Alex Wang, Kyunghyun Cho. BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model 1902.04904 ↩

你可能感兴趣的:(关于BERT的一个一致性定理)