让我们先回顾一下word2vec中的跳字模型。将跳字模型中使用softmax运算表达的条件概率 P ( w j ∣ w i ) P(w_j\mid w_i) P(wj∣wi)记作 q i j q_{ij} qij,即
q i j = exp ( u j ⊤ v i ) ∑ k ∈ V exp ( u k ⊤ v i ) , q_{ij}=\frac{\exp(\boldsymbol{u}_j^\top \boldsymbol{v}_i)}{ \sum_{k \in \mathcal{V}} \text{exp}(\boldsymbol{u}_k^\top \boldsymbol{v}_i)}, qij=∑k∈Vexp(uk⊤vi)exp(uj⊤vi),
其中 v i \boldsymbol{v}_i vi和 u i \boldsymbol{u}_i ui分别是索引为 i i i的词 w i w_i wi作为中心词和背景词时的向量表示, V = { 0 , 1 , … , ∣ V ∣ − 1 } \mathcal{V} = \{0, 1, \ldots, |\mathcal{V}|-1\} V={0,1,…,∣V∣−1}为词典索引集。
对于词 w i w_i wi,它在数据集中可能多次出现。我们将每一次以它作为中心词的所有背景词全部汇总并保留重复元素,记作多重集(multiset) C i \mathcal{C}_i Ci。一个元素在多重集中的个数称为该元素的重数(multiplicity)。举例来说,假设词 w i w_i wi在数据集中出现2次:文本序列中以这2个 w i w_i wi作为中心词的背景窗口分别包含背景词索引 2 , 1 , 5 , 2 2,1,5,2 2,1,5,2和 2 , 3 , 2 , 1 2,3,2,1 2,3,2,1。那么多重集 C i = { 1 , 1 , 2 , 2 , 2 , 2 , 3 , 5 } \mathcal{C}_i = \{1,1,2,2,2,2,3,5\} Ci={1,1,2,2,2,2,3,5},其中元素1的重数为2,元素2的重数为4,元素3和5的重数均为1。将多重集 C i \mathcal{C}_i Ci中元素 j j j的重数记作 x i j x_{ij} xij:它表示了整个数据集中所有以 w i w_i wi为中心词的背景窗口中词 w j w_j wj的个数。那么,跳字模型的损失函数还可以用另一种方式表达:
− ∑ i ∈ V ∑ j ∈ V x i j log q i j . -\sum_{i\in\mathcal{V}}\sum_{j\in\mathcal{V}} x_{ij} \log\,q_{ij}. −i∈V∑j∈V∑xijlogqij.
我们将数据集中所有以词 w i w_i wi为中心词的背景词的数量之和 ∣ C i ∣ \left|\mathcal{C}_i\right| ∣Ci∣记为 x i x_i xi,并将以 w i w_i wi为中心词生成背景词 w j w_j wj的条件概率 x i j / x i x_{ij}/x_i xij/xi记作 p i j p_{ij} pij。我们可以进一步改写跳字模型的损失函数为
− ∑ i ∈ V x i ∑ j ∈ V p i j log q i j . -\sum_{i\in\mathcal{V}} x_i \sum_{j\in\mathcal{V}} p_{ij} \log\,q_{ij}. −i∈V∑xij∈V∑pijlogqij.
上式中, − ∑ j ∈ V p i j log q i j -\sum_{j\in\mathcal{V}} p_{ij} \log\,q_{ij} −∑j∈Vpijlogqij计算的是以 w i w_i wi为中心词的背景词条件概率分布 p i j p_{ij} pij和模型预测的条件概率分布 q i j q_{ij} qij的交叉熵,且损失函数使用所有以词 w i w_i wi为中心词的背景词的数量之和来加权。最小化上式中的损失函数会令预测的条件概率分布尽可能接近真实的条件概率分布。
然而,作为常用损失函数的一种,交叉熵损失函数有时并不是好的选择。一方面,正如我们在10.2节(近似训练)中所提到的,令模型预测 q i j q_{ij} qij成为合法概率分布的代价是它在分母中基于整个词典的累加项。这很容易带来过大的计算开销。另一方面,词典中往往有大量生僻词,它们在数据集中出现的次数极少。而有关大量生僻词的条件概率分布在交叉熵损失函数中的最终预测往往并不准确。
鉴于此,作为在word2vec之后提出的词嵌入模型,GloVe模型采用了平方损失,并基于该损失对跳字模型做了3点改动 [1]:
如此一来,GloVe模型的目标是最小化损失函数
∑ i ∈ V ∑ j ∈ V h ( x i j ) ( u j ⊤ v i + b i + c j − log x i j ) 2 . \sum_{i\in\mathcal{V}} \sum_{j\in\mathcal{V}} h(x_{ij}) \left(\boldsymbol{u}_j^\top \boldsymbol{v}_i + b_i + c_j - \log\,x_{ij}\right)^2. i∈V∑j∈V∑h(xij)(uj⊤vi+bi+cj−logxij)2.
其中权重函数 h ( x ) h(x) h(x)的一个建议选择是:当 x < c x < c x<c时(如 c = 100 c = 100 c=100),令 h ( x ) = ( x / c ) α h(x) = (x/c)^\alpha h(x)=(x/c)α(如 α = 0.75 \alpha = 0.75 α=0.75),反之令 h ( x ) = 1 h(x) = 1 h(x)=1。因为 h ( 0 ) = 0 h(0)=0 h(0)=0,所以对于 x i j = 0 x_{ij}=0 xij=0的平方损失项可以直接忽略。当使用小批量随机梯度下降来训练时,每个时间步我们随机采样小批量非零 x i j x_{ij} xij,然后计算梯度来迭代模型参数。这些非零 x i j x_{ij} xij是预先基于整个数据集计算得到的,包含了数据集的全局统计信息。因此,GloVe模型的命名取“全局向量”(Global Vectors)之意。
需要强调的是,如果词 w i w_i wi出现在词 w j w_j wj的背景窗口里,那么词 w j w_j wj也会出现在词 w i w_i wi的背景窗口里。也就是说, x i j = x j i x_{ij}=x_{ji} xij=xji。不同于word2vec中拟合的是非对称的条件概率 p i j p_{ij} pij,GloVe模型拟合的是对称的 log x i j \log\, x_{ij} logxij。因此,任意词的中心词向量和背景词向量在GloVe模型中是等价的。但由于初始化值的不同,同一个词最终学习到的两组词向量可能不同。当学习得到所有词向量以后,GloVe模型使用中心词向量与背景词向量之和作为该词的最终词向量。
我们还可以从另外一个角度来理解GloVe模型。沿用本节前面的符号, P ( w j ∣ w i ) P(w_j \mid w_i) P(wj∣wi)表示数据集中以 w i w_i wi为中心词生成背景词 w j w_j wj的条件概率,并记作 p i j p_{ij} pij。作为源于某大型语料库的真实例子,以下列举了两组分别以“ice”(冰)和“steam”(蒸汽)为中心词的条件概率以及它们之间的比值 [1]:
w k w_k wk= | “solid” | “gas” | “water” | “fashion” |
---|---|---|---|---|
p 1 = P ( w k ∣ p_1=P(w_k\mid p1=P(wk∣ “ice” ) ) ) | 0.00019 | 0.000066 | 0.003 | 0.000017 |
p 2 = P ( w k ∣ p_2=P(w_k\mid p2=P(wk∣ “steam” ) ) ) | 0.000022 | 0.00078 | 0.0022 | 0.000018 |
p 1 / p 2 p_1/p_2 p1/p2 | 8.9 | 0.085 | 1.36 | 0.96 |
我们可以观察到以下现象。
由此可见,条件概率比值能比较直观地表达词与词之间的关系。我们可以构造一个词向量函数使它能有效拟合条件概率比值。我们知道,任意一个这样的比值需要3个词 w i w_i wi、 w j w_j wj和 w k w_k wk。以 w i w_i wi作为中心词的条件概率比值为 p i j / p i k {p_{ij}}/{p_{ik}} pij/pik。我们可以找一个函数,它使用词向量来拟合这个条件概率比值
f ( u j , u k , v i ) ≈ p i j p i k . f(\boldsymbol{u}_j, \boldsymbol{u}_k, {\boldsymbol{v}}_i) \approx \frac{p_{ij}}{p_{ik}}. f(uj,uk,vi)≈pikpij.
这里函数 f f f可能的设计并不唯一,我们只需考虑一种较为合理的可能性。注意到条件概率比值是一个标量,我们可以将 f f f限制为一个标量函数: f ( u j , u k , v i ) = f ( ( u j − u k ) ⊤ v i ) f(\boldsymbol{u}_j, \boldsymbol{u}_k, {\boldsymbol{v}}_i) = f\left((\boldsymbol{u}_j - \boldsymbol{u}_k)^\top {\boldsymbol{v}}_i\right) f(uj,uk,vi)=f((uj−uk)⊤vi)。交换索引 j j j和 k k k后可以看到函数 f f f应该满足 f ( x ) f ( − x ) = 1 f(x)f(-x)=1 f(x)f(−x)=1,因此一种可能是 f ( x ) = exp ( x ) f(x)=\exp(x) f(x)=exp(x),于是
f ( u j , u k , v i ) = exp ( u j ⊤ v i ) exp ( u k ⊤ v i ) ≈ p i j p i k . f (\boldsymbol{u}_j, \boldsymbol{u}_k, {\boldsymbol{v}}_i) = \frac{\exp\left(\boldsymbol{u}_j^\top {\boldsymbol{v}}_i\right)}{\exp\left(\boldsymbol{u}_k^\top {\boldsymbol{v}}_i\right)} \approx \frac{p_{ij}}{p_{ik}}. f(uj,uk,vi)=exp(uk⊤vi)exp(uj⊤vi)≈pikpij.
满足最右边约等号的一种可能是 exp ( u j ⊤ v i ) ≈ α p i j \exp\left(\boldsymbol{u}_j^\top {\boldsymbol{v}}_i\right) \approx \alpha p_{ij} exp(uj⊤vi)≈αpij,这里 α \alpha α是一个常数。考虑到 p i j = x i j / x i p_{ij}=x_{ij}/x_i pij=xij/xi,取对数后 u j ⊤ v i ≈ log α + log x i j − log x i \boldsymbol{u}_j^\top {\boldsymbol{v}}_i \approx \log\,\alpha + \log\,x_{ij} - \log\,x_i uj⊤vi≈logα+logxij−logxi。我们使用额外的偏差项来拟合 − log α + log x i - \log\,\alpha + \log\,x_i −logα+logxi,例如,中心词偏差项 b i b_i bi和背景词偏差项 c j c_j cj:
u j ⊤ v i + b i + c j ≈ log ( x i j ) . \boldsymbol{u}_j^\top \boldsymbol{v}_i + b_i + c_j \approx \log(x_{ij}). uj⊤vi+bi+cj≈log(xij).
对上式左右两边取平方误差并加权,我们可以得到GloVe模型的损失函数。
[1] Pennington, J., Socher, R., & Manning, C. (2014). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532-1543).
注:本节与原书完全相同,原书传送门