自上世纪90年代开始,特征空间模型就应用于分布式语言理解中,在当时,许多模型用连续型表征来表示词语,包括潜在语义分析(Latent Semantic Analysis)和潜在狄拉克雷分配(Latent Dirichlet Allocation)模型,这篇文章详细介绍了词向量方法在那个时期的发展。Bengio等人在2003年首先提出了词向量的概念,当时是将其余语言模型的参数一同训练得到。Collobert和Weston则第一次正式使用预训练的词向量。
词向量意义在于将语言数学化——词向量就是一种将自然语言数学化的方法。词向量方法是无监督式学习的少数几个成功应用之一。它的优势在于不需要人工标注语料,直接使用未标注的文本训练集作为输入。输出的词向量可以用于下游的业务处理。
一般来说,神经网络将词表中的词语作为输入,输出一个低维度的向量表示这个词语,然后用反向传播的方法不断优化参数,输出的低维向量是神经网络的第一层参数,这一层通常也称为Embedding Layer。
生成的词向量模型一般分为两种,一种是word2vec,这类模型的目的就是生成词向量,另一种模型是将词向量作为副产物产生,两者的区别在于计算量不同。若词表非常庞大,用深层结构模型训练词向量需要许多计算资源。这也是直到2013年词向量才开始被广泛用于NLP领域的原因。
Word2Vec是词嵌入(word embedding)的一种,其中,Word2Vec提供了两套模型,第一种是Skip-gram,另一种是CBOW,其在语言数字化的过程中有以下几种变换:
context_window =5
,即: [ w t − 2 , w t − 1 , w t , w t + 1 , w t + 2 ] {[w_{t-2},w_{t-1},w_t,w_{t+1},w_{t+2}]} [wt−2,wt−1,wt,wt+1,wt+2],或者说skip_window=2
,有context_window = skip_window*2 + 1
CBOW
的训练样本为: ( [ w t − 2 , w t − 1 , w t + 1 , w t + 2 ] , w t ) {([w_{t-2},w_{t-1},w_{t+1},w_{t+2}],w_t)} ([wt−2,wt−1,wt+1,wt+2],wt)Skip-gram
的训练样本为: ( w t , w i ) , i ∈ ( t − 2 , t − 1 , t + 1 , t + 2 ) {(w_{t},w_{i}),i\in(t-2,t-1,t+1,t+2)} (wt,wi),i∈(t−2,t−1,t+1,t+2)skip_window <= 10
Word2Vec
还提供了两套优化方案,分别基于Hierarchical Softmax (层次SoftMax)
和Negative Sampling (负采样)
CBOW
是给一定上下文预测目标词的概率分布,例如,给定{The, cat, (), over, the, puddle}预测中心词是jumped的概率,模型的结构如下:
我们假设当前输入的权重参数矩阵为X,当前所有词所组成的字典为V,我们可以得到以下的更新公式:
v c − m = V X c − m v^{c-m} = VX^{c-m} vc−m=VXc−m
v ′ = v c − m + v c − m + 1 + ⋯ + v c + m 2 m v' = \frac{v^{c-m} + v^{c-m+1}+\dots+v^{c+m}}{2m} v′=2mvc−m+vc−m+1+⋯+vc+m
z = U v ′ z = Uv' z=Uv′
y j = s o f t m a x ( z ) y_j = softmax(z) yj=softmax(z)
对于CBOW模型来说,我们就是要实现概概率最大化的参数输出。
下面举这个例子:
context(w)
中的词映射为m
维词向量,共2c
个2c
个词向量累加求和,得到新的m
维词向量N
个叶子节点,N-1
个非叶子节点。N-gram
神经语言模型的网络结构
w
的前n-1
个词,后者使用w
两边的词(这是后者词向量的性能优于前者的主要原因)【示例】N-gram模型迭代方法
隐层的激活函数其实是线性的,相当于没做任何处理,这也是Word2Vec简化之前语言模型的读到之处,我们要训练这个神经网络,用的是反向传播算法,本质上是链式求导,在此不展开说明。
当这个模型训练完成后,最后得到的其实是神经网络的权重,比如现在链式求导中输入的一个x的one-hot encoder
为[1,0,0,…,0],对应于这个词语为吴彦祖
,则在输入层到隐藏层的权重里,只有对应的1这个未知的权重被激活,这些权重的个数,跟隐藏层节点数是一致的,从而这些权重组成了一个向量 v x v_x vx来表示 x x x,因为每个词语的one-hot encoder
里面1的位置是不同的,所以,这个向量 v x v_x vx就可以用来唯一表示 x x x。
然而,word2vec对这个模型进行了改进,首先,对于输入层到隐藏层的映射没有采取神经网络的线性变换加激活函数的方法,而是采用了简单的对所有输入词向量求和并取平均的方法,采用简单的对所有输入词向量求和并取平均的方法。比如输入的是三个4维词向量:(1,2,3,4),(9,6,11,8),(5,10,7,12),那么我们word2vec所映射后的词向量为(5,6,7,8)。前面两种都是使用这种向量和的方式。
Softmax
实际上是把一个超大的多分类问题转化成一系列二分类问题从根节点到“足球”所在的叶子节点,需要经过 4 个分支,每次分支相当于一次二分类(逻辑斯蒂回归,二元Softmax)。
p ( 0 ∣ x w ; θ ) = σ ( x w T θ ) = 1 1 + e − x w T θ p(0|x_w;\theta)=\sigma(x_w^T \theta)=\frac{1}{1+e^{-x_w^T \theta}} p(0∣xw;θ)=σ(xwTθ)=1+e−xwTθ1
p ( 1 ∣ x w ; θ ) = 1 − σ ( x w T θ ) p(1|x_w;\theta)=1-\sigma(x_w^T \theta) p(1∣xw;θ)=1−σ(xwTθ)
这里设0为正类,1为负类
而 P ( “ 足 球 ” ∣ c o n t e x t ( “ 足 球 " ) ) P(“足球”|context(“足球")) P(“足球”∣context(“足球"))就是每次分类正确的概率之积,即
p = p ( 1 ∣ x w ; θ 1 ) ⋅ p ( 1 ∣ x w ; θ 2 ) ⋅ p ( 1 ∣ x w ; θ 3 ) ⋅ p ( 1 ∣ x w ; θ 4 ) p=p(1|x_w;\theta_1)·p(1|x_w;\theta_2)·p(1|x_w;\theta_3)·p(1|x_w;\theta_4) p=p(1∣xw;θ1)⋅p(1∣xw;θ2)⋅p(1∣xw;θ3)⋅p(1∣xw;θ4)
这里每个非叶节点对应参数 θ i \theta_i θi
CBOW
与Skip-gram
模型的区别仅在于 x w x_w xw 的构造方式不同,前者是context(w)
的词向量累加;后者就是 w w w 的词向量Skip-gram
模型用中心词做特征,上下文词做类标,但实际上两者的地位是等价的下图就是Skip-gram的网络结构,x就是上面所提到的one-hot encoder形式输入,y就是这个字典V个词上输出的概率,我们希望跟真实的y的one-hot encoder
一样。
对于Skip-ngram模型也需要设定一个目标函数,随后采用优化方法来求得该模型的最佳参数解,目标函数如下:
目标函数用在 w c w_c wc出现的情况下,上下文出现这些单词的概率,最后得到上面的公式进行梯度下降。
层次 Softmax
还不够简单,于是提出了基于负采样的方法进一步提升性能(Negative Sampling)
是NCE(Noise Contrastive Estimation)
的简化版本N-gram
神经语言模型中的做法,就是对整个词表 Softmax
和交叉熵Skip-gram
模型同理负采样算法,即对给定的w
,生成相应负样本的方法
最简单的方法是随机采样,但这会产生一点问题,词表中的词出现频率并不相同
因此,负采样算法实际上就是一个带权采样过程
以下是其相对应的描述
我们来进行负采样,得到neg个负例。词汇表的大小为V那么我们就将一段长度为1的线段分为V份,每份对应词汇表中的一个词。当然每个词对应的线段长度是不一样的,高频词对应的线段唱,低频词对应的线段短(根据词频采样,出现的次数越多,负采样的概率越大)。每个词 w w w的线段长度由下式所决定: l e n ( w ) = c o u n t e r ( w ) ∑ u D c o u n t e r ( u ) len(w) = \frac{counter(w)}{\sum_uD counter(u)} len(w)=∑uDcounter(u)counter(w)
采样前,我们将这段长度为1的线段划分成 M M M等份,这里M>>V
,这能够保证每个词对应的线段都会划分成对应的小块,而 M M M份中每一份会落在某一个词对应的线段上(如下图),对应的未知就是采样的负例词。
先对这个L进行均等分, l i l_i li代表的是每个单词,那么每个单词就不应该是均等的,故 i 1 i_1 i1, i 2 i_2 i2都应该是不均等的,那么投影到下面区间是不一样的,虚线条数是不均等的。那么怎么进行带权重的负采样呢,这里频率比较高的词就会被更高的采样
采样时,每次生成一个 [ 1 , M − 1 ] [1, M-1] [1,M−1]之间的整数 i i i,则 T a b l e ( i ) Table(i) Table(i)就对应一个样本;当采样到正例时,跳过(拒绝采样)。
特别的,Word2Vec
在计算len(w)
时做了一些改动——为count(·)
加了一个指数
l e n ( w ) = c o u n t ( w ) 3 4 ∑ u ∈ V c o u n t ( u ) 3 4 len(w)=\frac{count(w)^{\frac{3}{4}}}{\sum_{u\in V}count(u)^{\frac{3}{4}}} len(w)=∑u∈Vcount(u)43count(w)43
[-0.5/m, 0.5/m]
,其中 m m m为词向量的维度0
FastText
是从Word2Vec
的CBOW
模型演化而来的;FastText
与CBOW
的相同点:
skip_window
内的上下文词;FastText 除了上下文词外,还包括这些词的字符级N-gram特征// 源码中计算 n-grams 的声明,只计算单个词的字符级 n-gram
compute_ngrams(word, unsigned int min_n, unsigned int max_n);
# > https://github.com/vrasneur/pyfasttext#get-the-subwords
>>> model.args.get('minn'), model.args.get('maxn')
(2, 4)
# 调用源码的 Python 接口,源码上也会添加 '<' 和 '>'
>>> model.get_all_subwords('hello') # word + subwords from 2 to 4 characters
['hello', '', 'lo', 'lo>', 'o>']
>>> # model.get_all_subwords('hello world') # warning
N-gram
向量作为额外的特征,使其能够对未登录词也能输出相应的词向量;N-gram
向量的叠加gensim.models.FastText
使用示例FastText
以及获取词向量# gensim 示例
import gensim
import numpy as np
from gensim.test.utils import common_texts
from gensim.models.keyedvectors import FastTextKeyedVectors
from gensim.models._utils_any2vec import compute_ngrams, ft_hash
from gensim.models import FastText
# 构建 FastText 模型
sentences = [["Hello", "World", "!"], ["I", "am", "huay", "."]]
min_ngrams, max_ngrams = 2, 4 # ngrams 范围
model = FastText(sentences, size=5, min_count=1, min_n=min_ngrams, max_n=max_ngrams)
# 可以通过相同的方式获取每个单词以及任一个 n-gram 的向量
print(model.wv['hello'])
print(model.wv['
ngrams
表示compute_ngrams
方法,gensim
提供了该方法的Python
接口sum_ngrams = 0
for s in sentences:
for w in s:
w = w.lower()
# from gensim.models._utils_any2vec import compute_ngrams
ret = compute_ngrams(w, min_ngrams, max_ngrams)
print(ret)
sum_ngrams += len(ret)
"""
['', '', '']
['', '', '']
['', '']
['', '']
['', '', '']
['', '', '']
['<.', '.>', '<.>']
"""
assert sum_ngrams == len(model.wv.vectors_ngrams)
print(sum_ngrams) # 57
print()
n-grams
向量的叠加平均# 因为 "a", "aa", "aaa" 中都只含有 "
word_unk = "aam"
ngrams = compute_ngrams(word_unk, min_ngrams, max_ngrams) # min_ngrams, max_ngrams = 2, 4
word_vec = np.zeros(model.vector_size, dtype=np.float32)
ngrams_found = 0
for ngram in ngrams:
ngram_hash = ft_hash(ngram) % model.bucket
if ngram_hash in model.wv.hash2index:
word_vec += model.wv.vectors_ngrams[model.wv.hash2index[ngram_hash]]
ngrams_found += 1
if word_vec.any(): #
word_vec = word_vec / max(1, ngrams_found)
else: # 如果一个 ngram 都没找到,gensim 会报错;个人认为把 0 向量传出来也可以
raise KeyError('all ngrams for word %s absent from model' % word_unk)
print(word_vec)
print(model.wv["aam"])
"""
[ 0.02210762 -0.10488641 0.05512805 0.09150169 0.00725085]
[ 0.02210762 -0.10488641 0.05512805 0.09150169 0.00725085]
"""
# 如果一个 ngram 都没找到,gensim 会报错
# 其实可以返回一个 0 向量的,它内部实际上是从一个 0 向量开始累加的;
# 但返回时做了一个判断——如果依然是 0 向量,则报错
# print(model.wv['z'])
"""
Traceback (most recent call last):
File "D:/OneDrive/workspace/github/DL-Notes-for-Interview/code/工具库 /gensim/FastText.py", line 53, in
print(model.wv['z'])
File "D:\program\work\Python\Anaconda3\envs\tf\lib\site-packages\gensim\models \keyedvectors.py", line 336, in __getitem__
return self.get_vector(entities)
File "D:\program\work\Python\Anaconda3\envs\tf\lib\site-packages\gensim\models \keyedvectors.py", line 454, in get_vector
return self.word_vec(word)
File "D:\program\work\Python\Anaconda3\envs\tf\lib\site-packages\gensim\models \keyedvectors.py", line 1989, in word_vec
raise KeyError('all ngrams for word %s absent from model' % word)
KeyError: 'all ngrams for word z absent from model'
"""
embedding_size = n_categories ** 0.25
100~300
[1]: Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.