word2vec

把词映射为实数域向量的技术也叫词嵌入

跳字模型

假设基于某个词来生成它在文本序列周围的词

每个词被表示成两个 d维向量,用来计算条件概率

训练中通过最大化似然函数来学习模型参数,即最大似然估计,这等价于最小化以下损失函数:


连续词袋模型

假设基于某中心词在文本序列前后的背景词来生成该中心词

因为连续词袋模型的背景词有多个,我们将这些背景词向量取平均,然后使用和跳字模型一样的方法来计算条件概率

连续词袋模型的最大似然估计等价于最小化损失函数 :


词向量是用来表示词的向量。把词映射为实数域向量的技术也叫词嵌入

word2vec包含跳字模型和连续词袋模型。跳字模型假设基于中心词来生成背景词。连续词袋模型假设基于背景词来生成中心词


负采样

负采样通过考虑同时含有正类样本和负类样本的相互独立事件来构造损失函数,其训练中每一步的梯度计算开销与采样的噪声词的个数线性相关

层序softmax

层序softmax使用了二叉树,并根据根结点到叶结点的路径来构造损失函数,其训练中每一步的梯度计算开销与词典大小的对数相关

你可能感兴趣的:(word2vec)