词嵌入进阶

全局向量的词嵌入(GloVe)

GloVe模型采用了平方损失,并基于该损失对跳字模型做了3点改动

在有些情况下,交叉熵损失函数有劣势,GloVe模型采用了平方损失,并通过词向量拟合预先基于整个数据集计算得到的全局统计信,

 任意词的中心词向量和背景词向量在GloVe模型中是等价的


子词嵌入(fastText)

fastText提出了子词嵌入(subword embedding)的方法,从而试图将构词信息引入word2vec中的跳字模型

在fastText中,每个中心词被表示成子词的集合


           

fastText提出了子词嵌入方法,它在word2vec中的跳字模型的基础上,将中心词向量表示成单词的子词向量之和

 子词嵌入利用构词上的规律,通常可以提升生僻词表示的质量

你可能感兴趣的:(词嵌入进阶)