fasttext-advance版本

该方法的优化点是将位置信息添加到word2vec的计算中。

word2vec有两种实现方式,一种是cbow,基于context(上下文S词)预测中心词,另一种是skipgram,基于中心词预测上下文。 主要的优化方向是cbow.

1. 标准的cbow的实现

有两种实现模式:

1)基于公式,其中代表句向量,在fasttext中的求法就是w的简单均值。

2)考虑到随机选取一部分非中心词当做错误集合,将错误集合的预测结果和中心词的预测当成两类,加入loss函数,那么loss函数的公式可以写为:

其中:

2. 基于位置的cbow

该方案中,基于位置的考虑非常简单容易实现,计算成本低。

对于每个需要预测的词w, 建立一个基于距离P的文本窗口,w是通过该文本窗口中的词预测出来。

也就是说,将原有标准cbow实现中的文本向量是w的平均,改成基于位置权重的词向量叠加。

三. 效果:

论文中,对比了cbow, cbow+phrase(ngream),cbow+phrase+weight(本方案)方法在

common crawel数据集的结果如下:


可以看出,本方案取得了较优的提升。

你可能感兴趣的:(fasttext-advance版本)