word2vec训练优化之Negative Sampling

回顾一下word2vec的训练trick之一:分层softmax。

缺点就是:
1.对于词袋大小V如果V非常大,即使是构建哈夫曼树,复杂度也会很高,所以提出使用负采样。使用负采样的时候,可以明显感觉到训练速度快于层次softmax,而且不需要构建复杂的哈弗曼树。
2.遇到一些生僻词,可能路径会很长,很耗时。因为生僻词在哈夫曼树中离根节点较远。

那么下面来分析下word2vec里的训练trick之二:负采样策略
 因为我们知道,原始softmax里主要耗时的地方是在softamax的分母里,需要计算词表所有词的指数项之和,十分耗时。所以负采样就是简化了这个分母项。随机采样K个负样本。来近似地做一个估计。

你可能感兴趣的:(算法岗面试,word2vec,机器学习,人工智能,自然语言处理)