通俗理解glove词向量,较word2vec的区别

写得这么通俗易懂,不仅是公式推导(虽然这个也没啥推导的),加入例子更好理解整个过程。整个过程相较于word2vec的训练过程来说,只是对真值做了改变和对损失函数的推导过程,当然里面也有一些巧妙的思路,不仅仅是凑巧。还有就是较word2vec,glove利用了全局信息,使其在训练时收敛更快,训练周期较Word2vec较短且效果更好。

通俗理解glove词向量,较word2vec的区别_第1张图片

实际我觉得这里作者发现的规律还是存在问题的,比值约等于1时,存在两种情况,P(i,k)P(j,k)都很大或者很小,很大表明单词i,k和j,k相关性很高,反之则很低,但很大和很小只是相对的,单纯的给两个数值我们并不能判断它们之间的相关性如何。P(i,k)=0.6,P(i,k)=3.6我们只能说明后者比前者相关性大,但后者相关性有多大???我们并不知道。仍需要统计普遍规律来设定相应的阈值。

通俗理解glove词向量,较word2vec的区别_第2张图片

如有疑问和错误,敬请指正

同时简介了其他作者的博客,共同学习。

你可能感兴趣的:(通俗理解glove词向量,较word2vec的区别)