Word2Vec训练过程中的加速问题

       学习ML/NLP的童鞋们都知道,word2vec是NLP的一个重要应用。Word2Vec是谷歌开源的一个将语言中字词转化为向量形式表达的工具。它通过在大数据量上进行高效训练而得到词向量,使用词向量可以很好地度量词与词之间的相似性。Word2Vec采用的模型包含了连续词袋模型Continuous Bag of Words(简称:CBOW)和Skip-Gram模型,其中CBOW是从原始语句(比如:中国的首都是__)推测目标字词(比如:北京);而Skip-Gram与CBOW正好相反,它是从目标字词对原始语句进行推测。一般情况下,CBOW在小型语料中的表现良好,而Skip-Gram对大型数据集更为合适。 针对CBOW和Skip-Gram的具体工作原理,可以参考https://www.cnblogs.com/pinard/p/7160330.html 和 https://blog.csdn.net/u010665216/article/details/78724856。

        实际上,对于大规模训练语料来讲,训练时间是非常宝贵的。在这种情况下,我们就需要考虑提高训练速度。如下有两个非常好的训练速度提升的原理,供大家参考学习。https://www.cnblogs.com/Determined22/p/5807362.htm和https://blog.csdn.net/qunnie_yi/article/details/80128024

        尽管word2vec取得了巨大的成功,并使得期应用非常广泛。但是随着技术的发展,它也不免被其他技术所取代。目前,有BERT、XLNet等先进的技术,在多项任务的性能上完全超过word2vec。推荐童鞋们关注和学习。

        

你可能感兴趣的:(机器学习)