FastText

听闻FastText是word2vec的加速版,吓得我赶紧找点资料看看,免得被人给忽悠了。


  • 《PaperWeekly 第五期——从Word2Vec到FastText》 这篇文章不错,对word2vec不熟悉的可以先看看这篇。

  • 觉得不够清楚,那直接看fastText的github源代码吧 https://github.com/facebookresearch/fastText

Please cite 1 if using this code for learning word representations or 2 if using for text classification.

  1. Enriching Word Vectors with Subword Information
  2. Bag of Tricks for Efficient Text Classification

所以,这里说的FastText其实包含两部分。一个是word2vec优化版,用了Subword的信息,速度是不会提升的,只是效果方面的改进,对于中文貌似完全没用。另外一块是文本分类的Trick,结论就是对这种简单的任务,用简单的模型效果就不错了。具体方法就是把句子每个word的vec求平均,然后直接用简单的LR分类就行。FastText的Fast指的是这个。https://www.zhihu.com/question/48345431/answer/111513229 这个知乎答案总结得挺好的,取平均其实算DL的average pooling,呵呵。


FastText是啥? 是word2vec的加速版本么? 所以这个问题应该有答案了吧。

你可能感兴趣的:(机器学习)