轻松入门自然语言处理系列 专题7 基于FastText的文本分类

文章目录

  • 一、论文解读
  • 二、FastText源码解读
  • 三、使用FastText实现文本分类
    • 1.词袋(词频、tf-idf)
    • 2.Word2Vec
    • 3.LDA模型
    • 4.FastText

一、论文解读

论文《Bag of Tricks for Efficient Text Classification》是2017年发布于ACL的文章,目前引用数3806,主要是基于FastText的文本分类,提出了文本分类的很多实用技巧。

模型结构比较简单,如下:

轻松入门自然语言处理系列 专题7 基于FastText的文本分类_第1张图片

可以看到,这是具有 N 个 ngram 特征x1、…、xN的句子的fasttext模型架构。词的特征可以被平均到一起,形成良好的句子表征,即特征被嵌入并平均以形成隐藏变量。模型架构类似于Word2vec的CBOW模型,中间的词被一个标签代替。

负对数似然概率公式如下:

你可能感兴趣的:(轻松入门自然语言处理系列,自然语言处理,FastText,文本分类,谭雪学院,NLP)