【论文阅读】Bag of Tricks for Efficient Text Classification

摘要

  • 这篇论文探索了一个简单有效的文本分类的baseline。
  • 实验表明快速文本分类器 f a s t T e x t fastText fastText 与深度学习分类器在准确度方面等价,并且训练和评估过程要快。
  • 他们能够用不到10分钟训练 f a s t T e x t fastText fastText 在超过10亿个单词上,并且用不到1分钟分类50万的句子在312000个类别上。

模型架构

  • 线性分类器在特征之间与类别之间不能共享参数。这可能会限制他们的泛化能力在大输出空间的背景下,当一些类别只有很少的例子时。一般的解决方法时分解这些线性分类器到一些低等级的矩阵或者使用多层神经网络。
    【论文阅读】Bag of Tricks for Efficient Text Classification_第1张图片
  • Figure1展示了一个简单的有等级约束的线性模型。第一个权重矩阵A时对单词的一个搜索表。将词表示平均后得到文章的表示,在反过来馈入一个线性分类器。文本表示是一个隐藏层的变量,它很可能会被重新使用。本文使用softmax函数来计算预定义类别的概率分布。对于一个集合的 N N N个文档,这会导致最小化各个类别的负对数似然:
    − 1 N ∑ n = 1 N y n l o g ( f ( B A x n ) ) -\frac{1}{N}\sum_{n=1}^{N}y_nlog(f(BAx_n)) N1n=1Nynlog(f(BAxn))
    式子中的 x n x_n xn是第 n n n个文档的标准化的bag特征, y n y_n yn是标签, A A A B B B是权重矩阵。这个模型在多CPU上进行异步的训练,使用随机梯度下降和一个线性衰退的学习率。

层级softmax

  • 当类别的数量很多时,使用线性分类器的计算成本太高。更精确的说,计算的复杂度为 O ( k h ) O(kh) O(kh) k k k时类别的数量, h h h时文本表示的维度。为了提升我们的运行时间,本文使用了一个基于哈夫曼编码树的层级softmax

你可能感兴趣的:(NLP,论文阅读,机器学习,深度学习)