文本分类V1

outline

  • 什么是文本分类
  • 特征工程+分类器
  • TextCNN

什么是文本分类

文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子、文档等)的标签或标签集合,其应用非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。

评价指标

文本分类的性能评价指标主要是召回率(recall)、准确率(precision)、F1-measure,以及用于评价全局性能的宏平均(macro-average)和微平均(micro-average)。

二分类:accuracy,precision,recall,f1-score,...
多分类: Micro-Averaged-F1, Macro-Averaged-F1, ...
多标签分类:Jaccard相似系数, ...

特征工程+分类器

传统的机器学习方法主要利用自然语言处理中的n-gram概念对文本进行特征提取,并且使用TFIDF对n-gram特征权重进行调整,然后将提取到的文本特征输入到Logistics回归、SVM等分类器中进行训练。这也是一个通用的分类任务解决框架。

中文文本分类一个实现

文本预处理

中文文本分类中,分词是必不可少的环节

文本特征提取/文本表示
  • 向量空间模型(VSM)
  • 语义的文本表示方法
    比如LDA主题模型、LSI/PLSI概率潜在语义索引等方法,一般认为这些方法得到的文本表示可以认为文档的深层表示,
  • word embedding文本分布式表示方法
    词向量
特征选择

文本分类中最常用的选择特征的方法就是:对每个词根据TF/IDF,互信息量,信息增益,χ2统计量之一计算一个值,并且从大到小排序,然后设定一个阈值,取出所有大于阈值的词作为特征值组成特征向量。

  • TF/IDF
  • 互信息量
  • 信息增益
  • χ2统计量

其它特征选择方法可参考机器学习-特征工程

fastText

fastText的核心思想:将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类
fastText 方法包含三部分:模型架构、层次 Softmax 和 N-gram 特征。
Facebook开源的fastText工具也实现了词向量的训练,使用其可挖掘同近义词

模型架构:fastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。fastText 在预测标签时使用了非线性激活函数,但在中间层不使用非线性激活函数。

层次softmax:在某些文本分类任务中类别很多,计算线性分类器的复杂度高。为了改善运行时间,fastText 模型使用了层次 Softmax 技巧。层次 Softmax 技巧建立在哈夫曼编码的基础上,对标签进行编码,能够极大地缩小模型预测目标的数量。

N-gram 特征:fastText 可以用于文本分类和句子分类。不管是文本分类还是句子分类,我们常用的特征是词袋模型。但词袋模型不能考虑词之间的顺序,因此 fastText 还加入了 N-gram 特征。

模型架构

fastText 模型架构和 Word2Vec 中的 CBOW 模型很类似。不同之处在于,fastText 预测标签,而 CBOW 模型预测中间词。

层次SoftMax
N-gram特征

在文本特征提取中,常常能看到n-gram的身影。它是一种基于语言模型的算法,基本思想是将文本内容按照字节顺序进行大小为N的滑动窗口操作,最终形成长度为N的字节片段序列。
FastText:快速的文本分类器

fastText原理及实践(达观数据王江)

TextCNN

下图为TextCNN的流程图


文本分类V1_第1张图片
Screen-Shot-2015-11-06-at-8.03.47-AM-1024x413.png

下图为CNN的网络结构


文本分类V1_第2张图片
Screen-Shot-2015-12-10-at-10.13.50-AM1-1024x525.png

具体细节参考Implementing a CNN for Text Classification in TensorFlow
在TextCNN中,第一层的作用是将词嵌入低维度向量,第二层使用多尺度卷积核进行卷积,然后使用max-pooling后将最后一层reshape为一个长向量,增加dropout正则,然后使用softmax进行分类
在这个实现中,作者将每个文本都pad到最大max_document_length,然后用词向量排列成一个矩阵

其它参考文献

文本分类解决方法综述

文本分类简介
基于深度学习的大规模多标签文本分类任务总结

深度学习在文本分类中的应用

你可能感兴趣的:(文本分类V1)