文本分类_基于深度学习2(Word2Vec+TextCNN)

本章介绍Word2Vec的使用,以及TextCNN、TextRNN的原理和训练,最后介绍用千长文档分类的HAN。

  1. Word2Vec,词嵌入模型。word2vec的主要思路:通过单词和上下文彼此预测,对应的两个算法分别为:

    Skip-grams (SG):预测上下文
    Continuous Bag of Words (CBOW):预测目标单词

  2. 跳字模型假设基于某个词来生成它在文本序列周围的词。举个例子,假设文本序列是“the”“man”“loves”“his”“son”。以“loves”作为中心词,设背景窗口大小为2。跳字模型所关心的是,给定中心词“loves”,生成与它距离不超过2个词的背景词“the”“man”“his”“son”的条件概率,即
    P(the,man,his,son∣loves).
    文本分类_基于深度学习2(Word2Vec+TextCNN)_第1张图片

  3. 连续词袋模型与跳字模型类似。与跳字模型最大的不同在于,连续词袋模型假设基于某中心词在文本序列前后的背景词来生成该中心词。在同样的文本序列“the”“man”“loves”“his”“son”里,以“loves”作为中心词,且背景窗口大小为2时,连续词袋模型关心的是,给定背景词“the”“man”“his”“son”生成中心词“loves”的条件概率,也就是
    P(loves∣the,man,his,son).
    文本分类_基于深度学习2(Word2Vec+TextCNN)_第2张图片

  4. TextCNN利用CNN(卷积神经网络)进行文本特征抽取,不同大小的卷积核分别抽取n-gram特征,卷积计算出的特征图经过MaxPooling保留最大的特征值,然后将拼接成一个向量作为文本的表示。

  5. TextRNN利用RNN(循环神经网络)进行文本特征抽取,由千文本本身是一种序列,而LSTM天然适合建模序列数据。TextRNN将旬子中每个词的词向量依次输入到双向双层LSTM,分别将两个方向最后一个有效位置的隐藏层拼 接成一个向量作为文本的表示。

  6. Hierarchical Attention Network for Document Classification(HAN)基千层级注意力,在单词和旬子级别分别编码并基千注意力获得文档的表示,然后经过Softmax进行分类。其中word encoder的作用是获得旬子的表示,可以替换为上节提到的TextCNN和TextRNN,也可以替换为下节中的BERT。

  7. 后面有点难以理解了,后续再补充.部分参考链接

你可能感兴趣的:(nlp)