Hierarchical Attention Networks for Document Classification

HAN

hierarchy指的是两层--word层和sentence层,模型很简单,想法很自然

  1. word embedding
  2. bi-gru 作为word encoder
  3. word attention
  4. bi-gru 作为sentence encoder
  5. sentence attention
  6. softmax + logloss

细节:
预处理中过滤掉词频小于5的词用UNK取代,embedding层采用预训练的word2vec权重。
embedding_size设置为200,rnn_size为50(由于是双向故实际为100),rnn到的attention激活函数为tanh。

评估结果:


Evaluation

总结:
rnn结构更多地阐述一种远近邻连接关系,但没有告诉我们对某一个task来说连接中那些部分比较重要,而attention机制很好地解决了这个问题。对于长文本来说,不止一句话内有重要的词,一段之内也有重要的句子,这就是hierarchial attention设计的基本思想。

你可能感兴趣的:(Hierarchical Attention Networks for Document Classification)