2018 · ICLR · A NEW METHOD OF REGION EMBEDDING FOR TEXT CLASSIFICATION

2018 · ICLR · A NEW METHOD OF REGION EMBEDDING FOR TEXT CLASSIFICATION

想法来源:为了挖掘深层的语法信息,利用上下文来表示word,利用n-gram来表示上下文,参数会过多,本文提出的方法可以解决上面的问题。

价值:探索了上下文n-gram对词表示的影响。

方法:新的用上下文表示词embedding的解决方案,一个词对应着一个n-gram上下文矩阵,这个矩阵不随着它的上下文变化而变化,可以挖掘深层语义信息。

缺点:参数过多,不容易训练。

详细方案:一个词,构建一个n-gram矩阵,表示其上下文,这个矩阵不随上下文单词变化而变化,是个维度固定的矩阵。
Word-Context Region Embedding:对于输入的句子其n-gram的上下文,每一个词的embedding,与上下文矩阵中对应位置的列向量做element-wise mul,然后max-pool
Context-Word Region Embedding:对于输入的句子其n-gram的上下文,上下文中的每一个词各自的上下文向量,抽取出当前n-gram核心词的相对位置的列向量,拿出来与上下文矩阵中对应位置的列向量做element-wise mul,然后max-pool

数据集

  1. Yelp Review Polarity
  2. Yelp Review Full
  3. Amazon Review Polarity
  4. Amazon Review Full
  5. AG’s News
  6. Sogou News
  7. Yahoo! Answers
  8. DBPedia

实验

baseline result

2018 · ICLR · A NEW METHOD OF REGION EMBEDDING FOR TEXT CLASSIFICATION_第1张图片
image

n-gram n的大小和embedding size的影响

2018 · ICLR · A NEW METHOD OF REGION EMBEDDING FOR TEXT CLASSIFICATION_第2张图片
image

详细对比了加入context表示的影响


2018 · ICLR · A NEW METHOD OF REGION EMBEDDING FOR TEXT CLASSIFICATION_第3张图片
-c400

后面还做了可视化

训练时间,参数规模,收敛速度


2018 · ICLR · A NEW METHOD OF REGION EMBEDDING FOR TEXT CLASSIFICATION_第4张图片
image

你可能感兴趣的:(2018 · ICLR · A NEW METHOD OF REGION EMBEDDING FOR TEXT CLASSIFICATION)