NLP-词向量(Word Embedding)-2015:C2W模型(Character to Word Embedding)【CharacterEmbedding(字符嵌入)】

《原始论文:Finding Function in Form: Compositional Character Models for Open Vocabulary Word Representation》

一、概述

  • 词向量的学习对于自然语言处理的应用非常重要,词向量可以在空间上捕获词之间的语法和语义相似性。
  • 但是词向量机制中的词和词之间是独立的,这种独立性假设是有问题的,词之间形式上的相似性会一定程度造成功能的相似性,尤其是在形态丰富的语言中。
  • 但是这种形态和功能之间的关系有不是绝对的,为了学习这种关系,本文在字符嵌入上使用双向LSTM来捕捉这种关系。
  • C2W模型能够很好地捕捉词之间的语法和语义相似度,并且在两个任务上取得最优的结果。

《Finding Function in Form: Compositional Character Models for Open Vocabulary Word Representation》论文摘要

  • 我们提出了一种新的使用字符和双向LSTM生成词表示的模型。
  • 相对于传统的词向量方法,我们的C2W模型需要的参数比较少,主要有两部分,一部分是字符映射成向量的参数,一部分是组合模块- LSTM的参数。
  • 尽管我们的模型参数少,并且单词中的形式-功能关系很难学习,我们的模型在语言模型和词性标注任务上取得最优的结果。
  • 这种优势在形态丰富的语言中更加明显。

二、Word Embedding的缺点

1、推理问题&#

你可能感兴趣的:(#,NLP/词向量_预训练模型,自然语言处理,NLP,字符嵌入,CharEmbedding)