NLP-词向量

利用语料学习时,首先要解决的问题-将某个词转化为词向量

word2vec工具

英语约1300万词,词向量可以用一个N维的空间来编码所有的单词

两种方法:

One-Hot Representation

将词典的畅读标记为向量的长度,每个词向量分量只有一个1,其余全部是0。一个词对应一个编号

缺点:维数灾难、词汇鸿沟(不能从编号上看出两个词是够存在某种关系,如同义词、反义词)

Distributed Representation

用一个普通向量表示一个词,向量的表示要经过训练,可以用word2vec工具训练。

训练后,每个向量表示一个词,语义之间的相似性可以通过向量间的距离来判断。

应用:机器翻译。

你可能感兴趣的:(NLP-词向量)