文本表示|独热编码|整数编码|词嵌入

文本表示(Representation)

作用:将非结构化的信息(文本)转化为结构化的信息(向量)

文本表示的方法:

1.one-hot representation 独热编码
2.整数编码
3.word embedding 词嵌入

word embedding 词嵌入

优点:
1.可以将文本通过地位向量来表达
2.语意相似的词在向量空间上也会比较相近
3.通用性强,可用于不同的任务中

主流的 word embedding 算法:word2vec GLoVe

word2vec
一种基于统计方法来获得词向量的方法
两种训练模式:
1.通过上下文来预测当前词
2.通过当前词来预测上下文

GloVe
对word2vec的扩展
将全据统计和word2vec的基于上下文的学习结合了起来

你可能感兴趣的:(文本表示|独热编码|整数编码|词嵌入)