文本表示(一)—— word2vec(skip-gram CBOW) glove, transformer, BERT
文本离散表示1.one-hot简单说,就是用一个词典维度的向量来表示词语,当前词语位置为1,其余位置为0.例如vocabulary=['胡萝卜’,‘兔子’,‘猕猴桃’],采用三维数组表示,胡萝卜=[1,0,0],兔子=[0,1,0],猕猴桃=[0,0,1]维度太大2.词袋模型与TF-IDF词袋模型:将字符串视为一个“装满字符(词)的袋子”,袋子里的词语是随便摆放的。而两个词袋子的相似程度就以它们重