01_文本向量表示(one-hot,TF-IDF,Embedding)学习总结(不对的地方欢迎留言指正)
是什么?能做什么?怎么做的?优缺点?一.文本的表示文本表示的就是把文本或者字词,变换成向量或者矩阵的形式,以便于机器更加容易或者方便的处理,同时文本表示是自然语言处理的开始的环节。文本表示分为离散表示和分布式表示,离散表示代表有词袋模型,One-hot向量,TF-IDF,n-gram这些都可以看作词袋子模型,分布式表示也叫做词嵌入,经典的模型有word2vec,包括后来的ELMO,GPT,BERT