NLP学习-05.问答系统基础-文本表示(word representation)-距离计算

上几节已经介绍了文本的分词,拼写纠错,这节介绍word representation和距离的计算
都比较简单,不做详细说明.

什么是word representation

即将一个文本进行向量化, 这样可以容易地进行距离的度量.

有哪些方法进行文本向量化

  1. one hot: 每个词都用one hot变化表示成稀疏向量;
  2. boolean representation: 即词典的长度为向量长度,有词的记为1;
  3. boolean representation: 即词典的长度为向量长度,有词的记录在句子中出现的数量n;

距离计算

有向量那么就需要知道如何计算两个句子的相似度, 有以下方法:

  1. 欧式距离
  2. 余弦相似度
  3. jaccard
  4. tf-idf:
    = 词在文档中词频 * 词在所有文档中出现比率的倒数取, 即
  5. word emdedding : 将word表示为稠密向量例如用word2vec方法.

你可能感兴趣的:(NLP学习-05.问答系统基础-文本表示(word representation)-距离计算)