文本表示模型

词袋模型

将文本转换为词频为依据的向量。具体地说,每篇文章都可以表示成一个长向量,而向量中的每一个维度代表一个单词,而该维度对应的权重则反应了这个词在原文中的重要性,权重计算公式:

        TF—IDF(t,d) = TF(t,d) * IDF(t)

其中,TF(t,d)为单词t在文本d中出现的频率,IDF(t) 是逆文档频率:

IDF(t) = log((文章总数) / (包含单词t的文章总数 + 1))

N-gram

将N个词作为一个整体进行向量化

Word2Vec

  • CBOW:目标是根据上下文来预测当前词
  • Skip-gram:根据当前词来预测上下文

Word2Vec和LDA的不同

  • LDA:似然函数是条件概率连乘的形式
  • Word2Vec: 似然函数定义在网络输出之上,要通过学习网络权重得到单词的稠密向量表示。

你可能感兴趣的:(自然语言处理)