NLP课程笔记(严睿老师)—— 语言模型(N-grams)

一、probabilistic Language Modeling

目标:计算一个句子或句子中单词出现的概率

怎么计算?The chain rule 计算联合概率

可以直接用count来估计概率吗?不可以

马尔可夫假设(Markov Assumption):滑动窗口,只与临近的几个词有关

Unigrams: 每个单词独立,与其他词没有关系

Bigram model: 认为只与相邻的前一个词有关系(实际上不是很够)

N-gram models:

  • 扩展到trigrams, 4-grams, 5-grams。
  • 一般经验上,bigram和trigrams比较常用。(实际上insufficient)但是long-distance dependencies的情况比较少,长尾事件忽略掉。

计算时,将乘法转化为log相加。

Google N-Gram Release, 2006

腾讯release过一个word2vec的中文版

二、Evaluation and Perlexity

extrinsic evaluation of N-gram models

比较模型A和B的效果:

  • 把模型放到task上跑,比较效果

困难:花费时间太久。

所以使用 intrinsic evaluationn: perplexity(混淆度、困惑程度)

intuition of perplexity

Shannon Game intuition for perplexity

5.21号有一个NLP顶会的投稿

300

你可能感兴趣的:(NLP自然语言处理,自然语言处理,NLP,语言模型,N-grams)