Kneser Ney Smoothing 平滑算法2019-04-28

stanford NLP courses:

https://www.youtube.com/watch?v=eNLUo3AIvcQ&feature=youtu.be

San Francisco 是个地名,这个地名出现的频率很高。所以 Francisco 这个词出现的频率很高,那他对应的unigram概率应该也很高,也就是说比“glasses”这个的概率更高,但是实际上"Francisco"这个词单独出现的概率很低,他都是跟在"San"的后面出现的,unigram的计算方法不会考虑到这一点,导致Francisco的unigram特别高,那这个一元是不准确的。我们不应该相信他,所以用back-off的方法去代替原来的unigram值,具体是指

p(w)的分子是w作为二元式的后项的时候,第一个词有多少种情况,计数作为分子;分母是与w这个词组合的任意二元组的个数作为分母。

· 对于每个词,计算它紧跟着另一个词所组成的不同的bigram类型的数目

· 每个第一次出现的bigram即是一种新的‘延续’,其概率与能跟w组成bigram的词的集合大小成比例


这个是作为

插值的 Kneser-Ney Smoothing 的公式的第二项


从头捋一下

插值的 Kneser-Ney Smoothing 的公式来自一个简单的二元语法概率公式:

在简单的二元语法的计算公式上,第一项统一减去一个固定值d,并且剪掉的部分作为第二项的系数;增加第二项回退到一元。


d是一个固定的数值,即折扣。但是关键在于应用unigram的项是否恰当。

第二项的是第一项剪掉的概率值,然后乘上 

参考资料:

https://www.cnblogs.com/a-present/p/9457093.html

https://blog.csdn.net/baimafujinji/article/details/51297802

https://www.youtube.com/watch?v=eNLUo3AIvcQ&feature=youtu.be

END

你可能感兴趣的:(Kneser Ney Smoothing 平滑算法2019-04-28)