NLP中几种常见的数据平滑方法

0、简介:

本文所要介绍的平滑就是用来解决这类零概率问题的。其本质核心就是“劫富济贫”,即提高低概率,降低高概率,尽量使概率分布趋于均匀。

1、加法平滑方法

假设每一个n元语法发生的次数比实际统计的次数多 δ \delta δ次。
p a d d ( w i ∣ w i − n + 1 i − 1 ) = δ + c ( w i − n + 1 i ) δ ∣ V ∣ + ∑ w i c ( w i − n + 1 i ) p_{add}(w_i|w_{i-n+1}^{i-1})=\frac{\delta+c(w_{i-n+1}^i)}{\delta|V|+\sum_{w_i}c(w_{i-n+1}^i)} padd(wiwin+1i1)=δV+wic(win+1i)δ+c(win+1i)

2、古德-图灵估计法

该估计法是很多平滑法的核心,其基本思路是:
对于任意一个出现 r r r次的n元语法,都假设其出现了 r ∗ r^* r次即: r ∗ = ( r + 1 ) n r + 1 n r r^*=(r+1)\frac{n_{r+1}}{n_r} r=(r+1)nrnr+1其中, n r n_r nr是训练语料中恰好出现r次的n元语法的数目。对于统计数为r的语法,其概率是: p r = r ∗ ∑ r = 1 ∞ n r r p_r=\frac{r^*}{\sum_{r=1

你可能感兴趣的:(NLP)