N-gram算法

其基本思想是,由于N-Gram比N+1-Gram出现的可能性大的多,所以使用N-Gram估计N+1-Gram的概率,例如trigram的计算公式如下:其中,参数l的确定:将训练数据分为两部分,一部分用于估计f(wi| w1w2…wi-1),一部分用于计算参数l,求使语言模型的困惑度最小的l。

你可能感兴趣的:(数据仓库,算法,语言)