2010年计算语言学分词作业——采用二元语法模型与viterbi算法分词

注意:本篇博文标红字部分为一处笔误的改正。非常感谢猎兔网 开发工程师 罗刚指出错误。欢迎大家光临我的博客指正各种思维不周,本人不拒绝严格的批评,只要能指出具体错误,和改进方案

采用这种方法首先要弄懂1.什么是二元语法模型:二元语法模型也就是一阶马尔科夫链,更通俗的说法是:一个词出现与否,仅有它前面一个词有关。举个例子

:P(成|结合)*P(结合)>P(合成|结) *P(结)表示 “结合成”分词为 “结合  成”的概率要大于分词为“结 合成”的概率。这也是和一元语法模型的不同之处。对于一元语法模型“结合成”的分词结合要看 P(结)*P(合)*P(成), P(结合)*P(成),P(结)*P(合成)谁大。对比一元语法模型和二元语法模型,我们能够看出,二元语法模型优于一元语法模型,因为它考虑了上下文相关性,同理,三元语法模型优于二元语法模型。

2. 什么是Viterbi算法。Veterbi算法是动态规划算法中的一种,常用在隐式马尔科夫模型求最优路径中。

我们首先要阐明动态规划算法的结构:

子结构最优,子问题交叠。也就是说一:1个问题的最优解是由最优的子问题的最优解构成;2求解此问题最优解的方法过程,对于求解子问题也适用,也就是可递归性。

如果大家想对一元语法模型,和veterbi算法,有更深入的了解,可以参考以下两篇博文:一元语法模型Viterbi算法

 未完待续

你可能感兴趣的:(算法)