建立一个与词性标注问题相关联的HMM模型

如何建立一个与词性标注问题相关联的HMM模型?

1.必须确定HMM模型中的隐藏状态和观察符号,也可以说成观察状态,由于我们是根据输入句子输出词性序列,因此可以将词性标记序列作为隐藏状态,而把句子中的单词作为观察符号,那么对于Brown语料库来说,就有87个隐藏状态(标记集)和将近4万多个观察符号(词型)

2。训练语料库的性质来学习HMM的各项参数

A. 如果训练语料已经做好了标注,那么学习这个HMM模型的问题就比较简单,只需要计数就可以完成HMM各个模型参数的统计,如标记间的状态转移概率可以通过如下公式求出:
        P(Ti|Tj) = C(Tj,Ti)/C(Tj)
  而每个状态(标记)随对应的符号(单词)的发射概率可由下式求出:
        P(Wm|Tj) = C(Wm,Tj)/C(Tj)

  其中符号C代表的是其括号内因子在语料库中的计数。

B.如果训练语料库没有标注,那么HMM的第三大基本问题“学习”就可以派上用处了,通过一些辅助资源,如词典等,利用前向-后向算法也可以学习一个HMM模型,不过这个模型比之有标注语料库训练出来的模型要差一些。

总之,我们已经训练了一个与语料库对应的HMM词性标注模型,那么如何利用这个模型来解决词性标注问题呢?当然是采用维特比算法解码了, HMM模型第二大基本问题就是专门来解决这个问题的。

你可能感兴趣的:(自然语言处理)