今天六一,C小加不在身边,混球啊。任务需要在看曼宁的《统计自然语言处理基础》。然后用到互信息,每次我觉得好高深的名字,做下去的时候就发现没有那么难。

搭配

搭配由有限的复合构词法所描述。

识别搭配对的方法有三种:1.使用频率信息的搭配识别。2.基于含义和主词搭配词之间的距离识别。3.基于假设测试和互信息的识别。

1.频率

将语料过滤后得到的动词,名词,之间进行两两配对,统计每个词语在一个句子,或在一个段落中出现的次数,即为频率。

2.均值和方差 

   由于两个词之间的距离是可以变化的,计算两个词之间的偏移量的均值和方差。

均值就是简单的平均偏移量。

方差衡量的是单独的偏移量偏离均值的距离:


 
是同现i的偏移量,表示的是样本偏移量的均值。 

     我们可以通过使用这个信息来发现搭配。具体的方法是通过寻找带有低偏差的词对。一个低的偏差值意味着这两个词通常大致相同距离出现。零偏差意味着这两个词总是以相同的距离出现。

   方差是关于一个相对于其他词分布峰值情况的度量。

关于互信息

互信息的计算公式是这样的:

MI(a,b) = log( p(ab) / (p(a)*p(b)) )

其中log的底数是2p(x)表示x出现的概率。

好吧,好水,好简单。。着手写代码了。