分词方法

最大匹配法   

用最大匹配法(Maximun Match Method)分词需要一个词表(称为“底表”),分词过程中就用文本中的候选词去跟词表中的词匹配。匹配成功,则认为候选词是词,予以切分;否则就认为不是词。所谓“最大匹配”,就是尽可能地用最长的词来匹配句子中的汉字串。

算法描述:

1)待切分的汉字串S1,以切分的汉字串S2(S2初始为空串);

2)如果S1为空串,转(6);

3)从S1的左边复制一个子串W作为候选词,W尽可能长,但长度不超过MaxWordLength;

4)如果在词表中能找到w,或者w的长度为2,那么将w和一个词界标记一起加到S2的右边,并且从S1的左边去掉W,转(2);

5)去掉W中最后一个汉字,转(4);

6)结束。

当候选词不止一个汉字而且匹配失败时,从候选词右边减掉一个汉字;

 

最大概率法

p(w)=n(i=1->n)p(wi)

因为每个词的概率都是很小的正数(小于1)汉字串较长则接近0;

将概率转化为“费用”,把乘法变成加法,词的概率对数是负数,取反则变为正数,我们把正数称为该次的“费用”。显然,对于但歌词或者整个词串来说,都是概率越高则费用越低。

Fee(w)=∑(i=1->n)-logP(wi)

-logP(wi)是第i个词的费用      //现代汉语自动分析!

 

 

 

你可能感兴趣的:(分词方法)