中文文本关键字分割算法

这几天为Gimi Talk研究中文的分词,主要问题是要消除歧义的关键字,如何分割的问题。

参看了几篇文章,例句:长春市长春药店

1.查找所有有效词(起始位置和词长):
长春(0,2),长春市(0,3),市长(2,2),长春(3,2),春药(4,2),药店(5,2)

2.找出所有有效词可能的组合:
     a.长春/市长/春药/店     登录词:3个     碎词:1个
     b.长春/市/长春/药店     登录词:3个     碎词:1个
     c.长春市/长春/药店     登录词:3个     碎词:0个
     d.长春市/长/春药/店     登录词:2个     碎词:2个

3.最优结果:
     1.首选条件,登录词最多。
     2.次选条件,碎词最少。
     3.其他条件,碎词长度最小,词频等。可以自己加。

4.实际测试:
我使用的是搜狗实验室的互联网词库,大约15W词汇,2字以上。
     长春市的长春药店:长春市/的/长春/药店
     研究生命的意义:研究/生命/的/意义
     上海的自来水来自海上:上海/的/自来水/来自/海上
     如果没有如果那该怎么办:如果/没有/如果/那该/怎么办
     为什么你背着我爱别人:为什么/你/背着/我爱/别人     (词库中无单字词汇,故我爱是一个关键词,如加上“我”,“爱”,则可正确分割)

你可能感兴趣的:(MyTips)