这几天为Gimi Talk研究中文的分词,主要问题是要消除歧义的关键字,如何分割的问题。
参看了几篇文章,例句:长春市长春药店
1.查找所有有效词(起始位置和词长):
长春(0,2),长春市(0,3),市长(2,2),长春(3,2),春药(4,2),药店(5,2)
2.找出所有有效词可能的组合:
a.长春/市长/春药/店 登录词:3个 碎词:1个
b.长春/市/长春/药店 登录词:3个 碎词:1个
c.长春市/长春/药店 登录词:3个 碎词:0个
d.长春市/长/春药/店 登录词:2个 碎词:2个
3.最优结果:
1.首选条件,登录词最多。
2.次选条件,碎词最少。
3.其他条件,碎词长度最小,词频等。可以自己加。
4.实际测试:
我使用的是搜狗实验室的互联网词库,大约15W词汇,2字以上。
长春市的长春药店:长春市/的/长春/药店
研究生命的意义:研究/生命/的/意义
上海的自来水来自海上:上海/的/自来水/来自/海上
如果没有如果那该怎么办:如果/没有/如果/那该/怎么办
为什么你背着我爱别人:为什么/你/背着/我爱/别人 (词库中无单字词汇,故我爱是一个关键词,如加上“我”,“爱”,则可正确分割)