分词技术杂记

1. "切分标志字串"预处理方法是一个毫无必要的技术,它增加了一遍扫描"切分标志词典"的时空复杂性,却并没有提高分词精度,因为所谓的切分标志其实都已经隐含在词典之中,是对词典功能的重复。实际上"切分标志"也没有标记歧义字段的任何信息。

2. 词性分词一体化:存在词的兼类问题和规则集的确定问题。

3. 未登录词的介入会引起新的切分歧义,从而使分词系统所面临的形势更加复杂化。Sun M.S. and Shen D.Y., et al. (1997)  将切分歧义明确地细分为:1)普通词与普通词之间的切分歧义(第 2.1 节);2)普通词与未登录词之间的切分歧义;3)未登录词与未登录词之间的切分歧义。

你可能感兴趣的:(sun)