今天在晚上看到一些网友测试分词器常用的起义语句, 我拿jcseg去试了下:
1. 结婚的和尚未结婚的
jcseg分词:
结婚 的 和 尚未 结婚 的
Done, total:10, split:6, cost: 0.00026sec
2. 他说的确实在理
jcseg分词:
他 说 的 确实 在理
Done, total:7, split:5, cost: 0.00052sec
3. 把手抬起来
jcseg分词:
把手 抬起 来
Done, total:5, split:3, cost: 0.00000sec
4. 邓颖超生前使用过的物品
jcseg分词:
邓颖超 生前 使用 过 的 物品
Done, total:11, split:6, cost: 0.00000sec
5. 阿拉斯加遭强暴风雪袭击致xx人死亡
jcseg分词:
阿拉斯加 遭 强暴 风雪 袭击 致 xx 人 死亡
Done, total:17, split:9, cost: 0.00052sec
Done, total:11, split:7, cost: 0.00000sec
机械匹配方法, 上面有些句子似乎很难得到正确的切分.
这些都是其他分词器切分结果不是很好的句子, jcseg的切分效果确实有些优势.