Yard中文分词系统V0.1版性能分析

Yard中文分词系统V0.1还有很多地方需要完善,它对中文人名、地名、数字、英文等还不能进行切分,在歧义句的划分上也还存在问题。我会在这个月低推出0.2版将实现对数字、英文的切分,同时将利用现有的基于词频的方法加上MP算法实现对歧义句很好的划分。好了还是来谈谈Yard中文分词系统V0.1版的性能吧。
在中文分词领域中歧义句的划分比较复杂,常用的方法有FWF算法和MP算法等,在Yard系统中我没有用这些算法,而是基于搜狗互联网词库对1亿个网页统计得出的互联网词汇词频加上规约规则对歧义句进行划分,从测试结果看效果比较好。
Yard中文分词系统的分词效率比较高,在我的laptop上可以达到2M/S,这得因为Yard系统采用双字哈希表对词典进行组织避免了中文最长词带来的分词效率问题。
常用歧义句:

乒乓球拍卖完了
结合成分子时
研究生一般年龄较大
研究生命起源
这个研究所不大
这项研究所涉及的问题很复杂
老师叫你马上去
他从马上下来
将来的上海会有严重污染
实现在情报工作方面的自动化
战事已经有了结局
发展中国家的经济状况很好
使用户外无线要注意避雷
使用户满意的做法
昨天下午他不在
独立自主和平等互利原则
太平淡的故事

Yard分词系统的分词结果:

乒乓球 拍卖 完了
结合 成分 子 时

研究生 一般 年龄 较大
研究 生命 起源
这个 研究所 不大
这项 研究所 涉及 的 问题 很复杂
老师 叫你 马上 去
他 从 马上 下来
将来 的 上海 会有 严重 污染
实 现在 情报 工作 方面 的 自动化
战事 已经有了 结局
发展中国家 的 经济状况 很好
使用 户 外 无线 要注意 避雷
使用 户满意 的 做法
昨 天下 午 他 不在
独立自主 和平 等 互利 原则
太 平淡 的 故事

Ictclas分词系统的结果

乒乓球拍/n 卖/v 完/a 了/u
结合/v 成/v 分子/n 时/ng
研究生/n 一般/a 年龄/n 较/d 大/a
研究/vn 生命/n 起源/n
这个/r 研究所/n 不/d 大/a
这项/r 研究/v 所/u 涉及/v 的/u 问题/n 很/d 复杂/a
老师/n 叫/v 你/r 马上/d 去/v
他/r 从/p 马/n 上/f 下来/v
将来/t 的/u 上海/ns 会/v 有/v 严重/ad 污染/v
实现/v 在/p 情报/n 工作/vn 方面/n 的/u 自动化/vn
战事/n 已经/d 有/v 了/u 结局/n
发展中国家/l 的/u 经济/n 状况/n 很/d 好/a
使用/v 户外/s 无线/b 要/v 注意/v 避/v 雷/nr
使/v 用户/n 满意/v 的/u 做法/n
昨天/t 下午/t 他/r 不/d 在/p
独立自主/i 和平/n 等/u 互利/v 原则/n
太平/ns 淡/a 的/u 故事/n


SCWS中文分词第四版的结果如下:

乒乓球 拍卖 完了
结合 成 分子 时
研究生 一般 年龄 较大
研究 生命 起源
这个 研究所 不大
这项 研究所 涉及 的 问题 很 复杂
老师 叫 你 马上 去
他 从 马上 下来
将来 的 上海 会 有 严重 污染
实现 在 情报 工作 方面 的 自动化
战事 已经 有 了 结局
发展中国家 的 经济状况 很 好
使 用户 外 无线 要 注意 避雷
使 用户 满意 的 做法
昨天 下午 他 不在
独立自主 和 平等互利 原则
太平 淡 的 故事

Yard分词系统在歧义句的划分上基本达到了SCWS正文分词的效果和Ictclas相比还有较远的距离,不过我相信在下一个版本中将会得到很到的改善。
0.1版源代码下载地址: http://soul-fly.iteye.com/blog/406926

你可能感兴趣的:(算法,工作,互联网,Blog,F#)