基于最长词匹配算法变形的分词系统( 文舫工作室贡献 )


这个分词程序是文舫工作室贡献出来的。
强烈推荐看看文舫工作室的开发日志,他们的激情可以鼓励很多人......

自从 小叮咚分词程序发布后,很多软件行业的朋友们都来信索取,因为定位的问题,所以小叮咚的分词程序和 ICTCLAS的算法完全不同的。

小叮咚的分词程序的定位是为搜索引擎服务的。可以参考: 一种面向搜索引擎的中文切分词方法
ICTCLAS和基于最长词匹配算法变形的分词系统 是面向语法,语义的。

不同的应用导致了不同的分词算法,但是正如 车东所说的, 我们现在应该跳过分词这个点,面向分词应用了
我很赞同。

如果大家需要 基于最长词匹配算法变形的分词系统 的代码,可以到 这个页面下载申请书,填写后我会给你
发送一份相关代码。

关于分词 文德是专家,大家可以下载 Lucene使用者沙龙 中的录音,听听他对分词的一些经验。

这些申请书会在以后整理出来共享的。

相关连接:
文舫工作室的网址
Lucene使用者沙龙

你可能感兴趣的:(算法,工作,搜索引擎,Lucene)