java开源中文分词-jcseg

 jcseg是使用Java开发的一个中文分词器,使用流行的mmseg算法实现。

1。目前最高版本:jcseg 1.7.1。 兼容最高版本的lucene。

2。mmseg四种过滤算法,分词准确率达到了98.41%。

3。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。如何给jcseg添加词库/新词。

4。词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。(1.7.0版后),jcseg新版词库

5。中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"四五十"和"四十分之一"。并且jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如:150, 1/40。(1.7.0版后)

6。支持中英混合词的识别。例如:B超, x射线。

7。更好的英文支持,电子邮件,网址,小数,分数,百分数的识别。(这个对购物网站来说很重要, 1.7.0版后)。

8。支持基本单字单位的识别,例如2012年。

9。智能圆角半角转换。

10。特殊字母识别:例如:Ⅰ,Ⅱ

11。特殊数字识别:例如:①,⑩

12。配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。

13。智能中文人名识别。中文人名识别正确率达94%以上。(可以维护lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来提高准确率),(引入规则和词性后会达到98%以上的识别正确率)。

 

详细了解jcseg:http://code.google.com/p/jcseg/

下载jcseg:http://code.google.com/p/jcseg/downloads/list

你可能感兴趣的:(java,中文分词,jcseg)