【文本分类】最强中文分词系统ICTCLAS

ICTCLAS中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制了汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持gb2312、GBK、UTF8等多种编码格式。 ICTCLAS分词速度单机500KB/s,分词精度98.45%,API不超过100kb,各种词典数据压缩后不到3M,是世界上最好的汉语词法分析器。


官方网站http://ictclas.org/ictclas_introduction.html

下载测试使用后发现windows64位编译时提示无法找到API函数,经测试无法使用,32Bit库下载后可以编译执行,调用成功。

原始语料:中华人民共和国,我们是党员

分词结果如下:
中华人民共和国/ns ,/w 我们/r 是/v 党员/n


ns:名称地名

w:标点符号

v:动词

n:名词

详细信息可参考API手册及汉语词性标注集合2个文档。

你可能感兴趣的:(【文本分类】最强中文分词系统ICTCLAS)