常用中文分词软件

SCWS:基于词频词典的机械中文分词引擎

ICTCLAS:最早的中文开源分词项目

HTTPCWS:基于http协议的开源中文分词系统,将取代之前的PHPCWS中文分词扩展

庖丁解牛分词:仅支持Java语言,且提供lucence(一款流行的Java全文搜索引擎)接口

CC-CEDICT:提供一份以汉语拼音为中文辅助的汉英词典,其词典可以用于中文分词,Chrome中文版就是使用这个词典进行中文分词的

jieba中文分词:python中文分词组件jieba支持三种中文分词模式:

            精确模式:试图将句子最精确的切开,适合文本分析

            全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义

            搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词

你可能感兴趣的:(机器学习)