1.主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;
2.ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。
系统平台:Windows
开发语言:C/C++、Java、C#
使用方式:dll调用
演示网址:http://ictclas.org/test.html
开源官网:http://ictclas.org
用ICTCLAS进行分词比较简单,我们可以直接在其官网中进行操作。以分析金庸的射雕英雄传第十章为例
输入要分析的url或者文本内容:
点击开始分析:
分词标注:
实体抽取:
词频统计:
文本分类:
情感分析:
关键词提取:
1.Paoding(庖丁解牛分词)基于Java的开源中文分词组件,提供lucene和solr 接口,具有极 高效率和 高扩展性。引入隐喻,采用完全的面向对象设计,构思先进。
2.高效率:在PIII 1G内存个人机器上,1秒可准确分词 100万汉字。
3.采用基于 不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。
4.能够对未知的词汇进行合理解析。
5.仅支持Java语言。
下面举个paoding的小用例:
键入:e或:q退出会话 (包括:符号)
键入:?显示帮助(包括:符号) 。
MMSEG4J基于Java的开源中文分词组件,提供lucene和solr 接口:
1.mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
2.MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。
特点:
支持三种分词模式:
1.精确模式,试图将句子最精确地切开,适合文本分析;
2.全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
3.搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
算法:
1.基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
3.对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法
安装完成之后键盘Windows+R —>输入cmd–>jupyter notebook即可打开jupyter notebook页面
3.编写要分词的文档test.txt
4.直接拖入文档到jupyter notebook主页,upload
5.新建python文档new->python
进入页面:
6.输入代码:
import jieba #导入jieba
with open('test.txt','r')as f: #打开所需分词文本text.txt
for line in f:
seg=jieba.cut(line.strip(),cut_all = False) #jieba分词
print('/'.join(seg))
按下Ctrl+Enter,得到如下分词结果:
7.上面我们就完成了一个简单的分词。我们还可以进一步进行词频统计。按下Shift+Enter,继续编写如下代码:
from collections import Counter
total = []
with open('test.txt','r')as f:
for line in f:
seg_list = jieba.lcut(line.strip(),cut_all = False) # jieba.lcut 可以直接输出列表。
for word in seg_list:
total.append(word)
c=Counter(total) #这里一定要顶格写,否则就进入到上面的for循环里面,出错。
for item in c.most_common(5): #数字5表示提取前5个高频词,可根据需要更改。
print (item[0],item[1])
输出结果如下
http://ictclas.nlpir.org/
http://baike.so.com/doc/9553551-9898246.html
http://blog.csdn.net/liujihaozhy/article/details/39496745
http://blog.csdn.net/u013070853/article/details/48715183
http://www.oschina.net/question/tag/mmseg4j?show=time
http://baike.so.com/doc/2651801-2800213.html
https://github.com/fxsjy/jieba
http://blog.csdn.net/lengyuhong/article/details/5993316