mmseg4j中文分词包使用

目录

1.mmseg4j中文分词包(下载、安装与运行)
2.分词方法与效果分析
3.分词包算法学习
4.分词结果
5.词云分析

一、mmseg4j中文分词包

1.下载:我这里采用的是mmseg4j+solr,通过solr(可视化界面)整合mmseg4j中文分词包来进行分词。
(1)mmseg4j:选择最新版本mmseg4j-2.3.0
mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包,支持Solr5.x版本,向上兼容Solr6,但是不支持Solr6的所有版本。该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar
(2)solr:选择最新版本solr-6.5.1

Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。提供了比Lucene更为丰富的查询语言, 同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面, 是一款非常优秀的全文搜索引擎。

(3)JDK:选择最新版本jdk-1.8.0-131
solr服务器搭建需要在JAVA环境当中。


tips:注意solr版本、JDK和mmseg4j版本要搭配,不然会出问题。

我之前采用的是mmseg4j-1.9.1和solr-6.5.1,结果出现下列错误:

mmseg4j中文分词包使用_第1张图片
1.png

2.安装配置、运行
(1)检查Java环境(cmd)

mmseg4j中文分词包使用_第2张图片
Paste_Image.png

如上图所示,说明JAVA环境已搭好。
(2)分别安装配置solr-6.5.1和mmseg4j-2.3.0
(3)装好之后,在cmd当中启动solr:
$ CD SOLR
$CD SOLR-6.5.1
$ CD BIN
$SOLR START

mmseg4j中文分词包使用_第3张图片
Paste_Image.png

(4)浏览器输入: http://localhost:8983/solr/ 看到solr界面

mmseg4j中文分词包使用_第4张图片
Paste_Image.png

(5)solr整合mmseg4j
友情链接: http://blog.csdn.net/youyou_yo/article/details/52065562?locationNum=1&fps=1
solr集成mmseg4j之后,就可以看见mmseg4j新增的field:

mmseg4j中文分词包使用_第5张图片
Paste_Image.png

二、分词方法与效果分析

1.mmseg4j两种分词方法: Complex、Simple
三种分词模式:Complex、Simple、MaxWord,默认是MaxWord。
mmseg4j用Chih-HaoTsai的MMSeg算法实现的中文分词器,MMSeg算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。
2.效果分析
下面用三种模式进行分词:

蒂姆伯纳斯李,英国计算机科学家。他是万维网的发明者,麻省理工学院教授。1990年12月25日,罗伯特卡里奥在CERN和他一起成功通过Internet实现了HTTP代理与服务器的第一次通讯。1999年《时代》将他列入20世纪最有影响的100名英国人之一。 2004年,英女皇伊丽莎白二世向蒂姆伯纳斯李颁发大英帝国爵级司令勋章。2009年4月,他获选为美国国家科学院外籍院士。在2012年夏季奥林匹克运动会开幕典礼上,他获得了“万维网发明者”的美誉。2017年4月4日,蒂姆伯纳斯李获得2016年ACM“图灵奖”。

(1)Complex

蒂  姆    伯   纳   斯   李 英国    计算机 科学家         他是  万维网 的   发明者 麻省理工学院  教授  1990 年  12  月   25 日    罗伯特 卡   里   奥   在   cern    和他  一起  成功  通过  internet    现   了   http    代理  与   服务器 的   第一次 通讯  1999    年   时代  他   列入  20  世纪  最有  影响  的   100 名   英国人 之一  2004    年   英   女皇  伊丽莎白    二世  向   蒂 姆 伯   纳   斯   李   颁发  大   英   帝国  爵   级 司令    勋章  2009    年   4   月   他   获选  为   美国  国家  科学院 外籍  院士  在   2012    年   夏季  奥林匹克运动会 开幕典礼    上   他   获得  了   万维网 发明者 的   美誉  2017    年   4   月   4   日   蒂   姆   伯   纳   斯   李   获得  2016    年   acm 图   灵   奖

(2)MaxWord

蒂   姆   伯   纳   斯   李   英国   计算 机   科学  学家  他是   万  维   网   的   发明   者  麻省  理工  工学  学院  教授  1990    年   12  月   25  日   罗   伯   特   卡   里   奥   在   cern     和他 一起  成功  通过  internet    实现  了   http    代理  与   服务  器   的   第一  一次  通讯  1999    年   时代  将他  列入  20  世纪  最有  影响  的   100 名   英国   国人  之一  2004   年   英   女皇  伊   丽   莎   白   二世  向 蒂 姆   伯   纳   斯   李   颁发  大   英   帝国  爵   级   司令  勋章  2009    年   4   月   他   获选  为   美国  国家  科学  学院  外籍  院士  在   2012    年   夏季  奥   林   匹   克   运动  会   开幕  典礼  上   他   获得  了   万   维   网   发明  者   的   美誉  2017    年   4   月   4   日   蒂   姆   伯   纳   斯   李   获得   2016   年   acm 图   灵   奖

(3)Simple

蒂   姆   伯   纳   斯   李   英国  计算机科学   家   他是  万维网 的   发明者 麻省理工学院  教授  1990    年   12  月   25  日   罗伯特 卡   里   奥   在   cern    和他  一起  成功  通过  internet    实现  了   http    代理  与   服务器 的   第一次 通讯  1999    年   时代  将他  列入  20  世纪  最有  影响  的   100 名   英国人 之一  2004    年   英   女皇  伊丽莎白    二世  向 蒂 姆   伯   纳   斯   李   颁发  大   英   帝国  爵   级   司令  勋章  2009    年   4   月   他   获选  为   美国  国家  科学院 外籍  院士  在   2012    年   夏季  奥林匹克运动会 开幕典礼    上   他   获得  了   万维网 发明者 的   美誉  2017    年   4   月   4   日   蒂   姆   伯   纳   斯   李   获得  2016    年   acm 图   灵   奖

Complex方法错误共有8处错误

正确分词                    错误分词  
蒂姆伯纳斯李                蒂|姆|伯|纳|斯|李
罗伯特卡里奥                罗伯特|卡|里|奥   
最有影响                    最有|影响
伊丽莎白二世                伊丽莎白|二世
大英帝国                    大|英|帝国
图灵奖                      图|灵|奖

MaxWord 方法错误共有16处错误

 正确分词                    错误分词
 蒂姆伯纳斯李                蒂|姆|伯|纳|斯|李
计算机|科学家                计算|机|科学|学家   
万维网                      万|维|网
发明者                      发明|者 
麻省理工学院                 麻省|理工|工学|学院    
罗伯特卡里奥                 罗伯特|卡|里|奥  
服务器                      服务|器  
第一次                      第一|一次   
最有影响                    最有|影响
英国人                      英国|国人   
伊丽莎白二世                 伊|丽|莎|白|二世  
大英帝国                    大|英|帝国  
 科学院                     科学|学院  
奥林匹克运动会               奥|林|匹|克|运动|会  
开幕典礼                    开幕|典礼  
图灵奖                      图|灵|奖

Simple 方法错误共有 8处错误

正确分词                    错误分词
 蒂姆伯纳斯李                蒂|姆|伯|纳|斯|李
计算机|科学家                计算机科学|家    
罗伯特卡里奥                 罗伯特|卡|里|奥 
最有影响                    最有|影响
伊丽莎白二世                 伊丽莎白|二世  
伯纳斯李                        伯|纳|斯|李
大英帝国                    大|英|帝国  
图灵奖                      图|灵|奖  

可以看出,Complex方法正确率最高,Simple方法正确率次之,MaxWord方法相对差一些。但是三种方法都无法对专有名词(人名、地名等)进行正确划分。
提高分词正确率:改进算法;增加自定义词典


三、分词算法学习

1.Complex算法
匹配出所有的“三个词的词组”(即原文中的chunk,“词组”),即从某一既定的字为起始位置,得到所有可能的“以三个词为一组”的所有组合。比如“研究生命起源”,可以得到 :

研_究_生 
研_究_生命 
研究生_命_起源 
研究_生命_起源   

2.Simple算法
即简单的正向匹配,根据开头的字,列出所有可能的结果。比如“国际化大都市”,可以得到:

国 
国际 
国际化 
…   

3.消除歧义的规则
消除歧义的规则”有四个,使用中依次用这四个规则进行过滤,直到只有一种结果或者第四个规则使用完毕,4条消歧规则包括:

  1. 备选词组合的长度之和最大(最大匹配);
  2. 备选词组合的平均词长最大(最大平均词语长度);
  3. 备选词组合的词长变化最小(词语长度的最小变化率);
  4. 备选词组合中,单字词的出现频率统计值最高(词频最高的单字单词)。

四、分词结果

下面以自定义词典提高分词精度
1.将mmseg4j-2.3.0中的mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar放入webapp/solr/WEB-INF/lib下(之前已放进去)。

2.修改managed-schema配置,添加下列内容:



    自定义词库路径
    true
    true

  

3.在自己建的core(我的是glf)下conf中新建words-自定义.dic文件

mmseg4j中文分词包使用_第6张图片
Paste_Image.png

然后对其进行编辑:注意一行一个词

mmseg4j中文分词包使用_第7张图片
Paste_Image.png

友情链接: http://m.blog.csdn.net/article/details?id=60961353

4.在cmd中重新启动solr,可以看见我自定义的词典
$SOLR RESTART -P 8983

mmseg4j中文分词包使用_第8张图片
4.png

5.分词结果提交

蒂姆伯纳斯李  英国  计算机 科学家 他是  万维网 的   发明者 麻省理工学院  教授  1990    年   12  月   25  日   罗伯特卡里奥  在   cern    和他  一起  成功  通过  internet    实现  了   http    代理  与   服务器 的   第一次 通讯  1999    年   时代  将他  列入  20  世纪  最有影响    的   100 名   英国人 之一  2004    年   英   女皇  伊丽莎白二世  向   蒂姆伯纳斯李  颁发  大英帝国    爵   级   司令  勋章  2009    年   4   月   他   获选  为   美国  国家  科学院 外籍  院士  在   2012    年   夏季  林匹克运动会  开幕典礼    上   他   获得  了   万维网 发明者 的   美誉  2017    年   4   月   4   日   蒂姆伯纳斯李  获得  2016    年   acm 图灵奖  

四、词云分析(图悦在线词频分析工具)

mmseg4j中文分词包使用_第9张图片
Paste_Image.png

导出excel:

mmseg4j中文分词包使用_第10张图片
Paste_Image.png

你可能感兴趣的:(mmseg4j中文分词包使用)