mmseg4j中文分词包学习报告

目录

1.认识中文分词包
2.分词方法与效果分析
3.分词包背后的分词算法学习
4.分词结果提交
5.基于分词结果的词云分析

1.认识中文分词包
本次的中文分词包学习我使用的是mmseg4j分词器,资料查得,mmseg4j用Chih-Hao Tsai 的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 MMSeg 算法有三种分词方法:MaxWord、Simple和Complex,都是基于正向最大匹配。

  • solr +mmseg4j中文分词
    此方法是在solr下配置中文分词器mmeseg4j,在配置前,需要安装好java运行环境。配置jdk。
    solr下载:http://www-eu.apache.org/dist/lucene/solr/6.5.1/
    下载solr后本地便可以使用,运行cmd,进入下载的solr文件中的bin文件夹中,通过solr start命令运行solr

    mmseg4j中文分词包学习报告_第1张图片
    solrstart.png

    如此,便可在本地打开solr:http://localhost:8983/solr/#/
mmseg4j中文分词包学习报告_第2张图片
solr.png
    随后,下载mmseg4j配置在solr中。
    mmseg4j下载:http://download.csdn.net/search?keywords=mmseg4j
    整合mmseg4j:
    (1)mmseg4j支持Solr需要使用附件的mmseg4j-solr-x.x.x.jar以及mmseg4j-core-x.x.jar(x是多少取决于下载的solr的版本),将这两个jar包放在类似于这样的目录下:

../solr/server/solr-webapp/webapp/WEB-INF/lib
(2)在cmd中,创建一个core:solr create -c abc(abc为自定义)

mmseg4j中文分词包学习报告_第3张图片
solrcreate.png
    (3)进入目录:../solr/server/solr/abc/conf,修改其中managed-schem



    
    
    

    
        
          
          
        
    
    
        
           
           
        
    
    
        
        
        
      
  

注意:dicPath中的值应修改为相应的值。
重启Solr 后,即可在新创建的abc这个core的Analysis中看到mmseg4j新增的field


mmseg4j中文分词包学习报告_第4张图片
solrabc.png

到这个时候便可以开始输入字段进行分词了。但这里我却遇到很大的问题。如下图,当我输入一段文字以后,点击分词却毫无反应,也不知道是什么问题,到处都修改了一遍甚至重新安装了一遍还是同样的错误。前前后后弄了好几个小时。


mmseg4j中文分词包学习报告_第5张图片
analysef.png

我也很崩溃,特别崩溃。后来已经是纯属乱弄了,然而当我点了右上角那个Use original UI后,竟莫名其妙地可以了,很奇怪的地方,我也不懂为什么。但是再看右上角的文字,说是该用户界面过时,隐隐担心可能后续步骤会进行不下去。知道其中缘由的还望求解。
mmseg4j中文分词包学习报告_第6张图片
analyset.png

  • 本地cmd中mmseg4j中文分词
    这个步骤倒是不需要solr,直接一个命令后就可以进行分词操作了。好处是方便操作,不好的地方是所分词的文字需要复制粘贴进去,而分好的内容需要复制粘贴出来,而且无法对文件分词,它只能对复制或输入的文字进行分词。
    进入mmseg4j所在文件夹,输入:java -cp mmseg4j-core-1.10.0.jar com.chenlb.mmseg4j.example.MaxWord(用哪种分词方法就写哪种)+ 所要分词的字符串,如此便可得到结果。

mmseg4j中文分词包学习报告_第7张图片
mmseg4j.png

2.分词方法与效果分析
最近又大火的欢乐颂,我就用欢乐颂的简介进行分词。分词内容为:
从外地来上海打拼的樊胜美(蒋欣饰)、关雎尔(乔欣饰)、邱莹莹(杨紫饰)三个女生合租一套房,与高智商海归金领安迪(刘涛饰)、魅力超群的富家女曲筱绡(王子文饰),同住在一个名叫“欢乐颂”的中档小区22楼,五个女人性格迥异,各自携带着来自工作、爱情和家庭的困难与不如意,因为邻居关系而相识相知,从互相揣测对方到渐渐接纳彼此并互相敞开心扉,在这一过程中齐心协力解决了彼此生活中发生的种种问题和困惑,并见证彼此在上海这座“魔都”的成长与蜕变。 不离不弃、手拉手、团结一心、克服困难、目标一致。

mmseg4j中文分词包学习报告_第8张图片
outsolr.png

这是solr上的分词结果,可以看出,其无法看到完整的分词内容(或许有解决方法但至今我还没有找到),所以我决定在cmd内进行分词。

maxword方法:


mmseg4j中文分词包学习报告_第9张图片
outm.png

complex方法:


mmseg4j中文分词包学习报告_第10张图片
outc.png

simple方法:
mmseg4j中文分词包学习报告_第11张图片
outs.png

分词效果分析:
可以看出三个方法的分词结果不尽相同,归纳出三种方法的不一样处及正确分词方法:

mmseg4j中文分词包学习报告_第12张图片
dif.png

除此之外,三种分词方法存在着一些同样的错误。

人名错误:樊胜美、蒋欣、关雎尔、乔欣、邱莹莹、杨紫、安迪、刘涛、曲筱绡、王子文。

其他错误:

  • 错误:一 | 套房
    正确:一套房
  • 错误:高 | 智商
    正确:高智商
  • 错误:海 | 归
    正确:海归
  • 错误:金 | 领
    正确:金领
  • 错误:魅力 | 超群
    正确:魅力超群
  • 错误:富 | 家 | 女
    正确:富家女
  • 错误:魔 | 都
    正确:魔都
  • 错误:团结 | 一心
    正确:团结一心
  • 错误:目标 | 一致
    正确:目标一致

综上所述可以看出,complex这一分词方法的准确率最高。

    存在分词错误时,便需要进行改进。改进的方法是设置自定义词库包,再将词库包放入词库目录下。cmd中还需要配置环境,较为麻烦,所以我决定在solr进行词库的添加。
    首先,我创建相应的词库包:words-test-my.dic(需以words开头,扩展名为dic)。
mmseg4j中文分词包学习报告_第13张图片
word.png

随后,将该词库包放入词库目录下。
..\solr\server\solr\abc\conf
在此,还需要在managed-schem添加字段(度娘上看到的教程,我也不知道这段文字是干什么的)。


    
        D:\solr\solr-6.5.1\server\solr\abc\conf
        true
        true
    

同样,dicPath中的值应修改为相应的值。


out1.png
out2.png
out3.png
out4.png
out5.png
out6.png

以上为增加词库后的分词结果,将就看吧。

3.分词包背后的分词算法学习
mmseg4j使用的是Chih-Hao Tsai 的MMSeg算法
其算法原文:http://technology.chtsai.org/mmseg/

  • Simple算法:
    Simple算法是简单最大匹配算法,其基本形式是解析单个单词的歧义性。例如,假设C1,C2,….代表一个字符串中的汉字。我们首先位于字符串的开头并想知道如何区分单词。我们首先搜索词典,看 C1是否为一个单个汉字组成的单词,然后搜索 C1C2来看是否为一个两个汉字组成的单词,以下类推。直至找到字典中最长的匹配。最可能的单词就是最长的匹配。我们取这个单词,然后继续这个过程直至字符串中的最后一个单词被识别出来。

  • Complex算法
    Complex算法是复杂最大匹配算法。最大匹配规则是最大长度的三个词块合理的分割,当存在模糊分割时(比如, C1 是一个词,但 C1C2 也是一个词),此时将向前两个单词找出所有可能的以C1C1C2的词块,进行匹配。
    例如:
    你 | 是 | 不
    你 | 是 | 不是
    你是 | 不 | 是
    你是 | 不 | 是傻
    你是 | 不是 | 傻

  • 消除歧义规则
    (1)最大匹配,包括简单最大匹配及复杂最大匹配。
    (2)最大平均字长度
    (3)单词长度的最小方差
    (4)单字单词的语素自由度的最大和

4.分词结果提交
我进行了政府工作报告的分词。详情可见:
政府工作报告原文http://www.jianshu.com/p/9dab71d520e6
政府工作报告分词原文(Complex分词)http://www.jianshu.com/p/a0a89ed0918d
政府工作报告分词(修改分词后)http://www.jianshu.com/p/1f93a0d4bdfb

5.基于分词结果的词云分析(词频统计+可视化)
使用的是在线词频制作进行政府工作报告的词频统计。

mmseg4j中文分词包学习报告_第14张图片
yun1.png
mmseg4j中文分词包学习报告_第15张图片
yun.png

你可能感兴趣的:(mmseg4j中文分词包学习报告)