MMSEG介绍及基于分类的中文分词算法遐想

MMSEG介绍及基于分类的中文分词算法遐想

         最近一直在弄中文分词,学习了不少分词算法,当然其中少不了中科院的分词工具。但我测试后发现,基于多层HMMICTCLAS虽然准确率虽很好,但效率方面还是没什么优势。可是效率问题在大规模数据应用中确实是很重要的。这里要介绍的,也是如今被广泛应用的,也是教材中介绍较多的方法,那就是基于最大匹配的方法,这里面又可分为前向最大匹配,后向最大匹配和混合式的。但不管怎么样,它就是按照待分词字符串某个方向上取尽可能长的词作为一个词块。这里,我们都看出来了,这种算法要用到词典,并且很重要。(网上一个分析百度的分词算法的文章的结论是百度采取前向最大匹配,并且百度拥有强大的词典。)

         但是纯粹使用最大匹配好不好呢?肯定是不够好的。一些改进的方法是在此基础上加一些规则。比如,百度就加了一些规则。这里要介绍的是一种据说正确率达98%的分词算法。名叫MMSEG,文章题目是A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm。(大家可以再这里看到:http://technology.chtsai.org/mmseg/)。

         MMSEG也是利用前向最大匹配,但是利用了一些规则。先介绍下面要到的概念chunk,一个chunk就是对于句子的一种分词可能(一种候选分词结果),对于句子,每个chunk定义以下几个属性,长度(Length)、平均长度(Average Length)、标准差的平方(Variance)和自由语素度(Degree Of Morphemic Freedom)

属性

含义

长度(Length)

chuck中各个词的长度之和

平均长度(Average Length)

长度(Length)/词数

标准差的平方(Variance)

同数学中的定义

自由语素度(Degree Of Morphemic Freedom)

各单字词词频的对数之和

table from http://www.coreseek.com/opensource/mmseg/

主要的规则如下:

规则1:取最大匹配的chunk (Rule 1: Maximum matching) ,即取chunk长度最长的几个。

规则2:取平均词长最大的chunk (Rule 2: Largest average word length) ,即取chunk平均长度最长的几个。

规则3:取词长标准差最小的chunk (Rule 3: Smallest variance of word lengths) ,取词长标准差最小的几个。

规则4:取单字词自由语素度之和最大的chunk (Rule 4: Largest sum of degree of morphemic freedom of one-character words),这里要利用一个单字的词频词典,比如说“的”字的出现频率很高,那么我们倾向于认为“的”是一个词,比如说出现了“的确”这类的句子就不一定分得出来了。

怎么对一个句子分词呢?首先对于句子进行切割,基于词典,就有很多种切词结果,也就得到了多个chunk,我们说他们组成了一个集合chunks,然后我们就需要一步步过滤掉不好的chunk,首先用规则一,如果经过规则一后还剩多余两种(包括两种)分词结果则经过规则二;以此类推。知道剩下一种chunk。那么这个chunk就是最终分词结果。

         好了,分词算法MMSEG介绍完了。下面说说我的利用分类进行分词的思想。看到MMSEG就知道,它是提取出了一些规则,那么这些规则是不是好呢?是不是只有这些规则呢?是不是各个规则之间有相互影响?是不是各个规则间的优先级不同?

         基于这些考虑,我就想,如果我有了一些分词语料库,那么是否可以利用这些正反例(反例不太好弄)去训练一个分类器呢?也即是希望了解到分词好的那些情况是什么规律,分词不好的是什么情况?

当然做分类问题的时候最重要的是提取特征,MMSEG就是以上4个特征,是不是还可以提取写其他特征呢?比如:词数、最大匹配率等等。好了,这就很明白了,实现起来还是有很多问题和细节的。

 

MMSEG参考了一下网页

http://www.cnblogs.com/bqrm/archive/2008/08/16/1269258.html

http://www.coreseek.com/opensource/mmseg/

http://technology.chtsai.org/mmseg/

你可能感兴趣的:(中文分词)