笔记-分词

1、分词可分为三个流派:规则分词,统计分词, 混合分词

规则分词是通过人工设立词库,按照一定方式进行匹配切分,其实现简单高效,但对新词很难进行处理。随后统计机器学习技术的兴起,应用于分词任务上后,就有了统计分词,能够较好应对新词发现等特殊场景。然而实践中,单纯的统计分词也有缺陷,那就是太过于依赖语料的质量,因此实践中多是采用这两种方法的结合, 即混合分词。

1.1 规则分词

基于规则的分词是一种机械分词方法,主要是通过维护词典,在切分语句是,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。

按照匹配切分的方式,主要有:正向最大匹配法、逆向最大匹配法以及双向最大匹配法

1.1.1 正向最大匹配法(MM)

假设分词字典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。若字典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理。如此进行下去,知道匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后去下一个i字字串进行匹配处理,知道文档被扫描完为止。

1.1.2 逆向最大匹配法(RMM)

基本原理与正向最大匹配法相同,不同的是分词切分的方向与MM法相反。逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的i个字符作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应的,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配发处理即可。

由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以逆向最大匹配法比正向最大匹配法的误差要小。

1.1.3 双向最大匹配法

将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,然后按照最大匹配原则,选取词数切分最少的作为结果。

1.2 统计分词

其主要思想是把每个词看做是由词的最小单位的各个字组成的,如果相连的字在不同的文本中出现的词数越多,就证明这相连的字很可能是一个词。因此我们就可以利用字与字相邻出现的频率来反映成词的可靠度,统计预料中相邻共现的各个字的组合的频度,当组合频度高于牟一个临界值时,便可认为此字组可能构成一个词语。

基于统计分词的步骤:

(1)建立统计语言模型

(2)对句子进行单词划分,然后对划分结果进行概率计算,获得概率最大的分词方式。统计学习算法,例如HMM,CRF等。

统计分词的效果很依赖训练语料的质量,且计算量想较于机械分词要大的多。

1.3 混合分词

在实际工程应用中,多是基于一种分词算法,然后再用其他分词算法加以辅助。最常用的方式就是先基于词典的方式进行分词,然后再用统计分词方法进行辅助。如此,能在保证词典分词准确率的基础上,对未登录词和歧义词有较好的识别。

你可能感兴趣的:(NLP)