最早的统计分词

文章:Richard Sproat, A Statistical Method for Finding Word Boundaries in Chinese, 1990

刚看了一篇2020年关于分词的综述,当中提到,最早使用统计方法进行分词的是1990的一篇文章,看了一下作者名字,Richard Sproat,是一个贝尔实验实的老外,这引起了我的兴趣。

先上结论,这篇文章的方法思想来源于点互信息,与现在的各种模型相比,极其简单,但实验效果达到了惊人的准94%,召94%。

论文的研究动机在于,词的划分结果,影响到中文的发音,进而影响到语音识别效果,比如在“老鼠”单独成词的时候,“老”发第3声(这里其实应该是误解),当“小老鼠”成词时,“老”发第二声。这个例子虽然不恰当,但这个规律确实在中文中普遍出现,比如“小老弟”组合起来时,“小”其实是有变化的。

文章只处理2个字成词的情况,两个字a, b的点互信息定义如下:

I ( a ; b ) = l o g 2 P ( a , b ) P ( a ) P ( b ) I(a;b)=log_2\frac{P(a,b)}{P(a)P(b)} I(a;b)=log2P(a)P(b)P(a,b)

其中,P(a,b)表示两个词同时出现在一个句子中的概率,那这个定义与所需的统计量有一定差异,在点互信息的定义当中并不要求a, b相邻并且保持顺序,据此思想,定义了文章中实际使用的统计量:

A ( a b ) : = l o g 2 f ( a b ) N f ( a ) N f ( b ) N = l o g 2 ( N ) + l o g 2 f ( a b ) f ( a ) f ( b ) A(ab) := log_2 \frac{\frac{f(ab)}{N}}{\frac{f(a)}{N} \frac{f(b)}{N}} =log_2(N)+log_2 \frac{f(ab)}{f(a)f(b)} A(ab):=log2Nf(a)Nf(b)Nf(ab)=log2(N)+log2f(a)f(b)f(ab)

其中,N表示语料的总词数,f(a)表示字a在语料中出现的频率,f(ab)表示ab在句子中连续出现的次数

有了统计量之后,如何切词呢?方法也很简单。对一个句子,遍历当中所有出现的连续字组合ab,计算它们的分值,把分值最高的合并起来,并从候选中去掉,直至无可合并为止。

比如,对句子“我弟弟现在要坐火车回家”,候选及得分如下:

分词候选 候选得分 合并次序
我弟 0.00
弟弟 10.44 1
弟现 0.00
现在 4.23 4
在要 -2.79
要坐 0.00
坐火 0.00
火车 7.31 2
车回 2.06
回家 4.69 3

合并结果:
我{弟弟}{现在}要坐{火车}{回家}

结果:
语料总词数5828,567错判,347未召回,但错判的部分有明显的规律,如数字、英文等,可以处理,把这部分排除掉的准确率是94%。

错判的原因主要是这些:词的出现频率太低或未在训练集中出现过(岳母、合金等),2字以上词(中山区,不以为然等)

其他讨论:文中还尝试了扩大训练语料集,若扩大的部分与测试集同源,则效果提升,若扩大的部分与测试集异源,则效果有细微下降。

你可能感兴趣的:(自然语言处理,算法,机器学习)