汉字分词

(1)什么是分词?
句子切出词。
(2)分词的作用是什么?
1:读音。2:信息检索。3:词频统计。
种种,说白了就是让文章变成一个个词语,使得能够操作。
(3)有什么方法?
1- 基于词表
(1)最大匹配法
正向最大匹配(MM) 反向最大匹配(RMM)
长词优先。
2- 基于字序列标记
词位标记:
(1)B 词首(2)M 词中 (3)E 词尾 (4)S 单字成词
使得切分变成了给每个字进行标记。

切分的时候会遇到的问题:
(1)切分消除歧义
(2)未登录词识别
并且有文档显示,未登陆词(OOV)造成的影响是 出现歧义造成的影响的至少5倍。

歧义类型有:
(1)AJB -> AJ/B , A/JB 交集型。
(2)AB -> AB A/B 组合型。
(3)同时有(1)和(2)。
有文档显示。组合型的出现频率是交集型出现的频率的22倍。
并且有文档显示:将交集型的部分引入链长。在链长为8的时候就只有一个。从链长为5的开始就只有0.09了。其中4为1.35.

理解真假歧义于现实语境而言。
假歧义:真歧义 = 94:6

解除歧义是必须要做的。但是MM,RMM没有发现歧义的功能。那么如何发现歧义?

1:使用双向最大匹配。(MM+RMM)
但是即使是双向最大匹配。
1:不能发现组合歧义。
2:链长为偶数的时候,不能发现交集歧义。

但是由于歧义本身可能也不是很多。并且加入了算法检测。在加入了双向最大匹配之后的文本的正确率还是比较高的。

90%句子 。 MM=RMM 并且 没有歧义
1% 句子 。 MM=RMM 但是 有歧义
9% 句子 。 MM!=RMM 并且 有歧义
所以只有1%的句子 我们是会做坏的。

另外还有一些操作:
发现组合歧义:
MM+逆向最小匹配。
发现所有切分歧义:
全切分算法。
另外表示歧义还有词图。
边为词,点为状态。其实就是FSA

发现歧义后,对歧义进行消除:
1:基于记忆的伪歧义消除
弄一个高频伪歧义的表即可。
2:可以设置一些规则。
比如: 一起 根据后面是n还是v可以分为 一/起 和 一起。
3:可以在词图上面跑最佳路径。
基于n-gram。用训练集使得有条件概率。这样就能计算了。
感觉因为是FSA并且是有向的所以和马尔可夫差不多。可以用动态规划。

解决未登陆词(OOV)
进展:
较成熟:
人名,地名,译名。
较困难:
商标,机构。
很困难:
专业术语,缩略词,新词语。

中文人名有强特征。

最后切分得好不好也有评价标准:
P,R,F
最后,什么是词?
词由词素构成,能够独立运用的最小的词言单位。
但是现在什么是一个词语 不同的人仍然有不同的标准。
比如说 象牙。吃饭。吃鱼。
有实验证明,不同人的把握是不一样的。
然后会有一个推荐标准。
《信息处理用汉语分词规范》

你可能感兴趣的:(汉字分词)