汉字分词

（1）什么是分词？
句子切出词。
（2）分词的作用是什么？
1：读音。2：信息检索。3：词频统计。
种种，说白了就是让文章变成一个个词语，使得能够操作。
（3）有什么方法？
1- 基于词表
（1）最大匹配法
正向最大匹配（MM）反向最大匹配（RMM）
长词优先。
2- 基于字序列标记
词位标记：
（1）B 词首（2）M 词中（3）E 词尾（4）S 单字成词
使得切分变成了给每个字进行标记。

切分的时候会遇到的问题：
（1）切分消除歧义
（2）未登录词识别
并且有文档显示，未登陆词（OOV）造成的影响是出现歧义造成的影响的至少5倍。

歧义类型有：
（1）AJB -> AJ/B , A/JB 交集型。
（2）AB -> AB A/B 组合型。
（3）同时有（1）和（2）。
有文档显示。组合型的出现频率是交集型出现的频率的22倍。
并且有文档显示：将交集型的部分引入链长。在链长为8的时候就只有一个。从链长为5的开始就只有0.09了。其中4为1.35.

理解真假歧义于现实语境而言。
假歧义：真歧义 = 94:6

解除歧义是必须要做的。但是MM,RMM没有发现歧义的功能。那么如何发现歧义？

1：使用双向最大匹配。（MM+RMM）
但是即使是双向最大匹配。
1：不能发现组合歧义。
2：链长为偶数的时候，不能发现交集歧义。

但是由于歧义本身可能也不是很多。并且加入了算法检测。在加入了双向最大匹配之后的文本的正确率还是比较高的。

90%句子。 MM=RMM 并且没有歧义
1% 句子。 MM=RMM 但是有歧义
9% 句子。 MM！=RMM 并且有歧义
所以只有1%的句子我们是会做坏的。

另外还有一些操作：
发现组合歧义：
MM+逆向最小匹配。
发现所有切分歧义:
全切分算法。
另外表示歧义还有词图。
边为词，点为状态。其实就是FSA

发现歧义后，对歧义进行消除：
1：基于记忆的伪歧义消除
弄一个高频伪歧义的表即可。
2：可以设置一些规则。
比如：一起根据后面是n还是v可以分为一/起和一起。
3：可以在词图上面跑最佳路径。
基于n-gram。用训练集使得有条件概率。这样就能计算了。
感觉因为是FSA并且是有向的所以和马尔可夫差不多。可以用动态规划。

解决未登陆词（OOV）
进展：
较成熟：
人名，地名，译名。
较困难：
商标，机构。
很困难：
专业术语，缩略词，新词语。

中文人名有强特征。

最后切分得好不好也有评价标准：
P,R,F
最后，什么是词？
词由词素构成，能够独立运用的最小的词言单位。
但是现在什么是一个词语不同的人仍然有不同的标准。
比如说象牙。吃饭。吃鱼。
有实验证明，不同人的把握是不一样的。
然后会有一个推荐标准。
《信息处理用汉语分词规范》

汉字分词

你可能感兴趣的:(汉字分词)