数学之美 第4章 谈谈中文分词

数学之美  第4章  谈谈中文分词

我们直接进入主题吧!

中文分词的演变:

1.  第一个中文分词就是  “查字典”方法,就是把句子从左到右顺序扫描一遍,遇到字典里的词就标示出来,遇到复合型词汇就采用最长匹配原则,遇到不认识或者无法分得词汇呢就采用 单字词的模式,这样基本上也覆盖了七八成的中文分词结果了。  唯一的缺点:遇到二义性也就是歧义性的词汇是就无能为力了。

2. 采用统计的方法:笨点的方法就是我们把一个句子可能性的几种情况全部列出来,然后根据语料库中的前后词汇关系统计概率,看看哪种句子存在的可能性最大就是哪种分法,但是这种方法无异于穷举,最终会浪费很多的时间啊。所以我们采用   动态规划来逐步的合成概率的句子:这种方法叫做  维特比算法。

2  延伸阅读:工程上的细节问题


2.1 分词的一致性及词的颗粒度和层次

就是具体问题具体分析  比如说”清华大学“,如果是在机器翻译中,就要颗粒度越大越好”清华大学“,如果是在网页搜索的话,颗粒度越小越好的”清华“  ”大学“这样子,一般情况我们都是  建立两个表 ”
一个是   基本词表(颗粒度小的)
一个 是  复合词的词表 (颗粒度大的)


2.2  分词的不一致性

分词的不一致性 分为  两种  :错误  和  颗粒度不一致

错误:分为  一类:越界型错误   比如说 ‘北京大学生’ 分成 ‘北京大学    生’
           另外  一类:覆盖型错误 比如说“贾里尼克”被拆成了“贾     里      尼      克”四个字
所以我们编程的时候尽量保持  分词的一致性比较好,当然他也不能被看成是一种错误的。


你可能感兴趣的:(中文分词,分词小结)