2022-01-05 第二章8 自然语言处理常见的三大任务之基础任务:中文分词

内容来自哈工大车万翔老师团队的作品《自然语言处理:基于预训练模型的方法》。

1. 中文分词

词(Word)是最小的能独立使用的音义结合体,是能够独立运用并能够表达语义或语用内容的最基本单元。
最简单的分词算法叫作正向最大匹配(Forward Maximum Matching,FMM)分词算法:从前向后扫描句子中的字符串,尽量找到词典中较长的单词作为分词的结果。代码如下:

最大正向匹配算法

可以用如下代码调用:
调用FMM方法

中文分词算法扩展:中文分词算法简介 - 知乎 (zhihu.com)
基于词表的分词方法
正向最大匹配法(forward maximum matching method, FMM)
逆向最大匹配法(backward maximum matching method, BMM)
N-最短路径方法
基于统计模型的分词方法
基于N-gram语言模型的分词方法
基于序列标注的分词方法
基于HMM的分词方法
基于CRF的分词方法
基于词感知机的分词方法
基于深度学习的端到端的分词方法

  • 正向最大匹配分词算法的问题
    正向最大匹配分词算法存在的明显缺点是倾向于切分出较长的词,这容易导致错误的切分结果,如“研究生命的起源”,由于字典存在“研究生”,故分词结果为“研究生 | 命 | 的 | 起源”
  • 分词任务的挑战
    ① 切分歧义问题,即同一个句子可能存在多种分词结果,一旦分词错误,则会影响对句子的语义,一旦分词错误,则会影响对句子的语义理解。
    ② 未登录词问题,也就是说有一些词并没有收录在词典中,如新词、命名实体、领域相关词和拼写错误词等。
    言的动态性,新词语的出现可谓是层出不穷,所以无法将全部的词都及时地收录到词典中,因此,一个好的分词系统必须能够较好地处理未登录词问题。

你可能感兴趣的:(2022-01-05 第二章8 自然语言处理常见的三大任务之基础任务:中文分词)