《数学之美》笔记4

第四章 谈谈分词

1 中文分词方法的演变

自然语言处理首先要对句子进行分词。
分词器输入句子,输出具有独立语义的词语。
北京航天航空大学的梁南元提出“查字典”的方法,即从头扫描句子,匹配字典中词语。
哈尔滨工业大学的王晓龙提出将一句话分为数量最少的词串。
无法解决二义性问题。
解决语言的歧义性:统计语言模型+概率
郭进是中国运用统计语言模型来进行自然语言处理第一人。
完善中文分词:孙茂松,吴德凯等
不同应用决定汉语分词粒度大小
中文分词方法应用到英文手写体识别。

2 延伸阅读:如何衡量分词的结果

2.1 分词的一致性
不同的分词方法:“清华大学”与“清华”,“大学”;不同人之间的看法差异也会导致不同的分词结果。
随着统计语言模型发展,不同分类器的分类结果差异越来越小,提升空间越来越小。
2.2 词的粒度和层次
词是表达意思的最基本的单位。
“清华大学”与“清华”,“大学”都是正确分词方法,这就是不同粒度的分词。
不同的应用条件下,词的粒度因地制宜。
最好的方法:一个分词器同时支持不同层次的词的切分,由应用决定自行决定选择粒度。
不同层次分词器实现原理:构造一个基本词表和一个复合词表。

你可能感兴趣的:(数学之美笔记)