数学之美--谈谈分词

>### 保留初心,砥砺前行 看完了《数学之美》第三章才想起来做一些记录会有更好的效果。 所以从第四章开始也不晚,况且前两章只是相当于介绍了数学的某些历史。 从这篇开始以数学之美为开头的文章更多的是为了自己看,记录一些书中的重点。 如果恰好也有喜欢数学的你看到了这些文章,可以看做是对**数学之美**这本书的一个简要性概述。 最后,希望高手指正。 >数学的魅力就在于将复杂的问题简单化。 [这里是我上午写的一篇“文章”](http://www.jianshu.com/p/0f373652aec9),它太短,所以不能称之为一篇文章;然而它承载的内容又太重,早就超过了一篇文章的范畴。 虽然我一直相信的是,哲学是万物的科学,是一切科学的基础和指导,并且这样的信条一直再指导我的生活和学习。 但是在这里我认为,**数学**是一切问题最终的解决方法,与之前我所相信的并不冲突。 在我看来,数学可以给一切以一个简单的解决方案,而计算机、程序则是这种解决方案的实践。 可以解决一切的理论加上可以实现一切的实践,对,就是上帝。 他甚至(这是为了节目效果的夸张说法==)可以制造生命(人工智能)。 下面是分割线 ·=================================================· 扯远了回归正题,来,数学之美第四章: 第三章中说可以使用统计语言模型进行自然语言处理,而自然语言模型建立在词的基础上。在英语等语言中,每个词中间都有间隔,而在中文、日文等语言中,一句话由很多词语组成,但并不存在明显的分隔符。因此对这种语言进行基于统计语言模型的自然语言处理,就需要进行分词。 例: 中国航天官员应邀到美国与太空总署官员开会。 中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会。 分词最基本的思想就是“查字典”。 简单来说就是把句子从左到右扫描一遍,遇到字典里有的词就标识出来,如果遇到复合词,就按最长匹配原则(上海大学,不按上海和大学分,按最长匹配原则)。 然而当词语存在二义性时,例如: 发展中国家 按照上述规则,从左到右查字典,得到的结论是 发展/中国/家 然而实际上应该是 发展/中/国家 对于这种情况,上一章讲到的统计语言模型可以解决这个问题。 假如一个句子有三种分词方法: A1, A2, A3, ..., Ak B1, B2, B3, ..., Bm C1, C2, C3, ..., Cn 分词得到的结果不同,分成的词的个数也不同。 此时问题又成了上一章中的问题,如何才能判断哪一种才是最好的。 最好的应该是保证分完词后这个句子出现的概率最大,如下所示: P(A1, A2, A3, ..., Ak) > P(B1, B2, B3, ..., Bm) 并且 P(A1, A2, A3, ..., Ak) > P(C1, C2, C3, ..., Cn) 概率最大的就是最好的分词方法。 最后,本章提到了两点: - 分词技术已经成熟,提升空间微乎其微 - 如今手写输入英文越来越流行,手写输入的英文单词之间的间隔并不如机器打印的这么明显,因此也需要分词技术。 在延伸阅读中,提到了关于分词的粒度的问题。 例如词语‘清华大学’,有些人认为分到清华大学这个层次恰到好处,因为他可以说是一个专有名词;而另一些人认为要分成清华和大学,他们说清华是用来修饰大学的,要是不拆开,无法体现他们的修饰关系。 现实的情况是,我们需要针对不同的应用,进行不同层次的分词。 在机器翻译中,粒度大的分词效果更好,而在网页搜索中,粒度小的效果更好。 支持不同粒度的分词器模型: 字串 --》基本词表(例如清华,大学) + 统计语言模型L1 --》基本词串 基本词串--》复合词表(例如清华大学) + 统计语言模型L2 --》复合词串 ![](http://upload-images.jianshu.io/upload_images/6274743-99ba52d70dd5f363.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

你可能感兴趣的:(数学之美--谈谈分词)