《数学之美》之谈谈分词

如果

可以插入音乐

我一定

放个十首八首

因为

听歌看书码字实在太**high了

//:用假诗体开个玩笑~~~

在数字时代,拼音文字有着太多的无奈。中文输入法的诞生就有一本书去描述,是个波澜壮阔的研究和产业史。

不止是在输入的时候有麻烦,对于机器如何来理解亚洲语言这种词与词之间没有明确分隔符的语言,也是个大麻烦。

这问题不仅在现在存在,以前也存在。如果你见过没有注解的论语,那也是一片片的字,难以理解其中具有二义性的语句。

一开始,中文的分词也是从查字典的角度去让机器理解的。但是,一旦遇到二义性,就跟一个完全对文言文没有经验的人一样,字都认识,组合成句子却不知道什么意思了。

还是要靠统计语言模型的力量。

最好的分词方法应该是要保证分完词之后,这个句子出现的概率最大。这是个动态规划的问题,用到了维比特算法。

好消息是,

分词已经属于已经解决的问题,并非是什么难题。只要采用基本的统计语言模型,和一些业界熟知的技巧既能得到非常好的结果。甚至,不同的分词器产生的结果的差异要远远小于不同人之间看法的差异。这意味着,无法更优解了。

那分词是不是就无事可干了?也不是的。

对于“北京大学”,应该分成“北京”和“大学”还是“北京大学”,对于不同学者来说,还是有争议的。对于不同的使用场景,分词的颗粒度也会有争议。对于某些应用来说,需要尽可能地找到各种复合词,有些则相反。

而我们又不想构建不同的分词器(鬼知道要分成多少种)。因此,就需要让分词器支持不同的应用场景需要。这样,也就需要建立基本词表和复合词表,由复合词表来描述复合词由哪些基本词构成。

工作就来了。

我们需要不断地做数据挖掘,去完善复合词的词典。这也是近些年来中文分词工作的重点。

目前市场上的分词产品很多,百度出来一大堆,性能分析也有。对于我们正在用的python来说,jieba模块是比较好的开源工具,还支持复合词词典。

收尾。此时在放的歌是《Defeated》~~~~~~~歌词有种老人与海中“人可以被毁灭,但不可以被打败”的意思(哈哈哈,这鸡汤当然是网友熬出来的,拿来用用)。

你可能感兴趣的:(《数学之美》之谈谈分词)