数学之美-第四章-谈谈分词

主体讲述的是中文分词方法的演变历史,由于一些亚洲语言词与词之间没有明确的分界符,因此需要先进分词处理。这也是中文的自然语言处理的独到之处吧。

主要介绍在分词过程中的奇异性是基于统计语言模型解决,然后再说人工分词出现奇异性的解决(在扩展阅读中)。

之后谈到词的颗粒度和层次,在中文应用场景的不同,所需要的效果就会有所不同,由于对不同场景的应用,构造不同的分词器,会产生资源的浪费,所以之后就有人提出了让一个分词器同时支持不同层次的词的切分,然后在不同应用中自行决定切分的颗粒度。

小结

中文分词以统计语言模型为基础,经过几十年的发展和完善,今天基本上可以看作是一个已经本解决的问题。

当然不同的人做的分词器友好有坏,这里面的差别主要在于数据的使用和工程实现的精度。

你可能感兴趣的:(数学之美-第四章-谈谈分词)