分词系列

中文分词技术原理及应用:https://sanwen8.cn/p/2919tFk.html   

方法:

基于AC自动机的快速分词:http://kexue.fm/archives/3908/

字标注法和HMM模型:http://kexue.fm/archives/3922/

基于双向LSTM的seq2seq字标注【中文分词】:http://kexue.fm/archives/3924/

轻便的深度学习分词系统:http://kexue.fm/archives/4114/   <并不实用>

基于语言模型的无监督分词:http://kexue.fm/archives/3956/

基于全卷积网络的中文分词:http://kexue.fm/archives/4195/

深度学习分词:http://kexue.fm/archives/4245/

现有的分词算法可分为三大类:基于字符串匹配的分词方法基于理解的分词方法(试验阶段)基于统计的分词方法

基于字符串匹配的分词方法

1)正向最大匹配法(由左到右的方向);

2)逆向最大匹配法(由右到左的方向);

3)最少切分(使每一句中切出的词数最小);还可以将上述各种方法相互组合

这类算法优点是速度块,都是O(n)时间复杂度,实现简单,效果尚可。也有缺点,就是对歧义和未登录词处理不好。常见的基于字符串匹配的分词工具有IKanalyzer,Paoding等。

基于统计的分词方法:因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。

这类分词算法能很好处理歧义和未登录词问题,效果比前一类效果好,但是需要大量的人工标注数据,以及较慢的分词速度。基于统计学**的分词工具有ICTCLAS、结巴分词等。

基于统计的分词方法有CRF(条件随机场)

你可能感兴趣的:(分词系列)