常用中文分词方法

一、正向最大匹配FMM

从左到右将待分词文本中的最多个连续字符与词表匹配,如果匹配上,则切分出一个词。

二、逆向最大匹配

从右到左将待分词文本中的最多个连续字符与词表匹配,如果匹配上,则切分出一个词。

三、双向最大匹配

正向最大匹配算法和逆向最大匹配算法.如果两个算法得到相同的分词结果,那就认为是切分成功,否则,就出现了歧义现象或者是未登录词问题。

四、N-gram双向最大匹配

基于字符串的分词方法中的正向最大匹配算法和逆向最大匹配算法。然后对两个方向匹配得出的序列结果中不同的部分运用Bi-gram计算得出较大概率的部分。最后拼接得到最佳词序列。

五、HMM分词

序列标注

B:起始词

M:中间词

E:结束词

S:单独的词

比如:

['现在', '', '财政', '', '', '90%', '来自', '乡镇企业', '']

['B', 'E', 'S', 'B', 'E', 'S', 'S', 'B', 'M', 'E', 'B', 'E', 'B', 'M', 'M', 'E', 'S']


你可能感兴趣的:(常用中文分词方法)