中文分词——考虑语义

考虑语义的分词步骤:
中文分词——考虑语义_第1张图片
当按照步骤一:生成所有可能的分割;步骤二:选择其中最好的。这种分开的方法时效率比较低,这里引入viterbi算法来解决效率问题。

例:

待分词语句:“经常有意见分歧”
词典:[“经常”,“经”,“有”,“有意见”,“意见”,“分歧”,“见”,“意”,“见分歧”,“分”]
概率:[0.1, 0.05, 0.1, 0.1, 0.2, 0.2, 0.05, 0.05, 0.05, 0.1]
-log(x):[2.3, 3, 2.3, 2.3, 1.6, 1.6, 3, 3, 3, 2.3]
取log是为了在连乘的时候防止溢出,取负号是为了方便取最小值(这里需要取最大值作为结果,但是在算法中通常更倾向于取最小值,所以添加一个负号)

你可能感兴趣的:(中文分词——考虑语义)