贪心学院—自然语言处理—分词原理

分词原理

  • 前向最大匹配(forward-max matching)
  • 后向最大匹配(backward-max matching)
  • 维特比算法(viterbi algorithm)

前向最大匹配(forward-max matching)

根据自定义的max_length来对文本进行分词及判断。从前开始匹配。
贪心学院—自然语言处理—分词原理_第1张图片

后向最大匹配(backward-max matching)

从后开始匹配。
贪心学院—自然语言处理—分词原理_第2张图片

缺点:
未考虑语义信息
效率基于max_length

维特比算法(viterbi algorithm)

百度百科解释。考虑语义,将分词与求概率进行结合。
贪心学院—自然语言处理—分词原理_第3张图片


个人整理笔记,方便复习,若侵权,请联系。
附贪心学院课程链接: https://www.greedyai.com/courseinfor/105

你可能感兴趣的:(概念)