python自然语言处理实战 核心技术与算法

涂铭

3 中文分词技术

3.2 规则分词

3.2.1 正向最大匹配方法 maximum match method MM法

3.2.2 逆向最大匹配方法 reverse maximum match method RMM法

中文偏正结构很多

3.2.1 双向最大匹配方法 bi-direction matching method

3.3 统计分词

建立语言模型
对句子进行单词划分,然后对划分结果进行概率计算,获得概率最大的分词方式。
统计学模型:

  • 隐含马尔可夫HMM
  • 条件随机场CRF

3.3.1 语言模型

n-gram model:在估算条件概率时,忽略距离大于等于n的上文词的影响

  • 一元模型 unigram model
  • 二元模型 bigram model
  • 三元模型 trigram model 词序信息 计算成本

3.3.2 HMM模型

你可能感兴趣的:(python自然语言处理实战 核心技术与算法)