中文NLP笔记：8. 基于HMM的中文分词

今天是大年三十儿，祝各位简友新春快乐，心想事成，万事如意！今天也继续来学一波nlp技术。

图片发自App

HMM 和 CRF

常被用于分词、句法分析、命名实体识别、词性标注等

HMM是一个生成模型

使用隐含变量生成可观测状态

生成式模型

估计的是联合概率分布

由联合概率密度分布求出条件概率分布

生成模型公式为：P(Y|X)= P(X,Y)/ P(X)

关心的是给定输入 X 产生输出 Y 的生成关系P(Y|X)

其他常见的生成式模型有：Gaussian、 Naive Bayes、Mixtures of multinomials 等

CRF是一个判别模型

判别式模型

估计的是条件概率分布， P(Y|X)

由数据直接学习条件概率分布 P(Y|X)

关心的是对于给定的输入 X，应该预测什么样的输出 Y

其他常见的判别式模型有：K 近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法等。

HMM 的“五元组”

StatusSet：状态值集合

在分词任务中状态值集合为 (B, M, E, S)，每个状态代表的是该字在词语中的位置，其中 B 为词的首个字，M 为词中间的字，E 为词语中最后一个字，S 为单个字

ObservedSet：观察值集合

即所有语料的汉字，包括标点符号

TransProbMatrix：转移概率矩阵

就是从状态 X 转移到状态 Y 的概率，是一个4×4的矩阵，即 {B,E,M,S}×{B,E,M,S}

EmitProbMatrix：发射概率矩阵

矩阵的每个元素都是一个条件概率，代表 P(Observed[i]|Status[j]) 概率

InitStatus：初始状态分布

表示句子的第一个字属于 {B,E,M,S} 这四种状态的概率。

基于 HMM 的中文分词器

在分词上，要做的是：已知参数（ObservedSet、TransProbMatrix、EmitRobMatrix、InitStatus），求解状态值序列

解决这个问题的最有名的方法是 Viterbi 算法

一般流程为：

语料准备

爬取文本，用空格隔开

定义 HMM 中的状态，初始化概率，以及中文停顿词

将 HMM 模型封装为独立的类 HMM_Model

class HMM_Model:

def __init__(self):

pass

#初始化

def setup(self):

pass

#模型保存

def save(self, filename, code):

pass

#模型加载

def load(self, filename, code):

pass

#模型训练

def do_train(self, observes, states):

pass

#HMM计算

def get_prob(self):

pass

#模型预测

def do_predict(self, sequence):

pass

__init__()

定义了数据结构和初始变量

setup()

初始化第一个方法中的数据结构

save()

用来保存训练好的模型

load()

用来加载模型

do_train()

用来训练模型

训练函数输入观测序列和状态序列进行训练，依次更新各矩阵数据

get_prob()

在进行预测前，需将数据结构的频数转换为频率

do_predict()

预测采用 Viterbi 算法求得最优路径

get_tags函数

对输入的训练语料中的每个词进行标注

cut_sent函数

根据预测得到的标注序列将输入的句子分割为词语列表

定义分词器类 HMMSoyoger

class HMMSoyoger(HMM_Model):

def __init__(self, *args, **kwargs):

pass

#加载训练数据

def read_txt(self, filename):

pass

#模型训练函数

def train(self):

pass

#模型分词预测

def lcut(self, sentence):

pass

继承 HMM_Model 类并实现中文分词器训练、分词功能

init()，构造函数，定义了初始化变量

read_txt()，加载训练语料，读入文件为 txt，并且 UTF-8 编码，防止中文出现乱码

train()，根据单词生成观测序列和状态序列，并通过父类的 do_train() 方法进行训练

lcut()，模型训练好之后，通过该方法进行分词测试

训练模型

首先实例化 HMMSoyoger 类，然后通过 read_txt() 方法加载语料，再通过 train() 进行在线训练

模型测试

学习资料：

《中文自然语言处理入门实战》

中文NLP笔记：8. 基于HMM的中文分词

你可能感兴趣的:(中文NLP笔记：8. 基于HMM的中文分词)