词法分析

词法分析大体可分为分词,词性标识,命名实体识别(新词识别)。jieba分词作为Python的一个库在这些任务上已经做到很好支持,但在专门领域如教育上的分词或者说是新词识别并没有取得理想的效果,专门领域的新词识别可能会是部分工作重心。

在这方面上,可先阅读DL在多任务上表现,也可以对这方面的综合知识有个基本了解,详情可参考http://blog.csdn.net/itplus/article/details/13616045。该论文的主要工作还是集中在字向量,CRF,维特比算法上,接下来详细介绍下CRF与维特比算法。

条件随机场又叫马尔科夫随机场(MRF),即满足成对,局部,全局马尔科夫性。而CRF本质上就是给定观察值集合的MRF。假设Y为隐藏随机变量,X为观察变量,则变量Y满足马尔科夫条件性,即P(Yw|X,Yv,w≠v) = P(Yw|X,Yv,w~v) 。一般假设Y与X具有相同的线性链结构,此时最大团是相邻两个节点的集合。则P(Yi| X, Y1, ..., Yi-1, Yi+1, ...., Yn)= P(Yi | X, Yi-1, Yi+1),在词性标注中,X为观察序列,Y为状态序列。了解了条件随机场,自然隐马尔科夫模型也差不多了解。

隐马尔科夫模型有三个问题需要解决,1)关于某一观察序列的似然比(简单点来说就是某一个序列的出现概率),这采用前向算法即可搞定;2)根据观察序列获取最有可能的状态序列,这就是著名的维特比算法;3)转移概率,生成概率的训练问题,最常用的是Baum-Welch算法。

然后讲下新词识别,尤其是教育行业的新词识别问题,基本是采用两种方式,基于CRF的词性标注(需要监督数据);基于统计,N-gram同现概率等。具体情况实现以及后面遇到的问题后续再补充。


你可能感兴趣的:(词法分析,命名实体识别,CRF,NLP)