条件随机场(CRF,Conditional Random Field)

条件随机场(CRF,Conditional Random Field)

  是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。
  2001年提出的,基于遵循马尔可夫性的概率图模型。
  条件随机场(conditional random field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。
  CRF就是用来计算给定观察序列计算标记序列的概率的P(y | x, lambda),需要确定特征函数和参数向量lambda,特征函数的选取决定了性能,lambda使用极大似然法估计,这个概率明显要比hmm给定假设要严谨的多,缺点是训练时收敛比较慢。
  CRF就像一个反向的隐马尔可夫模型(HMM),两者都是用了马尔科夫链作为隐含变量的概率转移模型,只不过HMM使用隐含变量生成可观测状态,其生成概率有标注集统计得到,是一个生成模型;而CRF反过来通过可观测状态判别隐含变量,其概率亦通过标注集统计得来,是一个判别模型。
  无向图
  参考资料:https://www.zhihu.com/question/35866596

应用领域

  最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,
  例如:1)分词(标注字的词位信息,由字构词);2)词性标注(标注分词的词性,例如:名词,动词,助词);3)命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)。

例子

  CRF分词原理
1. CRF把分词当做字的词位分类问题,通常定义字的词位信息如下:
词首,常用B表示
词中,常用M表示
词尾,常用E表示
单子词,常用S表示
2. CRF分词的过程就是对词位标注后,将B和E之间的字,以及S单字构成分词
3. CRF分词实例:
原始例句:我爱北京天安门
CRF标注后:我/S 爱/S 北/B 京/E 天/B 安/M 门/E
分词结果:我/爱/北京/天安门”

你可能感兴趣的:(机器学习具体算法,经典机器学习算法)