2 CRF Layer (Emission and Transition Score) | CRF层(发射和过渡分数)

回顾

在上一节中,我们知道CRF层可以从训练数据集中学习一些约束,以确保最终的预测实体标签序列有效。

约束可能是:

  • 句子中第一个单词的标签应以“ B-”或“ O”开头,而不是“ I-”
  • 在此模式下,“ B-label1 I-label2 I-label3 I-…”应与label1,label2,label3…是相同的命名实体标签。例如,“ B-Person I-Person”有效,但“ B-Person I-Organization”无效。
  • “ O I-label”无效。一个命名实体的第一个标签应以“ B-”而不是“ I-”开头,换句话说,有效模式应为“ OB标签”。也就是说,O后面不能跟I。
  • 其他有可能的

阅读本文之后,您将知道为什么CRF层可以学习这些限制。

2. CRF层

在CRF层的损失函数中,我们有两种计分类型。这两个分数是CRF层的关键概念

2.1排放分数

第一个是排放分数。这些发射分数来自BiLSTM层。如图2.1所示,w0的得分w0 标为B-Person的是1.5。
图2.1:排放分数来自BiLSTM层

为方便起见,我们将为每个标签提供一个索引号,如下表所示。

Label Index
B-Person 0
I-Person 1个
B-Organization 2
I-Organization 3
O 4

我们用xiyjX一世ÿĴ代表排放分数。一世一世是单词和y j的索引ÿĴ是标签的索引。例如,根据图2.1,x i = 1 ,y j = 2 = x w 1,B − O r g a n i z a t i o n = 0.1X一世=1个,ÿĴ=2=Xw1个,乙-Ø[RG一种ñ一世ž一种Ť一世Øñ=0.1这意味着w 1的分数w1个 因为B组织为0.1。

2.2转换分数

我们使用牛逼Ÿ 我ÿ ĴŤÿ一世ÿĴ代表过渡分数。例如,t B - P e r s o n ,I - P e r s o n = 0.9Ť乙-PË[RsØñ,一世-PË[RsØñ=0.9表示标签过渡的分数B − P e r s o n → I − P e r s o n乙-PË[RsØñ→一世-PË[RsØñ是0.9。因此,我们有一个过渡得分矩阵,用于存储所有标签之间的所有得分。

为了使过渡得分矩阵更可靠,我们将添加两个标签START和END。START表示句子的开头,而不是第一个单词。END表示句子的结尾。

这是过渡矩阵得分的示例,其中包括额外添加的START和END标签。

  开始 B人 B组织 互联网组织 Ø 结束
开始 0 0.8 0.007 0.7 0.0008 0.9 0.08
B人 0 0.6 0.9 0.2 0.0006 0.6 0.009
-1 0.5 0.53 0.55 0.0003 0.85 0.008
B组织 0.9 0.5 0.0003 0.25 0.8 0.77 0.006
互联网组织 -0.9 0.45 0.007 0.7 0.65 0.76 0.2
Ø 0 0.65 0.0007 0.7 0.0008 0.9 0.08
结束 0 0 0 0 0 0 0

如上表所示,我们可以发现转换矩阵已经了解了一些有用的约束。

  • 句子中第一个单词的标签应以“ B-”或“ O”开头,而不是以“ I-”开头(从“ START”到“ I-Person或I-Organization”的转换得分非常低。)
  • 在此模式下,“ B-label1 I-label2 I-label3 I-…”应与label1,label2,label3…是相同的命名实体标签。例如,“ B-Person I-Person”有效,但“ B-Person I-Organization”无效。(例如,从“ B-组织”到“ I-人”的得分仅为0.0003,远低于其他得分。)
  • “ O I-label”无效。一个命名实体的第一个标签应以“ B-”开头,而不是以“ I-”开头,换句话说,有效模式应为“ OB标签” (例如,得分t O ,I - P e [R 小号Ø ñŤØ,一世-PË[RsØñ 非常小。)

您可能要问一个关于矩阵的问题。在哪里或如何获得转换矩阵?

实际上,该基质是BiLSTM-CRF模型的参数。在训练模型之前,您可以随机初始化矩阵中的所有转换得分。在训练过程中,所有随机分数将自动更新。换句话说,CRF层可以自己学习那些约束。我们不需要手动构建矩阵。随着训练迭代次数的增加,分数将越来越合理。

下一个

2.3 CRF损失函数

引入CRF损失函数,该函数由实际路径得分和所有可能路径的总得分组成。

2.4真实路径得分

如何计算句子的真实标签的分数。

2.5所有可能路径的分数

如何通过分步玩具示例计算句子所有可能路径的总分。

参考文献

[1] Lample,G.,M。Ballesteros,M。Subramanian,K.Kawakami和C.Dyer,2016年。命名实体识别的神经架构。arXiv预印本arXiv:1603.01360。
https://arxiv.org/abs/1603.01360

你可能感兴趣的:(命名实体识别,nlp)