上节回顾:
在上一节中,我们知道CRF层可以从训练数据集中自动学习到一些约束规则来保证预测标签的合法性。
这些约束包括:
I:句子中第一个词总是以标签“B-“ 或 “O”开始,而不是“I-”
II:标签“B-label1
I-label2 I-label3 I-…”,label1, label2, label3应该属于同一类实体。例如,“B-Person
I-Person” 是合法的序列, 但是“B-Person I-Organization” 是非法标签序列.
III:标签序列“O I-label” is 非法的.实体标签的首个标签应该是 “B-“ ,而非 “I-“, 换句话说,有效的标签序列应该是“O B-label”。
这一小节,我们将会讲述为什么CRF会学习到这些约束规则。
1.CRF层
在CRF层损失函数中,有两种形式的概率。这些分值是CRF层的关键概念。
1.1发射概率
为了方便起见,我们用数字来表示各个实体标签,对应关系如下:
B-Person———————0
I-Person————————1
B-Organization——————2
I-Organization———————3
O———————————————4
1.2转移概率
为了使转移概率矩阵更具鲁棒性,我们额外增加两个标签——START 和END,START 代表句子的开始位置,而非第一个词,同理,END代表句子的结束位置.
表1.为增加标签后的转移概率的例子。
如表1.所示,我们可以发现转移概率矩阵可以学习到好多约束规则:
I:句子中第一个词总是以标签“B-“ 或 “O”开始,而不是“I-”( 从“START” 到 “I-Person or I-Organization” )。
II:标签“B-label1
I-label2 I-label3 I-…”,label1, label2, label3应该属于同一类实体。例如,“B-Person
I-Person” 是合法的序列, 但是“B-Person I-Organization” 是非法标签序列.
III:标签序列“O I-label” is 非法的.实体标签的首个标签应该是 “B-“ ,而非 “I-“, 换句话说,有效的标签序列应该是“O B-label”。