SyntaxNet算法原理—— Andor论文:基于转移的全局优化神经网络

1.原理简介

1.转移系统   采用简单的前馈神经网络(无循环)进行转移状态的计算

2.特征构造采用的Chen 和 Manning(2014)的方法

3.引入CRF全局优化算法采用柱搜索的方式避免局部优化算法带来的标注偏置问题。基于CRF损失函数对神经网络参数执行全反向传播训练

2.模型表示

转移系统的定义

SyntaxNet算法原理—— Andor论文:基于转移的全局优化神经网络_第1张图片

    S(x)代表状态的集合

    S+代表初始状态

    A(s,x)代表已确定的决策集合

   转移函数t(s,d,x)返回的是进行任一决策d后的新状态

   代表决策d的评分

句子x的长度为m,决策的数量n(x)=2*m^3

假设:

每个状态代表了整个历史决策,即每个状态Sj都可以从S+经历一个唯一的决策序列到达

即d1:j-1和Sj是一对一匹配的关系

则:

评价函数ρ(s,d;θ)等价于ρ(di:j-1,d;θ)

用前馈神经网络定义该评价函数


是神经网络中的所有参数,但不包括最终层的参数

是关于决策d的最终层的参数

是基于参数神经网络计算得到的状态S

3.全局标准化vs局部标准化(柱搜索vs贪心算法)

3.1Chen 和 Manning(2014)基于贪心算法神经网络解码方式

SyntaxNet算法原理—— Andor论文:基于转移的全局优化神经网络_第2张图片

代表在之前所有决策d1:j-1条件下的决策dj的条件概率

是指数势函数,ρ是决策dj的得分。对应条件随机场算法中的状态特征+转移特征的加权

Z是规范化因子,保证p构成一个概率分不,即保证值在[0,1] 


整个决策过程的概率:

SyntaxNet算法原理—— Andor论文:基于转移的全局优化神经网络_第3张图片


3.2 此研究采用柱搜索找到上式(2)的最大值

SyntaxNet算法原理—— Andor论文:基于转移的全局优化神经网络_第4张图片

柱搜索关键是找到由决策d1:j-1序列影响下dj的最大得分ρ


4.训练

训练数据:输入集x,目标决策序列 d*1:n

在局部标准化模型中,负的似然对数:

SyntaxNet算法原理—— Andor论文:基于转移的全局优化神经网络_第5张图片

在全局标准化模型中,负的似然对数:

SyntaxNet算法原理—— Andor论文:基于转移的全局优化神经网络_第6张图片

由于全局标准化模型中ZG是难解的,引入随机梯度,其思想是持续在柱搜索中检测目标决策序列d*的路径,如果在第j步发现目标决策序列路径不在柱中,加入随机梯度:

SyntaxNet算法原理—— Andor论文:基于转移的全局优化神经网络_第7张图片

Bj中包含了第j步的所有路径(包括目标路径中的第1到j步路径),从公式(6)中直接获取损失梯度,将梯度反向传播给关于每一决策得分的ρ的神经网络所有层。


5.实验

尽管直接训练第四步中公式(5)的全局模型效果很好,但是先训练公式(4)再训练公式(6)中的模型会更快。使用了基于动量的平均随机梯度下降、学习率、单独的语料,不同的超参数集训练全局目标模型




你可能感兴趣的:(自然语言处理)