10-编码器-解码器架构

编码器-解码器 

        机器翻译中,输入和输出的序列都是可变的。处理这种类型的输入输出,采取编码器-解码器的架构。编码器将输入的可变序列转化为定长的序列,再有解码器转变为可变的序列。该架构如下图所示: 

10-编码器-解码器架构_第1张图片

seq2seq

        使用两个循环神经网络来作为编码器和解码器,应用于seq2seq模型。为了连续生成输出序列的词元, 独立的循环神经网络解码器是基于输入序列的编码信息和输出序列已经看见的或者生成的词元来预测下一个词元。具体结果如下图所示:

10-编码器-解码器架构_第2张图片

        其中特定的“”表示序列结束词元,一旦输出序列生成此词元,模型就会停止预测。特定的“”表示序列开始词元,它是解码器的输入序列的第一个词元。解码器的初始隐状态是编码器的最终的隐状态,并且编码器最终的隐状态在每一个时间步都作为解码器的输入序列的一部分。

束搜索 

        束搜索是介于贪心搜索和穷举法之间的方法,贪心搜索是在每时刻都选择当前概率最大的预测值,穷举是将所有可能的序列都进行查看,最后选择一个概率最大的预测值。束搜索只在第一个时间步,选择K个最大的预测值,之后的时间步里同贪心搜索一样选择概率最大的预测序列,最后将得到的预测序列进行比较,选择其中概率最大的。如下图所示:

10-编码器-解码器架构_第3张图片

        设束宽位2,输出长度为2,候选输出序列有A、C、AB、CE、ABD、CED。最后,基于这六个序列(例如,丢弃包括“”和之后的部分),获得最终候选输出序列集合。 然后选择其中条件概率乘积最高的序列作为输出序列: 

 \frac{1}{L^\alpha} \log P(y_1, \ldots, y_{L}\mid \mathbf{c}) = \frac{1}{L^\alpha} \sum_{t'=1}^L \log P(y_{t'} \mid y_1, \ldots, y_{t'-1}, \mathbf{c}),

        其中L是最终候选序列的长度, α通常设置为0.75。 因为一个较长的序列在上式的求和中会有更多的对数项, 因此分母中的L^\alpha用于惩罚长序列。贪心搜索可以看作是一种束宽为1的特殊类型的束搜索。通过灵活地选择束宽,束搜索可以在正确率和计算代价之间进行权衡。

你可能感兴趣的:(深度学习,人工智能,深度学习)