注意力模型与标题生成

Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., ... & Bengio, Y. (2015, June). Show, attend and tell: Neural image caption generation with visual attention. In International conference on machine learning (pp. 2048-2057).


本文介绍了两种不同的注意力机制模型(硬的随机注意机制和软的确定注意机制),模型的功能是输入一张图片,生成一个k字标题。

一、两种机制的共同框架

1、编码器(如何处理图片):

对图片进行卷积特征提取,提取L个特征向量ai,每个向量都是从D个维度表示了一部分图像。

2、解码器(如何生成标题):

模型使用一个长的短期记忆(LSTM)网络,该网络会根据一个上下文向量Zt、隐藏状态ht-1和已生成标题Eyt-1,每隔一段时间生成一个标题的字。上下文向量Zt指图像的输入部分在时间t时的动态表示。下图是LSTM的流程,i是输入,C是记忆,f是遗忘,o是输出,h是隐藏状态,输入门(input gate)确定i的权重,输入调制门(input modulator)确定i对存储器的贡献,遗忘门确定遗忘权重,输出门确定输出权重,模型需要学习这些权重。


LSTM

计算上下文向量Zt:对于每一个特征向量ai,有一个对应的权重αi,它表示位置i产生下一个标题字的概率(硬的随机注意机制)或表示把ai和位置i混合在一起的相对重要性(软的确定注意机制,不太懂,可能不是这个意思)。αi可根据注意模型fatt计算,Zt可根据αi和ai计算,公式如下。



二、硬注意和软注意

硬注意机制和软注意机制是注意模型fatt的替代机制。

硬注意:如果模型将在某位置生成第t个字,那么记这个位置为st。st,i是一个indicator one-hot变量,如果在第i个位置提取出视觉特征,那么令st,i为1。将st作为中间变量,得到一个以{αi}为参数的伯努利分布,且可根据αi可计算出Zt。(猜的,第一个公式的意思可能是位置i接下来生成标题的可能性,第二个公式计算第t个字最有可能在哪个位置生成。)


软注意:(没看懂)


三、实验


用三个数据集测试了四个模型,分别用BLEU和METEOR两种研究标准表示结果。软注意和硬注意模型的表现较好。

你可能感兴趣的:(注意力模型与标题生成)