图像标注:Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
这篇文章是2015年ICML上的一篇文章,把attention机制引入到图像领域的文章,作者KelvinXu、YoshuaBengio等人,来自多伦多大学和蒙特利尔大学。Imagecaption是计算机视觉的最初始任务,不仅要获得图片里的物体,还要表达他们之间的关系。目前现存的方法大都是encoder—decoder架构,利用CNN、RNN、LSTM等神经网络完成caption工作,比如说只使用C