论文笔记 - Show and Tell: A Neural Image Caption Generator
摘要本文提出了一种基于深度循环网络架构的图片描述生成架构,在COCO数据集上取得SOTA的水平.图11.介绍自动生成图像文本描述是非常有意义的同时也是十分具有挑战性的,除了视觉理解以外还要有语言模型的加入.以前的方法把这个问题当成两个子问题分开处理,正相反我们提出了一个联合模型,使得在给定图片的条件下生成某个单词序列的概率$p(S|I)$最大,$I$是输入图像,$S=\lbraceS_1,S_2,