Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models
加拿大高级研究所Ryankiros,RuslanSalakhutdinov,RichardS.Zemel2014NIPSdeeplearningworkshop1.主要思想学习了一个图片-句子embeddingspace,以及一个解码这个空间的语言模型2.embeddingspace如下图结构所示CNN模型学习图片表示,LSTM的最后的隐藏状态为句子的表示,分别进行训练。学习两个矩阵(即两个单层的