可能与深度学习跨媒体相关的几篇文章

几篇经典的就不说了,最近看了下面几篇文章,也许能够有点启发

DeViSE: A Deep Visual-Semantic Embedding Model
主要工作:实现一个deep visual-semantic embedding model同时使用标注的图像数据和文本的语义信息来进行目标识别
主要贡献:使用文本数据学习不同label之间的语义关联,将图像映射到一个语义空间中,能够对未知的category预测label
评价:这篇文章主要还是做的类似目标识别的工作,先分别预训练了两个图像和文本的模型,然后再映射到他自己的embedding model中进行统一度量

Modeling Documents with Deep Boltzmann Machines
主要工作:实现一个DBM来提取文本的语义表示
主要贡献:提出了一个新的模型Over-Replicated Softmax model,在原有的Replicated Softmax model的基础上,增加了一个hidden units层,提升了模型性能,在training和performance上达到平衡。

Effective MultiModal Retrieval based on Stacked AutoEncoders
主要工作:实现stacked auto-encoders来将不同模态的高维特征映射到一个低维的统一空间
主要贡献:目标函数同时考虑modal内部和modal之间的语义关联,需要很少的prior knowledge
评价:其实并没有看出太大的贡献之处,对于文本和图像两个modal分别得到两个stacked auto-encoders(SAE),将文本和图像特征映射到一个统一空间。在训练过程,先单独对两个SAE进行训练,然后将两个SAE结合起来训练,来实现贡献中提到的同时考虑modal内部和modal之间的语义关联
在wiki的数据集上,图像使用128维的SIFT特征,文本特征维数为1000维,但是训练集和测试集的划分和我们自己的不太一样,结果也不好

Multimodal Neural Language Models
主要工作:实现一个image-text multimodal neural language model用于文本搜图像、图像搜文本以及生成图片文本描述
主要贡献:没有依靠template或是syntactic trees之类,而是使用学习得到的word representations并且根据图像高层特征来调整模型(relies on word representations learned from millions of words and conditioning the model on high-level image features learned from deep neural networks)。
评价:这篇文章整体感觉可能更偏text generation,虽然也强调了retrieval的工作。其原始模型The log-bilinear language model (LBL)是用于预测next word representation,即给定一个word序列预测下一个word的条件概率。而本文使用的模型是基于上述模型的直接扩展,在上述的条件概率加上了图像x的限定,即给定一个word序列和一幅图像预测下一个词的条件概率,表示P(wn = i|w1:n−1,x)。
具体到了text generation和retrieval的部分,通过上述的条件概率计算一个perplexity,表示为C(w1:n|x)。对于文本搜索图像,给定文本对于数据集中所有图像计算C(w1:n|x)值,进行排序。对于图像搜索文本,为了排除一些简单句的干扰,在特征空间取了一个mean image,记作x˜,计算C(w1:N|x)/C(w1:N|x˜),至于text generation则直接根据上述的条件概率生成即可。
总的来说,模型还是由图像到文本的一个单向的过程,核心设计到深度的部分应该还是原有的处理文本的LBL模型中涉及的神经网络。

Explain Images with Multimodal Recurrent Neural Networks
主要工作:实现一个Multimodal Recurrent Neural Networks用于生成图片的文字描述,继而实现文本搜图像、图像搜文本
主要贡献:将RNN网络和multimodal architecture结合。
评价:方向类似上一篇文章,同样更偏重text generation,与上一篇的主要不同之处在于文本处理方面使用了RNN网络,图像处理部分使用了常用的CNN网络,然后将RNN网络和CNN网络统一连接到一个Multimodal层,最后通过SoftMax层得到next word。
在实现text generation以及retrieval的部分,同样类似上一篇文章,通过条件概率计算一个perplexity,文中表示为PPL(w1:L|I),后续的text generation和retrieval和上一篇文章基本一致
总的来说,这篇文章和上一篇文章不同的地方只是在于处理文本的模型,一个使用了LBL模型,一个使用了RNN模型,都是图像到文本的一个单向的过程,核心的贡献也主要都是基于原有的文本模型和图像结合,然后捎带结合了一下跨媒体的内容

你可能感兴趣的:(深度学习,深度学习,跨媒体)