GCH:Graph Convolutional Network Hashing for Cross-Modal Retrieval 阅读笔记

GCH:Graph Convolutional Network Hashing for Cross-Modal Retrieval 阅读笔记

摘要:基于深度网络的跨模态检索最近取得了重大进展。然而,弥合模态差距以进一步提高检索精度仍然是一个关键的瓶颈。在本文中,我们提出了一种图卷积散希方法,它通过亲和图学习模态统一的二进制码。构建了一个端到端深度体系结构:一个语义编码器模块、两个特征编码网络和一个图形卷积网络(GCN)。我们设计了一个语义编码器作为一个教师模块,来指导特征编码过程。学生模块,为语义信息的利用。此外,利用GCN来探索数据点之间固有的相似性结构,这将有助于产生区分哈希码。在三个基准数据集上的大量实验表明,所提出的GCH优于最先进的方法。

模型图:

GCH:Graph Convolutional Network Hashing for Cross-Modal Retrieval 阅读笔记_第1张图片

算法流程图:

GCH:Graph Convolutional Network Hashing for Cross-Modal Retrieval 阅读笔记_第2张图片

损失函数

(1)标签网络损失:、

GCH:Graph Convolutional Network Hashing for Cross-Modal Retrieval 阅读笔记_第3张图片

(2)特征网络损失(其中Hb为图网络的输出):

GCH:Graph Convolutional Network Hashing for Cross-Modal Retrieval 阅读笔记_第4张图片

(3)图网络损失
GCH:Graph Convolutional Network Hashing for Cross-Modal Retrieval 阅读笔记_第5张图片

图网络的输入:fr的计算过程

GCH:Graph Convolutional Network Hashing for Cross-Modal Retrieval 阅读笔记_第6张图片

图网络的输出Hb为信标特征

个人总结:

整个训练过程为:

1.训练标签。让标签也生成哈希码。loss设计:(1)让标签生成的哈希码之间的相似性,接近原始标签之间的相似性;(2)让标签生成的哈希码接近标签

2.训练图像和文本。loss设计:(1)让图像(或文本)产生的哈希码接近标签的哈希码(sign后的);(2)让图像(或文本)预测出的标签(把特征sigmoid就可)接近真正标签。

3.训练图网络。图网络的输入特征是文本与图像互注意力融合后的特征,输入图是标签矩阵(大于0的都取1),图网络的输出是特征graph_code和预测出的标签graph_logit(把graph_code sigmoid一下即可)。loss设计:(1)graph_code之间的相似性与标签之间的相似性接近;(2)graph_logit与标签接近。

4.再次训练图像和文本。loss设计:(1)让图像(或文本)产生的哈希码接近图网络的输出graph_code;(2)让图像(或文本)产生的哈希码接近标签的哈希码(sign后的)。

点评:

其提出的语义编码器其实就是标签训练的网络,把标签也生成哈希码,让图像和文本的标签都接近它,以此来试图引导图像和文本网络所生成的哈希码接近标签的语义相关性。其图网络是为了挖掘数据的相互依赖性,让相似的数据,生成的哈希码也相似。

 

你可能感兴趣的:(跨模态检索,深度学习,机器学习)