【论文笔记】《SketchMate: Deep Hashing for Million-Scale Human Sketch Retrieval》

《SketchMate:面向百万级人类草图检索的深度哈希算法》论文阅读笔记

写在前面:水平有限,此笔记仅在本人有限的理解水平上完成,有错误希望读者批评指正。
论文和代码见网址:https://paperswithcode.com/paper/sketchmate-deep-hashing-for-million-scale

本文首次提出了一个用于草图检索的深度哈希框架,来适配数百万级别的尺度的人体草图数据集。与传统的草图识别任务不同,本文引入了草图哈希检索的新问题,不仅更具挑战性,而且为大规模草图分析提供了更好的实验平台:1、需要更细粒度的草图特征学习,以适应风格和抽象的巨大变化,2、一个紧凑的二进制代码需要学习的同时,以使有效的检索。
本文1、采用两分支CNN-RNN结构来探索笔画的时间顺序,2、专门设计了一种新的散列损失来适应的时间和抽象特征的草图。

本文的主要贡献有三个:
1、首次在一个数百万尺度的人体草图数据集上引入草图哈希检索问题,并提出一种直接适应人体草图关键特征的深度哈希网络。
2、提出了一种新的多分支CNN-RNN结构,它专门编码草图的时序信息,以学习更细粒度的特征表示。
3、设计了一种新的散列损失以适应草图的抽象性质,特别是在噪声也存在的大数据集上。

本文提出的双分支CNN_RNN模型如下图:
【论文笔记】《SketchMate: Deep Hashing for Million-Scale Human Sketch Retrieval》_第1张图片
如上所示,该模型由三个子模块构成:
1、CNN编码器接受光栅像素素描并转换到一个高维空间;
2、RNN编码器接受矢量草图和输出其最后的时间步长状态
3、两分支最后在一个后期融合层融合

首次提出了 草图中心损失:
1、首先分别对CNN-RNN进行草图识别的预训练,然后利用我们的完整模型进行微调,两者都只考虑softmax交叉熵损失
2、基于预训练的模型,对该类的去噪草图,通过计算散列特征fn的均值,得到类特征中心Cyn。
3、草图中心损失定义为:
在这里插入图片描述
通过这样做,在最后的微调阶段,为每个类使用固定的中心进行端到端训练,从而在每次训练迭代中提供有意义的梯度,根据经验发现,在这种特定于草图的中心损失下,性能有显著提升。

本文提出的 基于多阶段预训练的深度草图哈希模型算法 如下:
【论文笔记】《SketchMate: Deep Hashing for Million-Scale Human Sketch Retrieval》_第2张图片
其中,K代表N个可能跨越L个类别的样本对,每个样本对包含光栅像素空间的草图Pn和相应的草图段序列Sn,y是他们各自的标签,
用到的损失如下:

K的L way softmax交叉熵损失Lcel:
在这里插入图片描述
Wj是量化编码层与L way softmax输出之间的权值W的第j列,bj_hat是偏差b_hat的第j项。

草图中心损失Lscl,上面已经介绍过了。

全部损失Lfull:
在这里插入图片描述
其中的两个系数,用来控制相应损失的相对重要性
Lqt为量化损失
在这里插入图片描述
fn为图片的哈希特征,bn为图片的哈希码。

你可能感兴趣的:(论文笔记)