论文阅读记录


2019/10/24

  • [CVPR 2018] Generalized Zero-Shot Learning via Synthesized Examples
    论文阅读记录_第1张图片
    VAE模型-SE-GZSL

  • [ECCV 2018] Multi-modal Cycle-consistent Generalized Zero-Shot Learning
    论文阅读记录_第2张图片
    cycle-CLSWGAN


2019/10/23

  • [ICCV 2017] Label Efficient Learning of TransferableRepresentations across Domains and Tasks
    网上笔记

遗留问题:

  1. label efficient manner 怎么理解?
  2. multi-layer domain adversarial loss实现原理?意义?
  3. 相似性函数,源域特征归一化,目标域特征不归一化,为什么?
  • [IJCAI 2018] Incomplete Multi-ViewWeak-Label Learning

2019/10/22
写PPT


2019/10/20

  • [ICCV 2017] Attributes2Classname: A Discriminative Model for Attribute-Based Unsupervised Zero-Shot Learning
    论文阅读记录_第3张图片
    动机: 无监督ZSL指的是测试类没有属性标注。直接建立视觉特征和类别名称词嵌入的关联很难。类别名称词嵌入包含更多非视觉信息,而视觉特征主要包含视觉信息。通过属性来连接,属性包含了图像域的视觉线索,同时是语言域的一个项,将其作为中间表示。
    方法: 建立属性组合的词嵌入和类别名称词嵌入的关系。
    1.输入一张图像,对属性进行预测
    2.根据预测结果,计算属性词嵌入的加权平均
    3.计算属性组合词嵌入和未见类名字词向量的余弦距离来打标签
    重点: 论文学习了一个具有判别性的词嵌入表示空间。使得类别名的词嵌入具有更丰富的视觉信息。
the similarity of different class representations under distinct metrics

TensorFlow代码

  • [Neurocomputing 2019] Attribute Hierarchy based Multi-task Learning for Fine-grained Image Classification
    动机: 将属性分为粗粒度、细粒度、极端细粒度三种语义层次。根据属性层次,对类别进行分类。进而将细粒度分类转化成一个不同层次的多任务学习问题。
    方法: 对CNN提取的不同层的特征进行聚类,从而对类别进行聚类。比如,对中间层特征聚类,划分出粗粒度类别;对最后的全连接层特征聚类划分出细粒度类别。同时优化粗粒度分类、细粒度分类、超细粒度分类三个分类任务。
    [IJAC 2019] Zero-Shot Fine-Grained Classification by Deep Feature Learning with Semantics这篇文章就利用了细粒度类别语义层次关系,利用深度网络来挖掘这种语义层次关系,提升深度特征的鲁棒性。

2019/10/18

  1. Ridge Regression [1]
    L = ∣ ∣ X W − Y ∣ ∣ 2 + ∣ ∣ W ∣ ∣ 2 L=||XW-Y||^2+||W||^2 L=XWY2+W2

∂ L ∂ W = 2 X T ( X W − Y ) + 2 λ W = 2 [ ( X T X + λ ) W − X T Y ] = 0 \begin{aligned} \frac{\partial \mathcal{L}} {\partial W} &=2X^T(XW-Y)+2 \lambda W\\ &=2[(X^TX+\lambda)W - X^TY] \\ &=0 \end{aligned} WL=2XT(XWY)+2λW=2[(XTX+λ)WXTY]=0

( X T X + λ ) W − X T Y = 0 (X^TX+\lambda)W - X^TY = 0 (XTX+λ)WXTY=0

( X T X + λ ) W = X T Y (X^TX+\lambda)W = X^TY (XTX+λ)W=XTY

W = ( X T X + λ ) − 1 X T Y W =(X^TX+\lambda)^{-1} X^TY W=(XTX+λ)1XTY

  1. Ridge Regression [2]
    L = ∣ ∣ W X − Y ∣ ∣ 2 + ∣ ∣ W ∣ ∣ 2 L=||WX-Y||^2+||W||^2 L=WXY2+W2

∂ L ∂ W = 2 ( W X − Y ) X T + 2 λ W = 2 [ W ( X X T + λ ) − Y X T ] = 0 \begin{aligned} \frac{\partial \mathcal{L}} {\partial W} &=2(WX-Y)X^T+2 \lambda W\\ &=2[W(XX^T+\lambda) - YX^T] \\ &=0 \end{aligned} WL=2(WXY)XT+2λW=2[W(XXT+λ)YXT]=0

W ( X X T + λ ) − Y X T = 0 W(XX^T+\lambda) - YX^T = 0 W(XXT+λ)YXT=0

W ( X X T + λ ) = Y X T W(XX^T+\lambda) = YX^T W(XXT+λ)=YXT

W = Y X T ( X X T + λ ) − 1 W =YX^T(XX^T+\lambda)^{-1} W=YXT(XXT+λ)1

inference according to the shape 根据形状推导公式
( W X − Y ) X T (WX-Y)X^T (WXY)XT X T ( X W − Y ) X^T(XW-Y) XT(XWY), so X X X and X T X^T XT in the same side to compose X X T XX^T XXT, or X T X X^TX XTX.
X X T XX^T XXT, or X T X X^TX XTX可以将本身的维度消掉,对W求导,最后跟W形状是一致的。


2019/10/15

  • [ICCV 2017] Predicting Visual Exemplars of Unseen Classes for Zero-Shot Learning
    动机: 认为语义表示和具有分类能力的低维视觉特征之间并没有非常直接的关系,因此假设了视觉特征的聚类中心作为类别的语义属性表示。
    思想: 对于每一个类别c,将其映射到视觉特征空间中,并且尽量与类别c的视觉特征聚类中心(PCA降维后特征加和求平均)相似。语义视觉映射 ψ ( a c ) ≈ v c \psi(a_c) \approx v_c ψ(ac)vc,使用的是d个带RBF核的支持向量机,对视觉特征代表的d个维度,分别进行预测。

2019/10/14

  • [CVPR 2015] Evaluation of Output Embeddings for Fine-Grained Image Classification
    算法: 利用多种模态的语义信息来实现细粒度零样本分类。利用不同类别嵌入信息互补,来提升零样本分类性能。

15年的论文中纯粹的无监督类别嵌入达到了和监督类别嵌入同等效果。现在监督类别嵌入优势明显,无监督类别嵌入如何达到同等效果?

  • [CVPR 2016] Learning Learning Deep Representations of Fine-Grained Visual Descriptions
    通过学习细粒度类别的视觉描述的深度表示来解决细粒度零样本(fine-grained zero-shot learning)问题。论文有三点贡献:
    1)收集了CUB和Oxford数据集的视觉描述;
    2)深度NLP模型
    视觉描述,是细粒度属性的来源之一。 我们需要高容量的文本模型。

text-based特征和TF-IDF特征更好。text-based是对图片的详细描述。SJE模型


2019/10/13

  • [CVPR 2019] f-VAEGAN-D2: A Feature Generating Framework for Any-Shot Learning
    作者提出了一个直推式特征生成网络。和f-CLSWGAN不同的是,论文没有使用分类loss来学习更具有判别性的特征。

  • 1.VAE和WGAN信息互补,生成更鲁棒的特征;

  • 2.使用判别器来学习未见类数据的流形

  • 3.生成特征可解释

  • [CVPR 2018] Generalized Zero-Shot Learning via Synthesized Examples
    SE-GZSL:使用的是VAE结构,生成t特征。生成的特征连接到一个判别器上,将其映射到类别属性上,提高生成图片的效果。论文使用的是ResNet特征。

看不懂VAE的loss函数


2019/10/11

  • [TPAMI 2015] Transductive Multi-View Zero-Shot Learning
    Valse视频
    零样本学习的目标是对识别没有样本的新类别。模拟了人类learn to learn的过程。

文章分析了DAP直接属性预测方法的三个缺点:

  1. 投影域漂移问题:如斑马的尾巴和猪的尾巴外观很不相同,所以模型预测结果很差
  2. 原型稀疏问题:
  3. 不能利用多语义表示问题。

提出方法:
将低层特征、语义词向量空间、属性表示空间都映射到一个多视图嵌入空间,通过对齐来解决域漂移的问题。
通过流形结构对齐来解决原型稀疏的问题。
通过多视图语义表示的融合来解决第三个问题。

问题:怎么选取view?信息少的view会不会拉低性能?
deep feature包含的信息比较多。非深度特征的融合会有提升,但是没有deep feature的效果好。

  • [CVPR 2018] Feature Generating Networks for Zero-Shot Learning
条件变量
生成特征
W距离
分类器
GAN
cGAN
f-GAN
f-WGAN
f-CLSWGAN

ZSL和GZSL任务是生成模型表达能力的试验平台

GAN的训练过程:

  1. 固定生成器,训练判别器,目标是判别真实和生成;(真实图片,1)和(生成图片,0)
  2. 固定判别器,训练生成器,目标是生成真实图片。 (生成图片,0)
    模型G和D同时训练:固定生成模型G,调整D的参数使得logD(X) + log(1 − D(G(z)))的期望最大化;固定判别模型D,调整G的参数使得 log(1 − D(G(z))的期望最小化。

参考:

  1. 那些年用GAN和VAE做的Zero-Shot learning
  2. 论文学习 Feature Generating Networks for Zero-Shot Learning

f-CLSWGAN有两个创新点,一是生成特征,而不是生成图像;二是添加了auxiliary classifier,提高了生成器的性能。但是,论文没有对比使用和不使用auxiliary classifier的性能对比。


2019/10/10

  • [TIP 2019] Zero-Shot Learning via Category-Specific Visual-Semantic Mapping and Label Refinement
    AEZSL (adaptive embedding ZSL)动态映射的ZSL。之前的论文在源域上学习一个视觉语义映射W,然后直接将这个矩阵用在目标域。本文考虑了不同类别视觉语义映射会有很大差异,为每一个类别都学习一个映射W。源域使用图片和标签,进行学习。目标域通过计算和源域每个类的相似性(余弦距离),然后加权求和得到视觉语义映射矩阵W。
      这篇论文和AdaGraph有相似之处。AdaGraph是为每个源域学习一个分类器,构建一个源域和目标域的关系图,利用元数据计算源域和目标域的相似性,然后通过对源域的分类器参数进行加权求和得到目标域的分类器参数。
      AEZSL用两个类别的语义向量的余弦距离计算语义相似性,AdaGraph用域的元数据的 e − d ( ϕ ( v 1 ) , ϕ ( v 2 ) ) ) e^{−d(ϕ(v1),ϕ(v2)))} ed(ϕ(v1),ϕ(v2)))计算两个域的相关性。

想法17年就出来了
上交,牛力

  • [CVPR 2019] Gradient Matching Generative Networks for Zero-Shot Learning
    本文涉及的问题是零样本学习中生成方法,企图生成未见类的样本,将零样本问题转化成一个监督学习问题。其中,针对目前的生成方法中使用在已见类样本上训练的分类器(pre-trained model)来指导生成器,进行了分析。认为这样的分类指导会使得生成的样本很好被分类,但是缺少“支持向量”。这样生成的样本不够丰富,那么这个生成器生成的样本再去训练未见类的分类器,效果就会比较差。为了得到一个更好的分类器,这个分类器必须能生成比较丰富的样本。一个简单的想法就是直接端到端训练一个合成样本上的分类器,但是有两个问题,一个是训练次数太多梯度消失,一个是训练次数太少样本不合理。本文提出了一个梯度loss,让合成样本和真实样本在分类器上产生的梯度相关性最大。

你可能感兴趣的:(paper)