Semi-Supervised Multimodal Deep Learning for RGB-D Object Recognition

总体上看,这篇文章的主要贡献包含两块:
  1. 网络使用 AlexNet + 自编码器 进行预训练,该初始化方法的结果要优于 AlexNet+ImageNet的初始化,作者解释原因为: AlexNet + 自编码器 的方法让网络学到了 RGB-D 数据中更多的领域知识。
  2. 该框架提出了“ diversity preserving co-training" 方法(多样性保留协同训练)。区别于传统的co-training,该方法在给 unlabeled data 做标记的过程中,并非使用 catagory classifier(目标分类器),而是借助convex clustering(凸聚类),使用 attribute classifier(属性分类器)进行标记。传统的协同训练方法容易导致有偏的标记,提出的新算法则避免了此问题。(简单理解为:新算法可以标记的更准确?)
下面介绍 diversity preserving co-training 算法思路:

首先利用Reconstrunction Netiwork进行网络权值初始化。然后按以下三步进行迭代训练

  1. Convex Clustering(目的是发现类内多样性)。凸聚类只在有标签数据上进行,并且分别在RGB模态和Depth模态都要进行凸聚类。目的是对有标签数据进行进一步的细分。例如,数据集中包含10个类别,分别代表杯子、椅子……电视。凸聚类根据这些类标签进行聚类,聚类的结果是每一个类形成一个类簇,例如有“杯子类簇”、“椅子类簇”,与普通聚类区别在于,“杯子类簇”下还有细分的子类簇(sub-cluster),子类簇形成的原因是,虽然都属于杯子类簇,但是不同的杯子形状颜色各不相同,例如有“高脚杯类簇”、“mug类簇”、“茶杯类簇”……这些子类簇的名字我们是不知道的,一般按照数字进行标定,如子类簇1,子类簇2……,这里称为“高脚杯类簇”等是为了便于说明该算法的思想。这里,paper中将每一个子类簇定义为一个attribute,至此,对于一个labeled sample(文中用“exemplar”术语来代替术语“sample”,我是这么理解的,不知道是否有错误?)而言,它同时拥有了两个标签,其中一个是catagory label(用来表示样本属于哪一类,如“杯子”类),另一个是属性attribute label(用来表示样本的属性,如“高脚杯类簇”,其实就是一种更细的划分)。因为一个sample的data有两种模态,一种模态是RGB数据,一种模态是Depth数据,所以文中分别在RGB convnet和Depth covnet进行分类和聚类操作,聚类的结果,paper中给出如下形式化定义:

Z^RGB = {ZRGB_1,...ZRGB_C} -------------------(3)
Z^depth = {Z^depth ,...Z^depth_C}

  1. Multitask Learning 分别在两个模态各自进行多目标分类器的训练。训练样本此时都是来自labeled pool。
  2. Co-Training 利用步骤2训练好的训练器,进行协同训练。用训练好的attribute分类器从unlabeled pool挑选出高置信的样本(此时样本根据attribute分类器贴上相应的attribute labels),根据公式(3)的对应关系,将attribute标签映射回catagory labels。RGB-attribute分类器选出的新样本在下一轮训练中给Depth-catagory 分类器使用,相反亦然(这是Co-training的思想)。attribute labels在下次迭代要重新进行凸聚类,因为这个过程是比较耗时的,所以实验过程中只在前5次迭代时每次都会重新凸聚类,以后的迭代会采用第5次凸聚类的结果。

疑问:

  1. Section 3.2 提到, 重构网络包含 12 层全连接网络用于编码?图中只显示了4层。
  2. Convex Clustering 中提到beta控制sparseness,而引用的paper中说的是beta控制sharpness,不知道这两个词是否是一回事。
  3. Convex Clustering 中提到的一个术语 exemplar 是不是和 sample 表达的是一个东西?
  4. Co-Training 中困惑是paper中等式 score()=f(), f是softmax function,所以score()应该是一个向量,那么为什么向量score()可以和标量tao进行关系运算?

你可能感兴趣的:(Semi-Supervised Multimodal Deep Learning for RGB-D Object Recognition)