聊聊级联分类模型

进入正题之前,先来看看Stanford 教授D. Koller的research interests:

聊聊级联分类模型_第1张图片

OK,进入正题,本篇聊聊级联分类模型(Cascaded Classification Models)。该模型是斯坦福大学教授Daphne Koller的学生在顶尖国际会议 NIPS 中提出来的。作者提出的模型是用来解决如何整体上理解图像问题的。

计算机视觉的目标之一就是如何从整体上来理解一副自然风景,这里面涉及一些子问题,比如目标检测,区域标注以及几何推理等。Daphne Koller的学生提出了一种级联分类模型,这种模型可以同时学习一些有关联的模型,并且使得模型之间的效果互相提升。这种方法可以将场景分割,目标检测,多类图像分割以及3D重建等任务结合起来。

给定一张图像,通常有这样几个问题需要解决:

  1. 这是一张什么场景的图片,是城市,农村还是室内?

  2. 该图片由哪些有意义的区域组成?

  3. 该图片中有哪些物体?

  4. 该场景的3D结构是怎样的。

聊聊级联分类模型_第2张图片

不止计算机视觉中存在这种关联,类似的,在自然语言处理中,我们可能希望通过处理一篇文档,不仅要得到所有词的词性,也要得到相应的命名实体以及对动词标注相应的语义角色。在音频信号处理中,希望同时进行语音识别,信号源分离以及说话者识别等任务。

在作者所提出的级联框架中,每个分类器都有多个实例,首先单独学习第一层中地每个模型,通过训练得到效果最好的分类器,然后将原始数据和相对低层的模型输出集合结合起来输入到更高一层的模型中。

作者是缘何提出这种模型呢?下面来看下相关的工作。在计算机视觉中,文献[18, 2] 中将级联增强集成器 Cascade of Boosted Ensembles (CoBE) 框架用于人脸检测任务。另外,Kumar 和 Hebert [9] 将大型基于MRF的概率模型将多类别分割和目标检测结合起来。

级联模型中的每个分类器都是一个黑箱,每个分类器都有自己的数据结构,特征集以及推理和学习算法。具体定义如下:

0?wx_fmt=png

L是指共有L层。

本文讨论的问题是将级联分类模型用于整体场景理解问题。主要针对以下四个子任务:场景分类,多类别图像分割,目标检测以及3D重建。其中场景分类问题中利用的是简单的多类别逻辑回归模型。多类别图像分割利用的是成对条件马尔科夫随机场模型。目标检测是基于 Dalal 和 Triggs 的HOG探测法 [4]。3D重建是基于Saxena et al. [13] 马尔科夫随机场来做的。

实验结果如下

聊聊级联分类模型_第3张图片

聊聊级联分类模型_第4张图片

聊聊级联分类模型_第5张图片

聊聊级联分类模型_第6张图片

聊聊级联分类模型_第7张图片

0?wx_fmt=png

总结下本文所提方法的优点,这种方法简单,而且不限于单个任务,可以用于多个任务。

这种模型也有一些问题,比如,合适的深度如何确定?过深的话会导致过拟合。该模型没有考虑将高层中的分类器反馈给低层中的分类器。通过反馈,也许可以使得相对低层的分类器注意点有所集中,另外,也许可以使得相对底层的模型忽略一些不影响后续分类的误差。

参考资料:

[2] S.C. Brubaker, J. Wu, J. Sun, M.D. Mullin, and J.M. Rehg. On the design of cascades of boosted ensembles for face detection. In Tech report GIT-GVU-05-28, 2005. [4] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005.

[9] S. Kumar and M. Hebert. A hier. field framework for unified context-based classification. In ICCV, 2005. [13] A. Saxena, M. Sun, and A.Y. Ng. Learning 3-d scene structure from a single still image. In PAMI, 2008. [18] P. Viola and M.J. Jones. Robust real-time object detection. IJCV, 2001.

http://ai.stanford.edu/~koller/Papers/Heitz+al:NIPS08a.pdf

你可能感兴趣的:(聊聊级联分类模型)