《小超教你写论文》系列第二篇-公式推导

在《小超教你写论文》系列第一篇,我们对中科院自动化所的文章《RobustMulti-Resolution Pedestrian Detection in Traffic Scenes》进行了翻译。但想要写出自己的论文,仅翻译别人的文章是不够的,还要理解它。这是系列的第二篇,将对文章中的公式进行解释和推导。

公式(1):

               (1)

这是DPM模型的评分公式,前一部分表示具体特征的匹配得分,后一部分表示空间位置的得分。不太清楚的可以参考massikkk的点击打开链接。

公式(2):

            (2)

这个公式中最重要的是和,它们就是本文的创新点,即分辨率敏感变换(Resolution Aware Transformation),通过它们,将不同分辨率下的特征投影到同一子空间中,进而使HOG特征,即公式中的变得分辨率不变(Resolution Invariant)。

公式(3):

 (3)

这是DPM中的目标函数,也是优化的标准。在DPM中,是一个重要参数,在massikkk翻译的点击打开链接文章中,Felzenszwalb大神通过迭代计算出部件位置和。

公式(4):

     (4)

这里也是作者的创新之一,由于作者将对象分为共分辨率和低分辨率两种,且分辨率敏感变换(Resolution Aware Transformation)参数和又未知,故在目标函数中,应该包含这两项。于是作者将目标函数分为三个部分,其中后两部分分辨用于处理两种分辨率,且作者还提到,如果有更多的分辨率类型,直接在公式中添加即可。(ps:这样处理是可以,但你直接将两者相加作为目标函数真的合适吗?一会我们会看到作者在优化时是分开优化的,可是你分开优化却一起评分真的准确吗?当然,很有可能是我没弄明白,毕竟人家是能发CVPR的大牛,而我却是一篇EI都没有的小菜)

公式(5):

(5)

这个公式是对公式(4)的补充,公式(4)中的后两项即为这个形式。

公式(6):

  (6)

这个公式是公式(4)的变形,也是非常重要的公式。因为通过这个公式,作者确定了参数。通过公式(6)和massik翻译文章的对比,我们发现公式(6)的确是Latent-SVM形式,可以用Latent-SVM solver来解决。但如何从公式(4)推导出公式(6)呢?

要完成推导过程,我们需要点研究生课程《数值分析》和《矩阵理论》的知识。我们需要知道什么是Frobenius(佛罗贝尼乌斯)范数,及它的一些性质,还有迹(trace)的一些性质。下面给出一个简单推导。

同理,

   故,

对于公式(6)的第二部分,也简单推理一下。

 

这样,公式(4)就可以转化为公式(6)的形式。

公式(7):

    (7)

这个公式也是文章中非常重要的公式,因为从这个公式中,作者确定了重要参数,并用相似的公式同样的方法,确定了。我们先推导下公式。

再根据公式(6)的推导过程,可知;

再来看看公式(7)的第二项:

由于,

故;

作者在文章中说如上就可以从公式(4)推导到公式(7)。但我们发现,公式(7)并非与公式(4)相同,而是与公式(5)相同,而公式(5)只是公式(4)的高分辨率部分。作者分别在高分辨率和低分辨率的情况下优化出使式子最小的和。由于作者分别在高分辨率和低分辨率两个样本集中分别优化,且作者也提到了和是独立的,所以这样优化没有问题。但问题是,作者分别在两个样本集上训练的和能用来描述所有分辨率的行人吗?作者实验证明这种方法是可用的,的确两个变换都是各自的最优解,合起来使用的确比一般方法更具普适性,但我觉得分别训练出的最优参数合起来使用,对整体来说未必是最优参数。我觉得用混合样本训练出的整体最优可能更好一些。

后面还有公式(8),(9),(10),(11),(12),用来说明作者提出的行人-车辆模型,其中没有特别创新的地方,且只是在此样本集上有一定的实用意义,通用性并不强,所以就不再进行解释了。

写到这里,《小超教你写论文》系列第二篇就结束了。本来系列第三篇准备写这些公式的具体代码实现的,但刚刚觉得在实现之前应该先熟悉一下数据库的使用方法。所以系列的第三篇应该会写Caltech Pedestrian Benchmark的使用方法,可能的话,用一些以前的方法先做些实验。


你可能感兴趣的:(计算机视觉,行人检测,CVPR)