关于2009_CVPR_Linear spatial pyramid matching using sparse coding for image classification

       对于这篇文献一直纠结于nonlinear SVMlinear SVM。通过查阅文献及各牛人的博客,终于有一点明白这篇文献是怎么回事了。这篇文献主要是改进之前06年那篇。

       首先说一下06年那篇,这篇文献采用dense sift特征和SPM进行图像分类,sift特征提取就不说了,简单说一下SPMSPM全拼为spatial pyramid matching,即空间金字塔匹配,包括三个方面,一是对sift特征encode,编码方法为VQ;二是对VQ之后的特征向量进行pooling,这篇采用histogram 统计方法;三是用SVM分类时,采用histogram intersection核,很明显这是一种nonlinear kernel,所以是nonlinear SVM

        再来说一下09年这篇文献,这篇文献提出由于nonlinear SVM计算复杂度过高,所以进行改进,改进也是主要针对以上三个方面,一是对sift特征的编码方法,这篇采用SC,文中说有三个优点,此处暂略;二是pooling采用max pooling,当然pooling也用了pyramid;三是SVM采用linear kernel,即k(ZiZj)=ZiTZj 这样样本训练复杂度就降低了。

疑问一:既然linear kernel很好用,为什么不直接在VQ的基础上进行,毕竟SC计算量也很大,要迭代什么的

答:在histogram上用linear kernel效果很差,因为VQ的量化误差太大

疑问二:author 提出这种改进算法的出发点是什么,他怎么知道这样做效果会好呢,自己用他的代码试了一下,accuracy确实比较高,虽然说后面分类的时候complexity有所降低,但是前面SC也很耗时的说。

答:自己也不清楚,有机会请教author

纯属自己理解,望高手赐教。。

你可能感兴趣的:(算法,编码,性能优化,SVM,sift)