原创手打,转载请注明出处。如有疑问或者错误,留言即可。 讲稿ppt: http://download.csdn.net/detail/xuanwu_yan/4852558
2014.4.28更新:Matlab with C mex实现方法已传至github,方便大家直接下载。传送门
Boosting Bottom-up and Top-down Visual Features for Saliency
这篇文章的作者是Ali Borji,Pdf,三篇cvpr_2012,明年有篇TPAMI
本文主要提取低层(low-level)和高层(top-down)产生的saliency map的集合成为该点特征,并使用leave-one-out的方法用三种分类器(Regression,SVM,Boosting)在三个数据集上训练测试,与真人观测得到的眼动数据ground-truth对比,在三个度量(AUC,NSS,CC)上发现Boosting得到的拟合眼动数据效果最好,最后在ROC曲线上与其他方法得到的saliency map进行对比。
本文的主要出发点是一个贝叶斯公式的推导,在具有特征f的某位置x是salient的概率p是等式的左边,有如下
此处假设f与x相互独立,且先验概率p(s)相同,所以可以得到正相关最右。又有:
即与图片中心点的欧式距离相关,所以本文主要研究的是特征点和salient的对应关系。
接下来说说feature的来源。
视觉特征的底层特征提取:色强,方向,颜色值。
图片先缩放200x200,然后用下面的4类方法提取特征,像素级。
高层特征,包括人脸,文字,人体,车,对称的东西,引导注意的标志符号等。提取比较困难,因为情绪和动作因果关系包含且无法检测,文字检测也没有好的算法。
综上,底层和高层加起来,每个pixel就对应一个34维的feature,然后化为200x200的map,
提取feature就到这里,下面介绍三个分类器。
采用online learning,先将feature matrix归一化,使其平均数是0,标准差是1,然后建立一个等大小的label map,每个点取值+1/-1,人眼观测的预测结果,top 20%标注+1,bottom 40% 标注-1。他将数据集分为N组,然后使用leave-one-out的方式进行训练和测试。测试的分类器包括:线性回归(Regression),线性核的SVM, 以及boosting方法。从实验结果对比来看,非线性的boosting方法取得的效果是最好的。
三个分类器我就不讲了,看我ppt吧,主要是我也不会。。。。
train->test之后就得到了saliency map,用三个评价指数比较关注点预测和显著对象检测的对应关系,发现很好。
然后是三个度量的对比,看不清的话看论文。
最后是salient的ROC curve