最近开始看Tracking-by-detecion方面的论文,Tracking-by-detection应该是近几年tracking方面比较时尚的一个话题。这方面的研究大概兴起于Shai Avidan发表的两篇论文
[ 题外话Avidan来自以色列(PHD @ Hebrew U),个人认为以色列在CV方面的研究和应用(指公司)都相当厉害,考虑到它的领土面积与人口数量 ]:
(1)pami04 Support vector tracking
(2)cvpr05 Ensemble Tracking --〉pami07 Ensemble Tracking
现在一些这方面的paper都会引用上述两者,不得不佩服Avidan,这几篇paper他都是第一且唯一作者。简单的说,Support vector tracking 采用的是off-line训练的SVM分类器,在视频序列的目标定位(object localization)采用了KLT的类似推到方法,所以可以像Mean Shift一样迭代若干步到达Confidence的局部极大值点(这篇paper看了有段时间具体记不清楚了)。而他的cvpr05和pami07 paper采用了当前火的不行的Boosting方法(当然SVM也是时下非常流行的learning method),与他的SVM-Tracker最大的不同是Ensemble-Tracker采用在线学习的方法,但本质还是batch AdaBoosting的方法,没有做到真正的On-line,他对每帧得到的数据进行一次学习,更新他的weak learner和Strong learner。在他的pami07 paper中有非常详细的介绍,所以想要知道具体实现细节Journal paper还是值得一读的。
SVM-Tracker与Ensemble-Tracker的另一点区别是,前者将目标作为一个整体来处理;而后者将目标视为像素的集合,在每一帧中收集前景(目标区域)和背景(目标区域外围)的像素集合,并把它们作为正负样本集训练经典Adaboost分类器。个人更倾向于用目标整体信息或者说局部特征而不是纯像素颜色信息作为目标的描述,这样说主要是参考了论文:
(3)ijcv08 Incremental Learning for Robust Visual Tracking,早先版本见eccv04和nips05。
它采用incremental PCA学习不断在线更新目标表观。来自U of Toronto的David Ross,为什么要提到他呢,除了他是个N人之外,他的David系列视频已经成为检验Tracker性能的“标准”测试视频 [ 在tracking方面没有统一的检测标准,David系列视频因其challenging(表观,尺度变化等)被广泛使用 ]。另外,不得不说的是这篇IJCV08论文是到目前为止我比较崇拜的工作之一,他的理论推导和实验效果非常“完美”,另外他的coding非常非常非常好,code使用Matlab写的,几乎没有用到循环,唯一用到循环的地方采用了C code interface,这是我非常崇拜的地方(确实要用C完全实现他的方法是由一定难度的[对于我这种小菜],不是增量PCA反而是粒子滤波方面我感觉是C代码比较难处理的)。
小结一下,Tracking-by-detection,我想更加宽泛可以叫做Tracking-by-learning,它的主要思想是将tracking问题转化为二类分类问题(detection),detector是要你想办法学习的,无论是off-line还是on-line。这方面的其他工作包括on-line boosting/semi-supervised on-line boosting/MIL/random forests based methods,这些方面的学习感想希望能在今后陆续放出。
没有逻辑的讲了一些,我觉得这个beginning可以到此结束了。任何错误和有不足之处希望大家提出。
---------------------------------------------------------话说么有图片的博文得不到关注的机会---------------------------------------------------------
fig.1 Ensemble-Tracker,第一行是目标区域和背景区域,训练集像素就来自这两个区域;第二行是confidence map,它的极大值点被认为当前帧的目标位置
fig.2 David测试视频,大图为跟踪效果,小图为当前表观,平均表观和PCA的基向量等