//由于博主目前正在做车辆跟踪方面的研究,看了一下这篇论文里面的文章,感觉还不错,就转了过来!
//不过这篇论文里面的用HOG+SVM和YOLO的方法作比较,我感觉有些不妥,因为基于特征点+SVM的车辆跟踪方法速度确实有点慢,但是基于其它方法的车辆跟踪方法,
跟踪的帧率还是不错的,当然鲁棒性也不错,比如博主现在研究的基于粒子滤波后验概率的车辆跟踪方法
作者:Kaspar Sakmann
Twitter
Facebook
对于Udacity(优达学城)自动驾驶汽车纳米学位的汽车检测和跟踪项目,如果使用传统的计算机可视化技术将是一个挑战,就像方向梯度直方图(Histogram of Oriented Gradients,HOG)和其它特征组合在一起在视频里跟踪汽车一样,理想的解决方案应该是实时运行的,如>30FPS,我曾经使用线性SVM来处理视频,在一台i7 CPU计算机上得到的结果只有可怜的3FPS。最后我使用YOLO来处理视频终于通过了Udacity的项目,YOLO是一个超快的用于对象检测的卷积神经网络,如果你的GPU够快(我当时使用的是GTX 1080),视频处理的速度可以达到65FPS,比我用SVM+HOG的方法足足快20倍。
使用YOLO来处理Udacity汽车跟踪项目视频在检测汽车时表现优异
我使用了KITTI和GTI数据集,以及来自项目训练仓库的一些其它数据,只有两类数据:有车的和没有车的,GTI数据从视频流获得,因此所有图像都完全是随机的,然后被分为训练和测试数据集,在训练和测试数据集之间建立相关关系,我将每个数据源30%的数据集作为验证和测试数据集,所有图像都被重置为64x64像素的大小,以便于特征的提取。
我使用的特征向量如下:
在这篇博客里有关于HOG特征的详细描述,其思想始终是,在一个直方图里,在一个图像上聚集梯度,让特征向量在不同视角和光线条件下变得更加稳定。下面是HOG特征应用于有车的和没车的图像上时的可视化呈现。
HOG特征,从左边开始的4列:训练数据和它们在HLS颜色空间里的通道,右边3列:每个通道HOG向量的可视化效果
最后一个特征向量包含前面3个不同方法提取的特征,因此有必要对每一个特征进行计量,防止因取值范围不同导致某一特征占主导地位,我使用了scikit学习包中的Standard.Scaler函数,通过移动平均值和按比例缩放到单位方差来标准化特征。
和其它分类和检测问题不同,检测汽车需要强实时,因此,要在高准确性和速度之间取得平衡,影响性能最主要的两个参数是特征向量的长度和汽车检测算法,线性SVM在速度和准确性之间提供了最好的折中方案,比随机森林(快但准确性不够)和非线性SVM(rbf内核,非常慢)的表现要好得多。最后测试时使用了一个包含6156个特征的特征向量,准确性超过了98.5%,但仍然有将近1.5%的像斑时不时的晃眼,特别是车道线、事故故障和栏杆。
尽管有98.5%的的准确性,仍然有像斑分类错误
通常情况下,汽车检测和摄像机使用滑动窗口扫描图像一帧一帧记录类似,对每个窗口而言,通过计算特征向量并输入到分类器中,汽车在不同距离出现时,有必要搜索多个尺度,通常会有100多个特征向量需要提取,然后输入到分类器中,对每一帧图像进行处理。下面是正面检测大约150个窗口的例子,不出意外,仍然会有一些失误。
为了过滤掉误判结果,我一直跟着检测窗口直到最后30帧,只考虑被准确识别的图像,最后有超过15次检测被记录下来,我用热图来呈现最终结果,可以看到噪点大大减少,如下:
左图:一帧的所有检测窗口。右图:最后30帧的热图
通过热图的阈值,包含所有非零值的热图最小矩形边界框就可以确定下来。
左图:15次检测生成了关键的热图阈值。右图:画出边界矩形的最终效果
在视频中应用全部通道后,围绕汽车画出的矩形边界如下所示:
视频链接
从2005年开始,使用HOG特征和线性SVM是最佳选择,直到最近,出现了非常快速的对象检测神经网络,对象检测速度可以达到准实时。我下载了暗网(darknet)仓库里的代码,使用YOLO处理项目视频,只需要稍稍修改一下代码,允许直接保存视频,结果相当让人吃惊,检测时并没有使用滑动窗口,但速度仍然非常快,一帧图像通过网络时只需要被处理一次,因此称之为YOLO--“you only look once”。
视频链接
用神经网络来处理一整幅图像与提取每个像斑的特征向量然后用SVM来处理相比,前者的代价更大,但是,对一幅图像来说,这种方法只需要处理一次,而SVM+HOG方案需要处理大约150次。上面大家看到的视频,我还没有进行过优化,如减少图像或定义兴趣区域,或者针对汽车做特定训练。在准确性相当时,YOLO比SVM+HOG要快20多倍,检测阈值可以被设置为任意置信水平,我保留默认值(50%),并且除了汽车之外不再检测其它对象,这让我相当兴奋,我将在另一个独立项目中进一步验证汽车检测的可能性。
以上为译文。
文章原标题《Vehicle tracking using a support vector machine vs. YOLO》,作者:Kaspar Sakmann,译者:耕牛的人,校核:主题曲(身形)。
文章为简译,更为详细的内容,请查看原文。