《Handbook on background modeling and foreground detetion for video surveillance》阅读笔记

  • 书籍下载:鸠摩搜书上下载的。
  • 这本书是background subtraction主题的很好的一本综述,2014年出版的。关于传统的BGS算法是一个很好的归纳,但对于CV/ML方面的描述可能不是state-of-art的了。

1. 背景建模的步骤

1.1 背景建模

描述背景模型的类型,从本质上决定了模型处理单峰或多峰背景的能力。

1.2 背景初始化

 背景初始化(生成,提取或构造)涉及模型的初始化。与模型表示和模型维护相反,仅对背景模型的初始化进行了少量研究。主要原因是经常做出这样的假设:可以通过在序列开始时利用一些干净的帧来实现初始化。通常使用第一帧或开始的几帧或几十帧来初始化模型。主要挑战是,当训练的一半帧以上都包含前景对象时,如何获得第一个背景模型

1.3 背景维护

背景维护是模型随场景和时间进行自适应变化的机制。维护方案、学习率、维护机制、更新频率。

  • 学习率:可以自适应变化
  • 维护机制:学习率决定了对照明变化的适应速度,还决定了背景变化被纳入模型之前所需的时间,以及静态前景对象在被包含到模型中之前可以生存的时间。因此,学习率应对具有不同时间特征的不同挑战。为了解耦自适应机制和合并机制,一些作者[378] [320]使用了一组计数器,这些计数器代表像素被分类为前景像素的次数。当此数字大于阈值时,该像素被视为背景。这给出了一个像素可以视为静态前景像素的时间限制

chap4   Background Subtraction for Moving Cameras 移动相机下的背景提取

4.1 Introduction

  • 静态相机:传统的背景提取算法
  • 已知相机运动或场景运动受限,如云台的变焦相机:运动补偿将背景建模方法扩展到此类场景。
  • 动态相机:
    • (1)利用大数据训练检测器:行人、人脸、车辆、自行车。
    • 缺点1:当物体的外观变化有限时,此类算法最有效。但如行人检测器很难训练出合适的检测器来识别各种人体姿势、形状变化和预期不受约束的视频。
    • 缺点2:这些算法也不能以期望的准确率/虚警率去探测感兴趣的大量目标。
  • 在静态相机场景中,object-specific detector这种特定的目标检测器的性能,如虚警、漏检,远远比不上传统背景提取算法。而且detector检测器无法提供目标的精确分割结果,而只是在目标周围画一个检测框。
  • 相反,在动态相机场景下,检测器方法object detector不假定静态相机或静态场景,可以直接使用,但这些算法仍然存在三个基本限制
    • (1)检测器是从图像中来检测出目标的,因此无法利用视频的时间约束信息
    • (2)其次,即使再图像中,此类算法的性能无法达到实际应用的性能。 
      • Pascal2011的最佳people-detector的准确率为51.6%,cars-detector为54.5%若目标过小或被遮挡,性能将显著下降。
      • 最新的人脸检测器的准确率为70%,且超过1FPPI(false positive per image)。
      • 最新的pedestrian-detector对无遮挡的行人(像素高度为80pixel height)的召回率在1FPPI时不超过60%。
      • 广泛应用的DPM deformable part models可变性部件模型对PASCAL VOC2008数据集上行人的准确率是33%,对车辆的检测准确率是43%
    • (3)scaling these algorithms for a large number of classes is challenging。针对大量类别扩展此类算法具有挑战性。因为detector需要针对每一个类别进行训练。Dean表明Part-based models能够扩展到高校检测100K的类别的目标。然而在PASCAL VOC2007上的accuracy只有24%的precision准确率 
  • 视频分割——像素聚类

将pixel分组为时空区域,这些区域在appearance和motion上都表现出连贯性。视频分割的一些方法是 clustering of pixels from all frames or frames of a sliding window,对所有帧或者一个滑动窗口的所有帧的像素进行聚类来进行视频分割。步骤如下:

  • (1)提取多维特征:光照、运动特征等;
  • (2)在特征空间对像素进行聚类,在特征空间对Pixel进行group,然后进行clustering聚类。特征空间 分组+聚类。如GMM,mean-shift和spectral clustering频谱聚类。
  • 但是不知道该如何用分割后的区域在视频中去检测到感兴趣的目标。通常视频分割技术会对对象进行过度分割。因为一个目标可以连贯的运动,且拥有多个外观不同的区域。
  • 将检测问题描述为运动分割问题存在很多challenge。

4.3 基于运动补偿的背景提取技术

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(《Handbook on background modeling and foreground detetion for video surveillance》阅读笔记)