1.简介
背景减是大多数视频分析应用和目标识别的第一步,简单的通过多帧比较像素值的方法是不实际的,因为真正的视频经常包括噪声的异常值和动态元素(光线变化、起伏的物体等等),这些元素 有可能都被误判为前景目标。近几年出现了很多复杂和精密的算法来解决这些问题,满足实际需要。
本文作者提出的是"all-in-one",单一的模型,单一的更新原则,无训练,基于无参数的VIBE算法来实现背景减。作者不仅仅使用像素级(例如VIBE)来进行背景建模,结合LBSP来对模型进行补充。在本文中我们也对改进算法的结果进行了展示,算法命名为LOBSTER。
总之,使用提出的方案,使用最新发布的CDNet数据进行了标准化的评价,证明我们充分利用了视频序列的空间和时间信息,与其它相对较复杂的算法相比我们的算法结果更优。并且我们在处理速度、内存存储、后处理操作与其它的方法相比仍然较好。
2.相关工作
最简单和最早的识别目标算法是基于独立的背景模型,随后把当前帧的像素值与背景像素值进行比较判断该像素是否为前景。这种基于像素级的背景建模方法是广泛使用的,例如基于密度估计(通过参数的混合高斯或非参数的核密度估计)是现在广泛知道的,近几年也有很多基于此的改进算法。其它的采用不同的观点的方法:例如Vibe和PBAS两个都是基于像素的方法,但是他们与传统方法是不同的,他们基于他们的模型自由的像素模型和标签扩散。
虽然基于像素的方法通常是很简单的、高效的并且很容易编程实现,他们忽略了视频序列中的部分信息,例如像素之间的空间相关。基于空间的方法(与基于区域、基于纹理或基于连通域方法本质上相似)努力利用这些信息,例如特征或模块描述、基于运动分析和局部颜色直方图来达到增强他们的模板。这种方法的思想对于前景遮挡或前景与背景颜色相近和全局光线变化(纹理未受影响)都是有益的。
其后,基于时间和空间的方法努力超越之前的方法他们解决了不断重复运动的目标,这样的信息能够帮助解决信息频繁的变化,例如动态的背景(水、晃动的树)。解决问题的方法可以参考[22],它是基于双方向的时间分析并匹配像素的变化。
有很多的尝试来合并这些不同方法的以实现目标识别,这些方法主要依靠大量的分析技术、后处理确认和形态学操作。然而这些技术虽然在目标提取上的效果不错,但是需要增加很多的计算时间(后处理),一些方法有些时候甚至需要离线训练或预分析,这些不适合实时应用。
随着使用LBP和他们在背景减的衍生算法,Heikkila和pietikainen首次介绍了一个第一个可靠的和高效的基于结构的方法。从此许多的竞争者提出了很多的改进算法:Yoshinaga[28]例如提出了一个基于空间和基于像素相融合的方法,使用MoGs来改进LBP使用不同的像素对。Zhang[29]提出了集合空间结构和时间运动使用LBP直方图权重的方法。最近,一个新的LBP基于自相似图像(LBSP)被提出了并且与基于像素的相比较,证明了该方法是有效的。
3.形态学
如前所述,我们提出的背景减方法是基于自适应结合LBSP特征和非参数技术建立模型和维持算法规则。我们选择从原始的VIBE算法开始,因为它提供了灵活的简单的方法,并且留下了很多改进的空间。最后它也能提供一个简单的方式来比较像素得到我们的结果,并且它并没有偏离它最原始的应用太远。
因此,对于这种自适应的直截了当的方法可能就是简单的替代所有像素——与他们特征描述相关的。在VIBE中这种方法可能基于一个模型,每个像素使用N个背景值来决定新的像素值是否是前景:这种差异会存在于特征中,用LBSP二值描述来代替,并且在这种方法中使用Hamming距离操作进行比较。在实际中,这种解决方法是灵活的,我们提出多重的低运算在这个模板规则和特征描述中,来达到协同运作的最大化。
3.1 像素特征模型
[3]中提出的特征描述是很容易理解的:使用一个小的预先裁定的特征,一个二值矢量通过比较一个感兴趣点周围的像素来进行构造。传统的LBP方法是计算两个值得不同,不同于LBP,LBSP方法返回他们是否相近(通过独自的不同)。时间成份的关键(对于光线变化敏感)在于它能够使用之前帧的中间像素进行比较(被作者称为图像间的LBSP)。因此,这种算法的一个优势是对于运动目标能够建立一个空间相关的模型,我们需要对于特征信息和像素一起进行更新。
我们改进的背景模型能够解决LBSP对于噪声和模糊区域不适应。这种情况可以参见图1:
图1.典型失败的例子当只是用LBSP特征进行目标识别;(a)背景模型;(b)例举了一个内部的LBSP在高亮区域的特征(黑蓝色区域标识与当前的像素不匹配,绿色表示匹配),(c)是输入帧图像,(d)例举了一个图像间的LBSP与(b)相同的位置坐标,并且使用(b)的中心像素做为参考,(e)显示了由于局部特征被认为相似(由于目标边缘的噪声而被错误匹配)
这个特殊的区域,我们能够注意到及时输入的图像(下面行)与背景(上面行)明显不同,一些像素仍然被错误的标记为背景由于他们的内部的LBSP和图像间的LBSP的二值矢量稍微的不同。这些特征(l.b和1.d)被不匹配的填充,并且很相似;这是因为非代表的相关像素被使用做为局部比较(1.b中间像素)。直接与输入视频的像素值比较可能判别这个像素点为前景。然而,标签分配也要依靠颜色比较来降低我们结果的错误率。使用这个新方法,我们充分利用模型中微不足道的未被开发的像素信息。在3.2中可以看到一个简化的和详细的步骤。
下面,让我们简要介绍LBSP,LBSP是独立的并且如果他们被给定了一个阈值,它的值被认为是相似的。在[3]独立的阈值Td被使用,灰度图像规则被描述为如下:
其中ix,y是(x,y)的中心像素(不论是当前图像的内部LBSP还是相关帧的相关LBSP),ix,y,p是在预定义的特征的(x,y)第p个领域。用与ix,y相关的值替代Td能够很好适应光线变换;一个相似的原则已经被应用在LBP中[14].本文我们简单的改变描述原则:
其中Tr是新的相关阈值。
3.2 分割和维持规则
如我们前面所介绍的,VIBE方法利用随机的方法建立背景模型,通过像素与背景模型中的像素进行比较判断是否是前景。作者也提出了许多的改进算法包括距离计算和后处理操作[5],为了使我们的算法更简单,不使用这些改进的算法。我们提出一些对原始技术的改进,能够全局的提高我们的结果,保持方法计算量尽可能小。
首先我们发现[1]中提到的L2距离或EUcliden距离在计算多通道的相似性时不是较好的操作,与L1距离或city-block距离相比它的结果更差。因此,我们决定使用L1距离比较样本之间的相似性,例如颜色比较。
由于采用LBSP算法样本和比较的量都增多,为了避免计算量的增加,我们采用每通道策略。因此,为了实现多通道,在规则1中我们使用简单的方法决定哪一个像素与相关模型匹配。在本文中的标识和分表表示c通道在(x,y)内部LBSP描述因子和c通道在(x,y)的背景颜色值,是Hamming距离,异或运算,LBSPc(x,y)计算c通道(x,y)位置的相关LBSO二值矢量,Tdesc和Tint分别标识最小化的LBSP和决定前景的颜色变化阈值,K是一个不变的调节因子阈值。
这识别策略,当k<1和大多数情况真正的前景与背景是明显的不同,如果一个通道能够评价出来,则会减少很多计算量。例如,如果我们需要至少一个9bit变化在LBSP二值矢量来观察RGB图像的像素,则采用K=1/3,如果它的某个通道返回改变值大于或等于3bits则立刻被标识为前景,不论总的变化是什么样的。在最糟糕的方案中(当前帧与模型非常的匹配),每个像素只有2*TotalNBChannels整数比较。改进的算法更注重提高处理速度,另一个优势是K可以足够的小,在单个通道中我们也能够识别细微的变化(例如一个暗蓝色的目标隐藏在一个黑色背景中)。更多对本算法的评价可以看4.2。
4.1参数
如一些空间和时间的方法,我们期望我们的算法比像素级的算法背景更够更好的适应噪声变化,事实上,我们采用5*5的区域会产生16bit的特征值,我们必须要小心的调整我们的参数为了得到更好的结果。为了适应CDNet的规则,参数设置如下: