论文:Pedestrian Detection in Low-resolution Imagery by Learning Multi-scale Intrinsic Motion Structures (MIMS)
通过学习多尺度固有运动结构,在低分辨率图像中做行人检测
由于地面采样距离(GSD)低,图像帧速率低,检测距离大幅面广域图像距离的行人是一个具有挑战性的问题。在这种情况下,基于外观提示的方法主要失败,因为行人的尺寸只有几个像素。基于帧参考和基于光流的方法也因空中视频中的噪声,相机抖动和视差而导致较差的检测结果。为了克服这些挑战,我们提出了一种提取行人检测行人运动模式的多尺度内在运动结构特征的新方法。 MIMS特征编码对象的固有运动属性,即位置,速度和轨迹形状不变量。提取的MIMS表示对噪声流估计是鲁棒的。在本文中,我们对所提出的方法进行了比较评估,并证明了MIMS在辨别低分辨率机载视频中的行人方面优于现有技术。
近年来,大幅面广域传感器越来越多地被用于持续的监视任务,包括边界安全,部队保护和空中监视。 广域传感器通常放置在这些应用的高塔,航空状态或无人驾驶飞行器上。 使用这种传感器的目标是在尽可能大的距离(最好在几十平方公里)的范围内以最大可能的距离检测感兴趣的目标和活动。 因此,这些传感器具有较低的接地采样分辨率,通常为0.3m-0.5m的接地采样距离(GSD),以便由于大图像尺寸而覆盖大面积和低帧率(2-5Hz)。自动分析工具 对于这种传感器至关重要,因为所监测的区域的大小和要跟踪的物体的数量超出了连续的手动检查。
现有广泛传感器的大多数自动化分析工具都集中在车辆跟踪/分类上。目前很少有现有工作集中在大尺寸广域成像仪的行人检测跟踪中。 这是因为在广域监控中跟踪行人有独特的挑战(见图1)。 广域检测的主要挑战是,极低的分辨率,即GSD每像素约0.3m至0.5m,因此行人只能在图像中覆盖4到9个像素,请参见图1.在这个尺度上,典型的 基于形状或外观的对象检测模型,如HOG [5],可变形部分模型[6]和基于形状的模型[2]不再对背景提供显着的区别。
图1:(a)显示了广角图像中单帧的部分。即使在放大视图中,行人也是一个黑点,大小几个像素。(b)示出了覆盖在背景顶部的50帧前景,其中诸如汽车行人(1),车辆(2,3,4,5)和视差(6,7)的移动物体的轨迹变得可见。值得注意的是,这种重叠的观点是在稳定之后。(c)示出残留像素,即与中间图像的背景不同的像素。剩余像素可以来自三个类别:移动物体,例如车辆,行人和视差,这些物体是静态的,但由于地平面上方的结构和注册误差而不能被全局运动所补偿。在所有的残差像素中,只有很小一部分属于行人,在右图像中被标记为红色像素。我们的目标是通过使用自我内在动作模式检测行人。
从广域空中图像检测行人的一个可行解决方案是利用运动。 大多数现有的基于运动的方法[18,21]使用背景减法,帧差和光流直方图(HOF)作为分类特征。 这些基于运动的特征对图像配准中的噪声和光流估计敏感。 因此,当行人在图像中仅包含几个像素时,这些特征的使用通常会导致高的误报率。
为了解决上述挑战,我们首先观察图1c中的剩余运动图像,后者是补偿全局摄像机运动后的运动。剩余运动来自运动物体(例如行人和车辆),视差和不可避免的注册误差。为了区分行人与其他人的运动,人们可以直接使用位置或速度来进行检测,但是这些特征不区分,因为不同类型的物体或噪声可能具有相似的位置,速度或方向。然而,我们认为,来自相同类型对象(例如,行人)的运动在诸如(x,y,vx,vy)的空间中形成一个歧管,并且我们可以从该空间中选择捕获对象的固有属性。一个这样的固有属性是运动拓扑的局部维度,即位置,速度和轨迹形状不变。因此,我们提出了一种基于局部流形运动拓扑来寻找局部维度做行人检测的新颖的方法。
然而,没有指定本地拓扑的比例,维度可能不是有意义的。作为一个例子,当从远方观看时,行人可以被视为一个点,而在仔细观察时它是一个3D对象。因此,我们将维度和尺度配对来建模行人的运动模式。这导致两个问题:1)如何鲁棒地估计维度; 2)如何获取正确的尺度。为了回答这些问题,我们提出了一种基于学习的张量投票方法。基本上,张量投票提供了运动模式的局部维度及其在特定尺度上的显着性。然而,在实践中,很难手动选择正确的尺度。因此,在我们的工作中,我们使用张量投票来生成各种抽样尺度的全部特征,并采用特征选择形成紧凑的区分表示。这些提取的特征编码了各种尺度的行人运动模式的内在特性。我们将这些特征称为多尺度内在运动结构(MIMS)功能。
总之,我们的贡献包括:(1)我们提出了一种新颖的方法来发现航空视频中行人检测的MIMS功能。 MIMS表示对于噪声是鲁棒的,并且对轨迹的位置,速度和形状是不变的。 (2)介绍了不变特征选择的学习策略,(3)对WAAS视频提出的方法进行了全面评估,并与现有技术进行了比较。
空中监视视频中的人体检测受到重视[18,21]。基于外观和逐帧运动的特征分析是文献报道的两个主要行人检测方法。
Reilly等[20]使用背景扣除进行检测,并使用几何特征来测量人们的身高与其相应阴影的大小之间的比例,以过滤非人类区域。如果相机和太阳的位置都是已知的,该比例在一个范围内。 [17]提出了一种通过测量标记样本和候选位置之间的外观相似度来识别行人的投票方法。候选位置由使用HOG描述符的SVM分类器预测。 Sokalski等[23]基于颜色信息开发了一个突出物体检测器。纸[10]使用两种方法从热UAV图像中检测人类。一个是将人类从非人类的热分类方面,热对比度和大小分类。另一个是使用形状描述符来提取和匹配人物剪影。 [7]也采用了类似的技术,即匹配人体热剪影。
与这些基于外观的低空无人机平台上的方法不同,我们正在处理较低分辨率的数据,每个像素的GSD约为0.3m至0.5m,因此行人只能在图像中覆盖4到9个像素。 在这种尺度上,上述典型的形状或外观模型表现不佳。
Lee [12]使用动作来检测凌乱的场景中的行人。 该方法包括提取移动人体的轮廓,并使用感知分组来减少检测过程中杂波和噪声的影响。 Yu和Medioni [24]在4D空间中使用运动结构分析方法进行车辆检测。 他们手动选择了几个本征结构的尺度,并利用分割来从4D运动空间中提取车辆运动。 Prokaj等人 [19]在机载视频中使用车辆检测的背景减法,并从初始轨迹学习车辆运动模式以改善跟踪。 Zhao和Medioni [25]提出了另一种基于投票的方法来学习定向运动模式,可以用来改进跟踪。
与我们的方法不同,上述方法既不尝试检测非常小的移动对象,也不分析多尺度的模式,以提取感兴趣对象的完整签名简档以用于检测。
图2:我们的方法的总体框架。 蓝色虚线中的模块是这项工作的重点。 我们使用类似于[11]的技术来稳定视频,使用刘的[13]的光流代码来产生密集的光流来馈送我们的行人检测算法。
总体算法框架如图2所示。给出了WAMI图像的视频剪辑,我们首先使用类似于[11]的方法来稳定视频。 稳定过程补偿相机运动并强制运动平滑度约束。 然后,我们计算每两个连续帧的稳定视频剪辑上的密集光流。
从多个帧中给出(x,y,vx,vy),我们使用张量投票来对投票过程中的空间和时间域中的不同邻域大小进行分组。 然后我们计算组的主轴,并定义(1)最大特征值差的索引作为运动维数d,(2)最大特征值差作为运动显着度s。 由于每个组是使用特定的邻居大小进行估计的,因此可以直观地认为运动逼真度和显着性以标度σ提取,并且(d,s,σ)被称为内在运动结构(IMS),其捕获内在特性 动议。 对于图像的每个像素,我们提取不同尺度的多个IMS,并连接以表示像素。 使用类似AdaBoost的方法来训练这种紧凑的多尺度IMS(MIMS)表示以检测在第5节中引入的行人。
在本节中,我们描述了我们的方法如何以特定的尺度发现4D空间(x,y,vx,vy)中的像素IMS的运动维数和显着性。
当2D点(x,y)以速度(vx,vy)在2D平面上连续移动时,实际上会在(x,y,vx,vy)的4D空间中产生运动形状。 2D点可以以一定的比例参考图像上的像素,补丁或对象。在4D空间中,我们将运动的时间形状称为光纤,其与(x,y)的二维空间上的轨迹不同。参见图3中的行人运动轨迹,例如2D轨迹对应于4D空间中的光纤。如果一组这样的2D点(例如同一物体上的一组点)在相似运动模式下移动,则它们基本上形成纤维束,其对于不同尺度的纤维呈现不同的形状。如图3所示,车辆的轨迹实际上形成了当前规模的纤维束。请注意,在不同的规模,纤维束可以是单纤维。
图3:车辆和行人运动结构的示例。红色轨迹表示行人,其对应于4D空间中的光纤(x,y,vx,vy)。 蓝色表示车辆,其对应于4D空间中的纤维束。
人们可能不会注意到光纤及其各个部件(例如,位置,速度)可以直接用于区分行人与其他物体,因为行人可以是具有不同速度的任何地方,即使它们的轨迹形状也可能类似于其他物体。 然而,来自相同来源或物体的位置,速度和运动轨迹的组合的特征共享可以区分行人与其他人的内在属性。这导致我们开发独立于对象的位置,速度和运动轨迹的新颖特征。 这样的内在表征捕捉到行人运动的基本几何特性,因此当行人变小并且背景变得更加复杂时,可以提供相当大的优点。
给定4D空间(x,y,vx,vy)中的样本,我们使用张量投票[16]对4D样本进行分组,因为其对噪声具有鲁棒性。 本质上,张量投票可以被认为是一种无监督的计算框架,用于恢复以对称非负定矩阵编码的本征局部几何信息。 该局部几何描述了移动物体的局部运动结构(即,运动维度和显着性),其可以通过将其本征系统检测为:
其中{λi}是以降序排列的特征值,{ei}是相应的特征向量,N是我们的4D空间为4的输入空间的维数。 方程1中的分解提供了一种解释运动局部几何的方法。
运动维数和显着性揭示了移动物体的局部运动结构。 运动维数d是两个连续特征值λi,λi+ 1之间最大间隙的索引数,即
运动显着性是两个连续特征值λd-λd+ 1的最大差异。 换句话说,其正常空间和切线空间分别为d维和(Nd)维的局部运动结构是对T的最显着的解释。相应的特征向量e1,...,ed跨越结构的正常空间 和ed + 1,...,eN跨越切线空间。
当计算IMS时,唯一的自由参数是控制投票中邻域大小的σ。 用于投票的σ的正确邻域大小通常是未知的,除非手工制作。 有趣的是,以前的作品在描述运动维数时经常被忽略。 事实上,只有当指定了σ时,运动维数才是有意义的。 例如,如图3所示的车辆运动的2D片材当其对应的空间尺度增加时(例如在显微镜下观察)可能变成具有3D体积的物体,或者当其相应的比例减小时缩小到线(例如在望远镜下)。
我们不用手工制作单尺度代表IMS,而是在多个尺度上对比尺度和维度,
其中di和si是尺度σi的固有维数及其对应的显着性。||σ|| 是秤的总数。 在这种表示中,可以以手工制作方式避免规模选择,并提高噪音增加的容忍度。 此外,多尺度表示能够捕获尺度变化时的维度变化,如图4所示。
图4:该示例演示相对于比例σ的运动维数(左图)和显着性(右图)的变化。 对于数据集I,我们从0.2到4(从左到右)选择20个均匀采样的σ。每行(A,B,C)显示来自相同对象类型的所有实例的平均统计值。 行A,B和C分别表示行人,车辆和背景。可以观察到明显的模式,例如行人(行A)的运动维度随着尺度的增加而保持减小,而车辆(行B)的运动维度首先增加降低。 背景维度(C行)随着规模的不断增加。
我们认为机载视频中的行人检测是二进制分类问题。 换句话说,我们的目的是区分行人的MIMS和其他物体的MIMS。 我们首先介绍如何从(di,si,σi)导出特征,然后使用Adaboost引入特征选择,以加快分类过程。
给定一个尺度σ,内在特征被编码成如式3所示的两个值(d,s),其中d∈N+,1≤d 对于二进制行人分类问题,样本被表示为元组{x,y},其中x是一个残差像素,y是类别标签,其值可以是+1(行人)或-1(非行人)。 某一尺度σ的特征值可以表示为 其中特征值可以被认为是2D查找表的2D索引。 假设我们用f来表示2D索引,那么 根据AdaBoost算法的实值版本,基于MIMS的弱分类器h(x)可以定义为分段函数 对于一定规模的每个固有特征,构建一个弱分类器。 然后,真实的AdaBoost算法[8]用于从弱分类器池中学习称为层的强分类器。 强分类器H(x)是所选择的一系列弱分类器的线性组合。 我们对两个数据集上的算法进行了定性和定量评估(见6.1节)。数据I是室内数据集。 数据集II是一种公开提供的空中视频数据集[20]。 数据集I由大约2.0Hz的帧速率的空中影像组成。 图像尺寸为512×512,GSD为0.25m。 图1(b)显示了捕获的图像的一个例子。这个数据集是非常具有挑战性的,因为行人通常只占用几个像素,而且行人的阴影根本看不到。 因此,基于外观的方法,如HOG人类检测器[5]和依赖于阴影的方法在该数据集上无法正常工作。 我们的算法不仅适用于广域空中视频中的行人场景,而且还适用于具有高分辨率行人的常规空中视频的情况。为了验证这一点,我们测试了我们在公共数据集上的方法[20](这个数据集II 纸张),其中行人通常占据20-40像素,而数据集I中的5-10像素。数据集II的图像分辨率为640x480。 两个数据集由三个序列组成。 我们使用两个序列进行训练,并留下一个序列进行测试。我们报告三次运行的平均性能。这两个数据集中的行人的真实标签的手动生成。 在这两个数据集中,我们考虑以下三种主要类型的残留运动像素作为非行人: 由于我们的地面真相标签是像素点的,所以ROC曲线的准确性以像素方式报告。 在[20]以后,我们不使用PASCAL测量50%的边界框重叠,因为我们的数据集中的行人非常小,占场景的很小百分比(<0.1%)。在这种情况下, 明智的结果提供比基于框重叠的措施更好的措施。 另外,我们报告每平方公里的误报。 为了比较,我们实现了两种类型的基线功能:基于外观和基于流的功能。 两者广泛用于行人检测。 以下是每个基准的实施细节: 除了MIMS的报告结果,我们还会报告中间特征的结果,如运动维数和显着性。 我们还使用替代歧管估计方法计算特征进行比较。 以下是实施细节: 图5:此示例显示从两个连续帧计算的流。 (a)表示原始图像,(b)表示同一图像的颜色编码流。 色相表示流动方向,饱和度表示流量大小。 (c)在相同图像上显示为矢量的光流。 由于遮挡和阴影,(3)的环绕声是嘈杂的(参见与车辆上的黄色箭头重叠的红色小箭头;(d)示出了图像上的LoG滤波器响应的示例。插图图像显示 行人的响应更接近于圆,而建筑物的视差运动可能导致错误检测的响应更接近于一条线。 表1总结了从数据集I每分钟每公里的检测率和假警报。为了验证基于外观和基于流量的特征对于低分辨率的航空视频中的行人检测没有足够的区别,我们进行了一组实验使用HOG,LoG和Frame-2-Frame流量特征检测行人。 HOG和流量特征都广泛应用于物体和行人检测。结果如表1所示。我们可以看到HOG和LoG获得了类似的结果,两者都比ID和MIMS差得多。这说明数据集I中航空图像的行人具有较少的区别性外观特征,这些特征无法区分行人与其他运动物体和噪音。虽然流量特征比基于外观的功能更好,但它也不能达到可接受的检测率。我们相信这是因为只有两帧的动议经常是嘈杂的。 有趣的是,结合MIMS和外观特征进一步提高了性能,如表1的每像素LoG + MIMS行所示。似乎告诉我们,尽管行人小,但是对比度敏感的过滤器可能仍然有助于检测。然而,MIMS仍然提供关键贡献,因为改进与MIMS相比并不是很大。 表1:数据集的定量结果I.覆盖率显示检测率,FPS显示在平方公里区域内的60秒(120帧)视频中测量的假阳性得分 其他歧管学习方法可能能够发现数据的内在几何结构。例如,扩散图也能够进行多尺度数据分析,并且显示出良好的效果[15]。然而,与张量投票不同,扩散图不能挖掘本征局部维数和运动显着性。我们可以看到表1中的结果,我们的方法比这个问题的扩散图更好。 图7:高斯滤波器的拉普拉斯算子,每像素MIMS和超像素MIMS的实验中的ROC曲线。基于超像素的方法优于基于突变的方法,并且高斯滤波器的拉普拉斯算子具有最低的精度。 为了进一步提高系统性能的效率和准确性,我们还在超像素上显示了结果。结果列于表1,优于其他所有方法。解决这个问题的一个原因是,超像素通过在逐帧的基础上显式地分组空间像素来利用张量投票。这降低了噪声对像素级别张量投票的影响。行人和车辆的超像素表示的示例如图6所示。图7比较了基于像素和超像素的方法的ROC曲线。我们给出了图9中数据集I的定性结果的两个例子。 图8:比较Reilly的方法[20]使用阴影。请注意,我们的方法不依赖于所有空中视频中可能无法使用的救生。 为了与文献中公开的空中视频行人检测工作进行比较,我们将我们的方法与[20]中的几何方法进行了比较。我们实现了(绿色)可比较的结果,达到最佳性能顺序(见图8,红色)。值得注意的是,我们的方法不依赖于任何阴影信息,这对于低对比度和/或低分辨率的空中视频的行人检测是不可靠的。 图9:来自两个视频剪辑的定性结果(通过放大4x最佳浏览)。左边的图像被捕获在一个购物中心,许多行人正在/建筑物中工作。正确的图像被捕获在餐馆附近,那里几乎没有行人出现。检测到的行人用红色圆圈标示,20帧内相应的轨迹以绿色显示。在左图中,检测到四个行人,一个是黑暗车辆即将停止时的虚警。在正确的例子中,有两个行人。一个人在路面上行走,另一个正在过马路。当车辆即将停止时也会出现虚假检测。我们相信这些虚警可以通过车辆跟踪成功地被去除,这比行人检测方法相对更成熟。 在本文中,我们提出了一种用于在WAAS监视图像中检测行人的新特征。我们的MIMS特征通过在多个尺度上计算运动歧管的固有维数和显着性来编码运动模式的局部结构。通过基于学习的方法选择歧视性量表。局部维度和结构估计使我们能够区分背景杂波,视差和行人车辆与噪声光流估计。我们的评估表明,MIMS功能优于用于行人检测的艺术外观和基于运动的功能。5.2 提升MIMS特征
六、实验
6.1 实验数据集
6.2 评估指标和基线特征
6.3 结果与讨论
七、结论