采用多帧时空窗滤波和行人热成像特征相结合的方法进行红外视频滤波;采用种子区域生长(SRG)算法进行夜间行人检测;采用红外和可见光视频融合方法增强检测效果。这些措施使得夜间运动行人检测结果更加可靠有效,行人及其所处环境信息更加清晰直观。
夜间行人检测是视频监控及运动目标检测中的重要研究内容之一。夜间光线较弱,可见光摄像机能拍摄到的目标成像信息(颜色、纹理、形状等)非常有限,如图 1(a)所示。单用可见光像机进行夜间行人检测,效果往往不理想。热红外像机可以探测到目标的热信号,并可以对热信号成像。目前将两种摄像机结合起来进行夜间行人检测是一个值得研究的方法。
在热红外图像中不可避免地存在图像热噪声,如图 1(b)所示
这些视频热噪声的来源较多,例如环境中存在干扰热辐射源、摄像机器件固有热噪声等,完全消除热噪声往往非常困难,因此在行人运动检测前,首先要进行红外视频滤噪。
该文研究夜间行人检测问题,检测环境为夜间室外环境。当然该方法并不局限于检测行人,也可以用于检测车辆、船只等目标。与该文相关的研究工作如下:
J.Davis 等人提出用两步模板法检测夜间行人,取得一定效果,但检测结果与模板选择关系密切,当模板选择不当时检测效果不好。Dai 等人、Nanda 等人提出基于形状和外观的混合算法,但是限于红外成像固有的特点,虽能检测到夜间环境中的行人,但不能得到行人所处的周围环境信息,与人眼视觉习惯不太符合。Davis 等人提出融合红外和可见光视频,并用背景差分算法检测行人,比使用单类摄像机效果要好,但该算法计算量大,检测速度较慢,不能满足夜间监控的实时性要求,而且当监控场景变化剧烈或摄像机运动时无法检测到行人。此外,红外视频中还有热噪声问题,也对行人检测结果产生不利影响。
在红外视频滤噪问题上,空间滤波器仅仅考虑空间信息,当噪声较严重时,容易造成图像模糊;时空滤波器(Spatial-Temporal Filters)采用时间上连续的帧序列和空间信息进行滤波,多数情况下效果要好。该文在这些算法的基础上,进一步利用行人的热成像特征进行视频滤波,所得到的滤波图像更加清晰稳定。
2.1 视频数据集
使用 AIC热红外/可见光夜间数据集,该数据源包含一个可见光视频序列和一个热红外视频序列,该视频序列已经过 譫Canaire 等人对准,如图 1(a)(c)所示。关于两个视频序列对准的方法可参考文献的内容。
2.2 时空滤波器算法和目标热成像特征相结合的红外视频滤波
2.3 基于形状及面积特征的运动目标检测
滤掉暗区背景点和热噪声像素点后,进一步在红外视频每帧逐行逐列搜索亮区像素,如果找到,就从该像素点开始进行种子区域生长(SRG)。区域生长的结果是将滤波后的视频帧分割成多个独立亮区域。
这些独立亮区域可能由几种因素形成:一是大尺寸热源干扰;二是其他运动目标(如汽车等物,不属于该文的研究对象);三是行人。根据这些亮区的形状及面积特征可将行人筛选出来。
在 J.Foster提出的基于面积的筛选方法基础上,进一步采用面积筛选和行人高/宽比的筛选方案。当摄像机焦距和行人物距范围大体确定时,行人在视频中成像面积也在一定范围内(假定不小于阈值 T3像素),且行人图像高/宽比介于 T4~T5之间(这些阈值可以在具体的场景中通过实验测到),则容易通过这些特征从上述独立亮区域中将行人筛选出来,进而可以比较稳定地检测出夜间红外视频中的行人轮廓、形状以及位置信息。
2.4 基于热红外和可见光视频融合的行人检测结果增强
从上述方法可以看出,筛选检测到的行人信息仅包括目标本身,不包括行人所处的周围环境信息,这种检测结果往往很不直观,如图 3。因红外视频中环境背景成像信息微弱,不能反映目标所处环境的信息,不便于人眼观察,如图 4(a)所示。为此,将红外视频检测结果和可见光视频融合,以使处于黑暗区域的行人被人眼可见,且使检测结果能够反映行人所处的环境信息,更加清晰直观。
3 实验和参数讨论
实验在 PC 机上进行,硬件配置为 P4 2.8 GHz CPU、1 GB内存,采用 Visual C# 编程。红外视频滤噪结果如图 3 所示,行人检测结果如图 4 所示
在图中用矩形框标记行人检测的结果。实验中视频幅面为 320×240 像素,视频检测帧率为6~7 f/s.实验参数如表 1 所示:
该文方法和模板匹配方法和背景差分方法相比,优点在于它不依赖于目标模板和背景模型,因而不仅能用于摄像机固定的场合,也能用于摄像机运动的场合(如车载摄像监控、移动机器人视觉跟踪系统)。同Conaire(2006)的研究成果(图 4(d))相比,用两种视频融合得到的夜间行人检测结果更加稳定,行人所处环境信息更加清晰直观。
4 结论
算法融合可见光和红外两种视频信息,使行人检测结果更直观,能够提供视觉丰富的环境信息。首先,通过时空滤波技术和目标热成像特征对红外视频进行滤噪,然后根据红外视频中的亮度信息用区域种子生长算法进行运动目标分割,再根据区域形状及颜色信息进行目标筛选,最后将红外和可见光视频融合起来增强检测结果,使视频中提供的信息更加丰富。