由于课题的需要,此前粗略的了解过kinect的有关资料,现在开始系统的学习,主要通过Kinect应用开始实战一书进行学习,同时关注课题重点的人脸中追踪和头部姿势估计部分。
一、Kinect的硬件设备解剖
两款Kinect传感器对比:Kinect包括两种类型,分别为配套Xbox使用的Kinect for Xbox 360和Kinect for Windows,从外观上来看,两者几乎没有任何区别,只是LOGO上的不同,另外K4W版本的USB电缆被缩短了。
新版的K4W固件进行了升级,支持近景模式、提升了骨骼跟踪等API的性能、更好的兼容各种Windows计算机、采用更为先进的声学模型。
PrimeSense技术是Kinect传感器系统的基础,是Kinect的心脏。Kinect有三只眼睛,自左向右分别是红外投影机、彩色摄像头、红外深度投影头。还有四只耳朵:L行布局的麦克风阵列。
心脏——PS1080 SOC
具有超强的并行计算逻辑,可控制进红外光源,进行图像编码并主动投射进红外光谱。同时通过一个标准的CMOS图像传感器接受投影的Light Coding TM红外光谱将编码后的反射斑点图像传输给PS1080,PS1080对此进行处理并声称深度图像。
三只眼——投影机和两个摄像头
从左向右,分别是OG12/0956/D306/JG05A红外投影机、VNA38209015CMOS彩色摄像头,以及Microsoft/X853750001/VCA379C7130CMOS红外摄像头。中间的摄像头提供了彩色图像,剩余的两个元件通过发射/接受红外线,来提供深度数据。获取深度数据的原理如下:红外投影机的普通激光源透射出一道“一类普通激光”(Class1 Lasor),这道激光经过磨砂玻璃和红外滤光片,覆盖Kinect的可视范围,红外摄像头接收反射光线,识别目标物体的深度场(Depth Field).
红外投影机:红外投影机是Kinect最左侧的哪知眼睛,它与最右侧的红外摄像头配合使用。PS1080 SoC(系统级芯片)对红外光源进行控制,一变通过红外光编码影像放映场景。红外投影机的光源是一类普通激光光源,经过磨砂玻璃和红外滤光片,投射出近红外光,该光波长为830mm,可持续输出,符合一级安全标准。红外摄像头是一个标准的CMOS影像传感器,负责接受放出的红外光,并将红外光编码影响传给PS1080。PS1080负责处理红外影像,然后逐帧生成准确的场景深度影像。
彩色摄像头和红外摄像头:为了让深度影像和二维标准彩色影像相互对应,必须进行注册。注册就是将色彩影像和深度影像进行对应,产生像素相互对应的影像,即色彩影像中的每个像素分别与深度影像中的一个像素进行对应。这样让应用程序准确的了解到的色彩影像中的每个像素深度。所有传感器信息(深度影像、色彩影像和音频)通过一个USB2.0接口传送给主机,且时许一丝不差。通过Kinect SDK可以获得同步的深度图像和彩色深度图像数据流。
麦克风阵列:Kinect麦克风阵列是左右不对称的,音频系统采用四元线性麦克风阵列。阵列技术包含有效的噪声消除和回波抑制(Acoustic Echo Cancellation, AEC)算法,同时采用波束成形技术,通过每个独立设备的响应时间确定音频位置,并尽可能避免环境噪声的影响。
传动马达:Moving Touch传动马达让Kinect感觉像是个相控雷达,能根据它与用户之间的相对位置/距离来调整姿态,从而更有效地与用户进行交互,这种机制被命名为Tilt机制(垂直倾斜机制)。底部马达可驱动Kinect垂直调整28度,而Kinect成像系统自身的视角大小为垂直43度,水平57度。
三轴加速计:Kinect硬件设计中包含了Kionix KXSD9三轴加速度计,用于倾斜补偿,保证Kinect深度数据的准确性。
USB接口及电源:在Kinect的设计中,USB仅为PrimeSense PS1080系统级芯片(SoC)单元提供电源。Kinect还需要外接电源,用以驱动传动马达、投射红外,这样传感器才能充分发挥其功能。Kinect电源和USB是同一接口,Kinect必须使用外部电源,传感器才能充分发挥其功能。Kinect功率达到了12W,而普通的USB一般是2.5W。
风扇控制:为了抑制温度过高导致激光振荡波长变化影响激光散斑,Kinect在近红外激光器上实施了周密的温度控制。在导热性高的金属部件上安装激光器,在导热性高的金属部件上安装激光器,在金属部件和激光器之间还配置了冷却用热电效应期间(Peltier Effect Device,TE),旁边还备有冷却风扇。
二、Kinect相关技术规格
Kinect传感器的有效追踪范围如下图所示:
传感器阵列规格如下图
近景模式:通过固件升级,Kinect for Windows支持“近景模式”(Near Mode)。在该模式下,Kinect的可视范围为0.4~3m,与默认模式的差别如下图所示
在SDK 1.0版本中,近景模式仅支持Center Hip Joint部位的骨骼追踪,不是完整的20关节骨骼追踪(ST),下图列出了两者之间的差异:
上述特性在SDK1.5中得到了改进,近景模式下可以坐立或“10个关节点”模式进行骨骼追踪,包括追踪上半身的头部、颈部、肩膀、手臂等关节点。
放大镜:针对空间狭窄这一问题,Nyko推出可以变焦的Kinect衍生配件Zoom of Kinect(Kinect放大镜)。它基于鱼眼镜头的设计概念,将感应距离拉近并且向左右伸展,将担任最佳距离从1.8m缩短到1.2m,双人最佳距离从2.5m缩短到1.8m,并且不影响精度,可以理解为另外一种的近景模式的解决方案。
小结:主要介绍了Kinect的硬件设备组成结构,包括心脏、三只眼睛、四只耳朵、传动马达、电源与USB接口等主要部件。下一章节主要是工作原理的揭秘。