基于图像的静态手势识别的处理

电子科技大学 冯思钧

0 引言

人机交互(Human Computer Interaction, HCI)是指人与机器相互理解的模式,包括交互的方法、设备和界面等。手势是一种自然、直观的行为方式,手势具有多义性、多态性,具有时间和空间上的差异性,是目前智能识别领域的重要研究对象之一。手势识别在人机交互中的应用越来越广泛,出现了各种各样的识别方法。易靖国等将深度信息和 HSV肤色信息结合,利用 BP 神经网络来识别手势。王兵等采用基于像素分类的指尖检测算法,通过隐马尔科夫模型训练和识别手势。高晨等提出一种结合凸包和曲率检测指尖的算法,然后利用支持向量机(SVM)进行手势识别,识别率高达 97.1%。采用 HOG 特征对手势图像进行表示,然后采用直方图相交核支持向量机进行手势识别,识别率达到了 93.33%。用于人机交互的手势识别系统,不仅需要较高的识别率,而且对于系统的稳定性和实时性也有一定的要求。因此,本文提出了一种基于手势轮廓像素变化的手势识别方法。首先采用结合 RGB 和 HSV 双颜色空间的手势分割方法排除背景区域,经过图像平滑和形态学处理,再通过手势区域判断条件去除类肤色区域和人脸区域,提取出矩形手势区域,最后基于手势轮廓像素变化进行手势识别。

1 手势分割

1.1 颜色空间

手势分割作为手势识别的第一步,也是基础的一步,手势分割的结果对手势的识别和理解有着直接的影响。本文采用了 RGB 颜色空间的阈值分割,再结合 HSV 空间上肤色分布的聚类性,两者之间做与运算,实现了肤色区域的提取。基于肤色的分割方法通过对肤色在颜色空间中的聚类特征,从背景图像中分割出肤色区域,用肤色特征信息来实现手势分割。这种分割方法直观、高效并且准确。用下列公式,
将图像由 RGB 空间转换到 HSV 空间,转换结果如图 1(b)所示。
基于图像的静态手势识别的处理_第1张图片
式中的 R、G、B 分别是图像中每一像素点处 RGB 颜色空间对应分量的值。
基于图像的静态手势识别的处理_第2张图片
1.2 手势分割

经过实验得出,人类的肤色颜色空间 HSV范围如下:H (2,28),S(50,200),由此判断手势,便使得肤色的提取能以更简单的方法进行,有利于增强系统的实时性。此外,肤色的特征色调在 RGB 空间中,其 RGB 值符合 R>G>B,肤色的这一特征相当稳定,对于人种的变化还是环境光照的变化都不会改变,因此可以在肤色提取中结合这一特征进行提取。根据上文的肤色信息,可以对采集到的包含手部的图像进行二值化处理,得到肤色区域。根据原图像(x,y)处的 H、S 值和 R、G、B 值判断二值图(x,y)处的像素值为:
在这里插入图片描述
公式 4 中 yx,f 为二值化图像中坐标为(x,y)处的的像素值,H、S、R、G、B 分别为原图中(x,y)处像素的 HSV、RGB 颜色空间对应分量的值。采用循环嵌套遍历图像的方式,判断原图中(x,y)处像素的对应分量是否满足条件,如果符合条件则零矩阵(x,y)处像素等于 1;反之,则等于 0。肤色区域提取结果如图 2(a)所示。

2 获取矩形手势区域

2.1 预处理

在手势识别过程中,改善图像质量,使之能够准确的进行手势识别,图像预处理尤为重要。当获取的手势信息转换成能够用计算机处理的数字图像时,手势图像在生成、变换的过程中会因受到不同噪声的干扰而出现不同程度的畸变。因此需要对图像进行预处理,加强图像的有用信息,滤除掉不需要的信息。预处理步骤如下:步骤 1 对肤色区域图像进行中值滤波。如图 2(b)所示,本文采用中值滤波不仅可以去除噪声,而且还可以保持图像的边缘特性,不会使图像产生显著的模糊。步骤 2 去除手势之外的肤色区域以及背景中的类肤色区域。若二值化后的肤色区域或类肤色区域占整幅图像面积比低于 0.06,那么这些区域不是手势区域,需要去除。步骤 3 针对二值化手势图像存在的边缘的毛刺和内部的空洞,可以结合膨胀、腐蚀等形态学处理去除。实验证明,该处理可以有效平滑轮廓,填充空洞。
基于图像的静态手势识别的处理_第3张图片

你可能感兴趣的:(基于图像的静态手势识别的处理)