Analysis of Hand Segmentation in the Wild

Abstract

  • 我们为手部分割确定了一种领先的语义分割方法Re-Finet,并发现它比最佳竞争者做得更好。 
  • 为了克服这个限制,我们通过收集两个新的数据集做出贡献:a)EgoYouTubeHands包括在野外包含双手的自我中心视频,以及b)HandOverFace在存在类似外观遮挡的情况下分析我们模型的性能。
  • 为了展示准确的手绘地图的好处,我们训练CNN用于基于手的活动识别,并且当使用由调整后的Re fi neNet产生的手绘图训练CNN时获得更高的准确度。
  • 最后,我们注释EgoHands数据集的子集以进行细粒度动作识别,并且通过观察单手姿势可以实现58.6%的准确度,其比机会水平(12.5%)好得多。

Introduction

  • 在自我中心视频中提取手部区域是了解手部动作和手眼协调等细节运动技能的关键步骤。我们在现实的日常设置中解决了以自我为中心的像素级手部检测和分割的任务。大量的工作已经在第三人称或监控视频中解决了这个问题。 
  • 在第三人称视频上开发的手部分割模型可能不适合以自我为中心的手部检测。 
  • 他们的数据集egohands为手提供了像素级注释,每个视频中有两个参与者进行交互。我们选择这个数据集有两个主要原因: 
  1. 据我们所知,它是唯一一个以第一人称视角为重点的人类互动的自我中心数据集
  2. 它具有手的像素级注释,其中手被认为是从手指到手腕。
  • 我们引入了一个新的大规模的标签手在野外的数据集,其中包括YouTube视频拍摄在现实的无约束条件下,室内和室外,在各种各样的场景。 
  • 我们还研究了手部区域在活动识别、单独使用手以及与操作对象结合时的效用。
  • 从这项研究中汲取的经验教训如下:首先,我们发现用于像素级手检测的Re fi neNet模型的微调可以显着改善现有技术水平。其次,我们在像素级别上注释手超过大约。在无约束的现实世界环境中拍摄的1300个以自我为中心的视频帧,并在这些图像上评估RefineNet。第三,我们引入了一个新的HandOverFace数据集,它有300帧,人脸被遮挡以测试手部分割方法的性能。第四,我们应用了条件随机场重新定义模型分割图,并发现它在某些情况下提高了准确性。第五,我们注释了EgoHands数据集的一个子集(800帧),用于精细的手动操作。最后,我们对该子集进行了AlexNet培训,达到了58.6%的准确率(8个最常用的动作类别的机会等于12.5%),精确度为59.2%。

Related Works

  • Li和Kitani等[23]将手部检测方法(预深度学习时代模型)分为三类:(1)基于局部外观的检测; 例如,依赖于肤色的那些,(2)基于全局外观的检测; 例如,使用全局手模板,和(3)基于运动的检测; 使用相机的自我运动并假设手(前景)和背景有不同的运动。
  • Li和Kitani [23]提出了一种照明感知方法,使用场景级特征探测器为每个环境选择最佳的局部颜色特征。然而,他们假设视频中没有社交互动,所以视频中的所有手都属于自我中心的观看者。 他们还提出了一个概率图形模型,利用空间安排消除手类型的歧义(即自我与他人)。然而,他们只考虑实验室类型条件下的相互作用。
  • 他们提出了一种基于皮肤的方法,首先生成一组边界框,其中可能包含手部区域,然后使用CNN检测手部,最后使用GrabCut分割手部。 他们还试图确定手的类型,并从手的区域预测活动。 
  • Mittal等人[27]使用可变形零件模型和皮肤启发法检测手部 。

Analysis Plan

  • 我们使用LabelMe [32]工具箱来注释我们数据集中的手势。
  • egohands数据集有48个用谷歌眼镜录制的视频。每段视频都有两个演员在做四个活动中的一个:玩拼图、纸牌、积木或下棋。这些视频记录在3个不同的环境中:办公室、庭院和客厅。egohands数据集具有超过15000个手动实例的像素级地面真实性。每段视频有100个手动注释帧,共4800帧地面实况。原作将这些视频随机分为训练集、验证集和测试集,分别占75%、8%和17%。
  • 为了进行活动识别,GTEA dataset在同一个环境中收集视频。它不捕捉社会互动,而是在静态照明条件下收集,并以15 fps的速度为61个动作类添加注释。我们使用这个数据集进行手部分割。原始数据集有663张图像,带有像素级的手注释。
  • Analysis of Hand Segmentation in the Wild_第1张图片
  • 语义分割将一组定义良好的类标签中的一个标签分配给每个像素[28]。同样,我们将手部检测问题解释为一个密集的预测问题,我们希望检测属于手部的每个像素(即二进制分割)。 
  • RefineNet是一个多路径重新定义的网络,它利用所有的功能,在多个层次沿着向下采样路径。一个RefineNet块通常由剩余卷积单元(RCU)、来自RCU块的多分辨率融合特征和链式剩余池组成。
  • RefineNet是一个基于残余网络功能的多个RefineNet块的级联架构。它从不同级别的ResNet计算功能,并融合它们以生成高分辨率预测图。
  • 在我们的所有实验中,我们使用RefineNet-Res101对Pascal Person-Part数据集进行了预训练。我们使用预训练的RefineNet-Res101具有新的分类层,其具有两类:手和没有手。
  • 众所周知,CRF可用于为计算机视觉问题(例如显着性检测和语义分割)重新确定像素级预测。为了进一步分析,我们基于手相对于图像的边界框区域的阈值从所有数据集中选择具有小手和大手的图像,并且分别在来自相同数据集的小手和大手上评估每个训练模型。
  • 给定单手图,我们的目标是预测细节动作(8个中有1个超过EgoHands +数据集)。 我们认为活动识别分为两个层次:粗略级别 - 活动标签在帧级别可用,而精细级别我们有每个手区域的动作标签。
  • 请注意,EgoHands数据集具有针对不同活动的帧级注释。任务是仅使用手没有任何背景信息对活动进行分类。
  • 我们为8个最频繁的动作类训练了CNN,它使用单手实例来分类正在执行的哪个级别动作。我们在与活动/动作识别相关的所有实验中训练了相同的CNN [21],不同的是最后一层根据类的数量而变化。

Discussion and Conclusion

  • 我们训练了一个手部分割模型,该模型比以前的手部分割方法[2]提供了改进的结果。
  • 我们还提出了3个新的数据集:
  1. EYTH,一个具有真实世界设置的具有挑战性的数据集,根据我们的结果,它被证明比现有的以自我为中心的数据集更加通用。
  2. HandOverFace数据集,用于在处理手部时研究类似的外观遮挡,并且可以帮助确定我们如何处理手到皮肤的遮挡。
  3. EgoHands数据集,其中包含动作标签以及每个像素级注释手的手型(左,右,第一人,第三人)。
  • 我们的工作提出了一些需要改进的领域,即使是领先的方法也会失败(例如,手到手咬合,小手,光照条件差,交接面部遮挡等)。 除了处理这些挑战的模型之外,我们还需要具有像素级注释的大型数据集。 有条件的随机场虽然没有对我们进行太多定量的帮助,但却产生了视觉上吸引人的分割图。

你可能感兴趣的:(论文大全)