你玩儿的比心心 竟然是利用了AI的手势识别能力?

打开抖音,都是美女。你开启录制抖音的前置摄像头,就会发现镜头里的自己也是美女。明知道那么美好不是自己的真实模样,人们还是会乐此不疲地沉迷其中,毕竟谁都想看到一个更加美好的自己。

爱玩儿抖音的美女大概都玩儿过一些“比心心”的视频录制,事实上,这种通过手势来触动特效的实现,就是AI的手势识别能力的一种体现。通过拍照时“比心”或是其他的任何设定好的动作来触发一些AR特效。


你玩儿的比心心 竟然是利用了AI的手势识别能力?_第1张图片

我们假设将这种对于手势的捕捉,和手势语义对应起来,是否就能实现对于手语的翻译和生成呢?这样一来,我们就能通过AI的帮助来实现听障人士与不懂手语的人们的交流与沟通。

这样想逻辑是正确的,但是从想法到实践,还是有一段路要走的。

首先,手语的表达有一定的特殊性,捕捉起来有一定的难度。

因为手语在表达的时候,没有十分明显的精准度,而且懂手语的人们可能知道,有一些词汇的手语表达可以说是非常相似的,手语又是以句子为单位,因此以往手势识别中利用前置摄像头捕捉的方式,基本是不可行的。

于是很多科技和团队给出的解决方案是加以外设,比如加州大学曾经推出过的手语识别手套等等就是这样。可这些外设要么便携程度低,或者费用高昂,一般人用不起,也就束之高阁了。

还有十分重要的一个阻碍就是,手语中有“文法手语”和“自然手语”两个概念,文法手语相当于普通话,自然手语则相当于方言,不同地区会存在大大小小的差异。这也造成了手语数据收集、标注会是一项成本高、工作量大的事情。

例如亚马逊曾经提出过,对智能音箱Alex进行改造可以使其翻译出一些简单的信号。但由于缺乏大规模的训练数据集,目前这一功能只能识别出一些简单的美国手语。

那么这些问题该如何解决呢?在手语AI技术本身上,可以分为识别模型和数据集两个解决路径。在数据收集方面,可以通过和社会相关机构以及听障人士的接触自建手语识别数据集,并且针对手语表达的地方性差异,做出表达习惯和速度上的多样性拓展。

至于识别模型上,业内也有全新的算法搭建概念,例如通过2D卷积神经网络和3D卷积神经网络分别提取手势中静态和动态的信息,经由综合处理来提升视频识别效果,彻底摆脱其他传感器的桎梏。同时针对手语表达的整句化的现象,在视频帧的最后加入了词级信息挖掘,对特征提取器提出的信息进行核验,进一步去确定手势对词语表达边界,除了提升识别精准度以外,还能提升对自然手语中地域表达的总结能力。在此基础上,还可以算法模型中引入了上下文理解能力,以便于面对更加复杂的手语识别翻译需求。

方法固然是好的,不过在真正的实践中,也许还是会遇到这样那样的阻碍,比如说在推广使用上,对此,容商天下副总裁建议,这种时候可以尝试先从公共服务场景切入。

你可能感兴趣的:(你玩儿的比心心 竟然是利用了AI的手势识别能力?)