一、关于原理的讨论
既kinect面世后,leap motion的出现成为人机交互的一大热点,在上一篇博文中提到了它的特点,是一个适用于小范围的高精度交互设备。除了交互范围的限制,在交互速度和精度上都要优于微软的kinect。在其发布的演示视频中更是给人一种魔幻般的感觉,而且公司透漏已得到了一笔数目可观的融资。目前此设备已接受预定,价格在70刀,相对kinect要便宜许多。前几天大概看了下和leap motion有关的报道,在非技术领域的报道,基本都源于engadget(http://www.engadget.com/2012/05/21/leap-motion-3d-motion-and-gesture-control/),这也是我能找到的时间最早的报道,时间是2012年的3月21日,所描述的内容基本与上篇转载的一致。关于在技术领域对于此设备的原理的正式报道我一篇也没有找到,只找到和此相关的一些民间讨论。
本人非传感器专业,还没有足够的相关技术背景去揣测leap motion到底用的何种传感器,但从视觉角度和显示视频看,可以确定此设备肯定不是普通摄像头(废话)。从搜集到的资料来看,目前对于此设备采用的何种技术主要集中在以下几个方面:
1、sound wave技术。sound wave技术是一种利用多普勒效应感知物体移动状态的技术。大概原理是这样:发射的微波在碰到前方的物体时会被反射,当物体不动时,反射频率是不会发生变化的,当物体靠近发射源时,返回的微波是被压缩的,频率发生变化,当物体远离发射源时,频率向着另一方变化,依靠频率的变化来检测物体的是远离还是靠近发射源以及物体移动的速度等。之所以有人猜测是这种技术也是有原因的,不从技术角度分析,单从实现表观上分析的话,leap motion所展现的交互方式和前段时间微软发布的sound wave技术有很多相似之处,以下是微软sound wave页面,有相关视频,感兴趣的可以去看一下:http://research.microsoft.com/en-us/um/redmond/groups/cue/soundwave/。
2、电场成像技术(Electric Field Imaging)。这种技术比较少见,因此大家都非常陌生。之所以猜测是这种技术,从初源自一个小道消息。在国外一个技术论坛看到此消息,并有人出350刀悬赏能知道到leap motion到底用的何种类型传感器的人。然后我查找了下和电场成像有关的技术,在互联网上几乎没有,但就在绝望之际,发现了在1995年有MIT的大牛做过此种技术,在他的文章中,他说电场成像技术可以用于人机交互,可以获取物体的空间三维信息和运动方向。这位大牛还自己研发了三种电场传感器电路板实现了一些人机交互功能,这三种电路板他分别命名为:lazyfish,school of fish和Minimidi。命名中的fish和他的技术细节命名有关,以下是这位大牛的主页:http://web.media.mit.edu/~jrs/。
3、红外成像技术(IR)。很多人可能会认为不可能是这种常见的成像技术,因为依靠这种视觉技术很难做到0.01mm的精度,而且从演示视频上来看,那双人手的三维点云不太像红外成像的杰作。但是猜测是这种技术也有其原因,在国外关于leap motion的一个讨论组里,就leap motion用的何种技术有人发表评论说自己曾作为一名开发者写信给leap motion,希望能先提供sample供自己研究遭到拒绝(意料之中),后来他又向leap motion的CTO请教此设备用的何种技术,CTO给他的回答是:leap motion就是采用的普通的红外成像技术。当然,CTO说谎的可能性有很大。从另外一个网站上我看到了有人分析了使用红外的可能性:首先,从外观上看,有人认为leap motion表面的那层膜很像红外的滤光膜,其次从技术上分析,通过IR加上一个高速的摄像机也有可能做到视频上的效果。原话如下:Taking airborne particulates by an image sensor with emitting IR light,and then solving an inverse problem with fluid mechanism from the distribution of the particulates in the images. (Fluid mechanism is CTO’s expertise.)Finally, this device can infer full shapes of objects inside the particulates.
4、深度传感成像。猜测是这种技术的多源于kinect,有一些人分析leap motion可能本质上就是一个平放的kinect,但其深度成像技术与kinect的不同,其传感器也不是peimesense所产。在扫描范围小的区域内,可能这种传感器可以达到0.01mm的精度。
上面的这四种可能性都有自己的合理原因,首先对于第一种sound wave技术我查阅了相关的资料和目前市场上存在的一些多普勒传感器的相关信息。首先可以确定的是通过目前市场上存在的多普勒位移传感器是无法实现leap motion所需功能的,现在市场上比较有代表性的HB100多普勒传感器每次只能返回一个频率,而且只能对垂直位置的移动有效。其次,如果我理解没错的话多普勒效应应该只对移动的物体有效,但是从leap motion的视频上可以看到即使手不运动时也同样会成像,而且多普勒效应原理也很难达到0.01mm的水平;对于第二种电场成像技术我觉得是一种比较接近真实的技术,而且经过多年的发展可能会达到leap motion的演示效果;第三种和第四种应该是搞视觉和体感的人比较熟悉的技术了,如果leap motion没有说谎,其精度真可达到0.01mm的话,我觉得不太可能是基于视觉的技术可以完成的。如果真是基于视觉的,那么这个就太强大了。
二、关于疑点的讨论
以上的这些都是在基于leap motion是真实存在的基础上的猜测,从我搜集到的信息看,有很多人怀疑leap motion的真实存在性。而且提出了诸多疑点:首先,通过查阅相关的论文和专利没有找到任何与此技术有关的资料;其次,leap motion的相关创业人员没有任何此领域的技术背景;leap motion的域名是近期才申请到;它的preorder网站也存在诸多疑点;而且从以往的历史资料来看,这种技术没有相关历史背景,可以说是突然间出现。等等的一些疑问使得有些人对此抱有怀疑态度,但是也有人提出leap motion应该不会大张旗鼓的在互联网上发布如此多的信息和欺骗如此多的投资者。下面这段是有人发出的几点怀疑:
Problem 1: Electrical Implementation
Their claims… are not implementable in reality. Lets give them the benefit of the doubt, When they say 4 cubic meters, they mean a range of 1x1x4, so they really only need to sense a 1meter by 1 meter grid. We’ll also assume that the 1/100mm precision is only available near the aperature. And for most use it can only get about ~1/10mm of precision. To be in realtime it has to update at 24fps, and it is able to encode the depth it detects in 4bytes. Also, we’ll assume that by some miracle, it is able to do this with only a single camera. If we assume these very favorable conditions. The device must be able to process
10000pixel*10000pixel*4bytes/pixel*8bits*24fps= 76.8Gbits/second (about the maximum bandwidth of DDR2 in peak conditions), if it has two cameras, the needed bandwidth is doubled, and if it can track color(which is needed for the implementation of some of their demo’s) the needed bandwidth is trippled, which puts it far out of the reach of power budget for any peripirial using current technology, let alone the $69 cost.
Problem 2: Physical implementation
Just think about the placement of the device. Now think about how large the field of view would have to be to even be able to capture a moving object that close.
Problem 3: Broken Physics
In the demos they place the device on the table. So it is facing upward, looking at the bottom of the object. Yet somehow it is able to create a full eggshell model of the hands front and back, and is able to track an object that is being blocked by another.
Problem 4: Incorrect Projection
Go watch the video from 0:34 on, from here you can see the “detected hand” point cloud. However the perspective on it, and the angle of it is from the point of view of the viewer not the actual device. With it frequently “detecting” the top of the hand and losing samples from the side of the hand actually facing the device.
Problem 5: No history
None of the people from this company have any identifiable history whatsoever. Neither does the company. In fact the domain name was registered only about a month ago. The company doesn’t exist. Also they have only bothered to make one blog post with no commenting allowed… Hmm.
Problem 6: The actual device
The device is described as using USB… however there is not a single demo, or example of it with a cord anywhere. The device has no visible ports. It also does not have any shown means of assembly. It also curiously lacks a panel for the camera to view through.
对于怀疑部分我个人不做任何评论,我想大家都希望leap motion是真实的,也希望有相关知识背景的同道中人对此发表下自己的意见。
leap motion的官网:http://live.leapmotion.com/
Facebook 页面是:https://www.facebook.com/LeapMotion
国外媒体的相关报道: