编者按:计算机视觉(Computer Vision)领域历史悠久,业界对此一直都不缺乏想象。当图像和视频总量每年以数十倍的速度增长,增长到人们有一天再也无法通过文字整理和检索这些信息时,计算机视觉技术或许会和当年的关键字搜索技术一样,成为救世主。
本文来自美国计算机视觉公司创始人Orbeus刘天强(微博@刘天强Orbeus)投稿,从“究竟什么是计算机视觉技术、它的局限性何在、它应用在实际场景中的表现如何、它未来又会有多大的发展空间”四个方面分享了他关于Computer Vision的思考。
“黑夜给了我黑色的眼睛,我却用它研究CV”
2014 年的新年钟声刚敲响不久,CES 的喧嚣也才刚刚落下帷幕,人们还没有从炫酷的智能手表、无人驾驶汽车,以及虚拟现实头戴那不真实的硬件世界里清醒过来,两起发生在计算机视觉领域的收购却在新年伊始短短两周里悄然发生着,说是不起眼,其实已经是该领域一年多来的第八起收购案了。
这两起收购,一起是刚刚发生的 QualComm 收购图像识别公司Kooaba,另外一起是一周以前Pinterest收购物体识别公司VisualGraph。而近两年该领域的收购记录可以列出长长的一串名单,从雅虎收购深度学习公司LookFlow和图像标注公司IQEngine,到 Google 收购移动图像识别公司Viewdle和深度学习公司DNNResearch,再到更早先的 Dropbox 收购图像标注公司 Anchovi Labs 以及 Facebook 收购人脸识别公司Face.com。
除了举不完的收购案以外,该领域近一年的人事变动也风风火火,从 Google 挖来多伦多大学深度学习界的大牛 Geoffrey Hinton,到 Facebook 成立人工智能研究院并邀请纽约大学名宿 Yann LeCun 担任院长,再到百度成立深度学习研究院并邀请 NEC 资深科学家余凯加盟,后者在近期甚至推出了对机器学习方面的人才开出百万年薪的“少帅计划”,业界对于计算机视觉界尖端人才需求不可谓不热切。
计算机视觉领域是个历史悠久的领域,业界对该领域一直都不缺乏想象。从三菱 Merl 实验室推出的第一个商用人脸识别系统,到数年前 PittPatt 在茫茫人海中搜索到一个不起眼的群众,再到近年亮瞎小伙伴们双眼的 MIT 媒体实验室广泛应用视觉技术的新一代人机交互界面 Six Sense。
然而,一些疑问一直留存在人们心目中:计算机视觉领域是一个看上去很美的领域,为什么一直以来没有诞生过巨头?而又是什么原因,导致近两年该领域人潮流动,收购频发?另外,这样一门艰深的技术,在业界又扮演着什么样的角色呢?
1. 什么是计算机视觉技术
如果需要妥善回答这些问题,需要先解释一下计算机视觉技术是做什么的。虽然广义上包含了非可见光的图谱分析、热传感图像分析等领域,但狭义来讲就是大家都知道的图像和视频分析:在没有文字或其他信息(例如访问图像的用户信息等)的辅助下,仅根据图片像素信息分析出图像的语义。
例如,找出看 Youtube 视频下面的注解然后告诉你视频里面有鸟叔就不属于计算机视觉,但识别出海报照片的内容并告知你明天 MIT 有 LadyGaga 的讲座就属于计算机视觉。
2. 计算机视觉技术的限制是最需要考虑的问题
这类技术的优点主要在于,其可供分析的对象的存在范围十分广泛。今日满世界泛滥的图像和视频,仍然以每年十倍于上一年的速度增长,因此图像视频的分析整理检索,一定是未来一个巨大的产业。然而,该技术的限制,才是最需要考虑的问题。
其主要限制有三:
其一,在需要最精确结果的领域,往往有比视觉技术更好的替代方案:例如检测车辆的行驶,自动分析交通灯拍摄的录像显然不如在马路上安装传感器来的精准,尤其是遇到下雨天或者车辆角度较偏的时候。
其二,往往需要大量的训练数据导致无法满足长尾需求:例如需要识别不同的猫种,从美短到苏格兰折耳,再从梵猫到俄罗斯蓝猫,如果定义可识别物体种类的人不是猫咪专家,便很难想到相关知识,更不用说去建立对应的数据集,况且世上能够识别的物体和概念数不胜数,可以细分到不能再细分,根本无法建立起一个万金油式的数据库满足所有人的识别需求。
其三,理论可行,工程昂贵:拿最近很火的深度学习举例,早在人工神经网络统治的时代就已经被提出,多年因为硬件软件的发展限制而被束之高阁,直到近几年硬盘读写速度加快、GPU 技术的进步以及大规模分布式计算的发展,使得原先需要几个月的训练可缩短至数日完成,这才开始登大雅之堂。
总结起来,计算机视觉技术的缺点在于不擅长做精准的定量分析,例如从照片看人年龄的问题,计算机能够估计出这个人看起来大约像 23 岁,是一个年轻人,但不会知道这个人实际年龄正好是 25 岁。但其优点也很明显,概括起来是:应用范围广、需求多并适合做定性分析。
3. 计算机视觉技术的实际应用尚处于起步阶段
鉴于上文所谈到的三点局限性,在定量分析领域,计算机视觉技术常常只充当辅助角色。例如,手机解锁这个应用虽然目前也应用了计算机视觉技术(例如人脸解锁和指纹解锁),但传统输密码的方式也并没有被取代。另一个例子是银行 ATM 支票扫描的 OCR 模块,尽管这个技术早在两年前在学界就已经有了速度够快、性能够优越的算法,但 ATM 仍然会提供手工输入支票数额的功能。
在这些领域当中,计算机视觉都扮演着“Good to have”,却远不是“Neccessary to have”的角色,所以才会让大量以视觉技术作为卖点的公司觉得疲惫:虽然技术难度大,但是可被替换性强甚至客户都会觉得这个技术可有可无,因此综合考虑性价比较低,固然然技术酷炫,授权的价钱却肯定不会高,在国内甚至到了大公司只愿意免费使用但都不愿意付钱的程度。一言以蔽之,计算机视觉技术“叫好不叫座”。
虽然情况并不乐观,但并非所有的领域里,计算机视觉都只能充当配角。该技术具有“大量数据定性分析”的特点,所以似乎天生是为下面三类问题而生:一是搜索,二是视频分析,三是定性分析。但目前即便是这三个主场,计算机视觉技术的生存空间也十分有限。
先提搜索。搜索是一个对于召回率(Recall)的要求要高于准确率(Accuracy)的应用,也就是说,用户不期望搜索结果每一个都是他们想要的,只要排名靠前的结果里多数是对的就行,加之每天经手搜索引擎数据量之巨,就不难理解为什么 Google 和百度对于计算机视觉领域一直保持业界最敏感嗅觉了。
无论是早先的 Google Image Search、Google Gaggle,还是最新推出的百度识图,其概念在于解决“当你不知道该如何用文字和词语描述一件物体时,还能够进行搜索”,例如你知道一个女优长相却不知姓名和其他任何信息,然而你却希望看到她更多的图片甚至她的信息,再比如你想知道路人的一款 Prada 包在哪儿买却不知款式。
另一个方面是,搜索引擎原始数据量之大保证了提供给用户的返回结果中有他们需要的结果的概率很大,因此即使有若干不准确的结果,但并不影响用户体验。这无疑是个完美的领域,然而巨头林立让创业者直接从事相关业务,很难杀出一条血路。
再说说视频分析领域。该领域最重要的特点是数据量大(单个视频轻松达到上万张图片),而且相比搜索,数据相关性更强,可以用前后帧分析的结果做数据平滑,理论上能够把分析的精度做得比图像更高,因此也是一个非常适合计算机视觉技术大展拳脚的领域。然而在这个领域,虽然无数基于文本和用户数据分析的公司如雨后春笋,但以计算机视觉技术为本的成功公司却鲜有所闻,更不用提出现巨头。
从产品的角度考虑,需要视频分析功能的用户基本是一些拥有大量视频的公司,这就造成了以视频分析作为主产品的公司往往需要依附于其他公司而生,如 Youtube、Hulu、Youku 等,然而这些视频公司多数迄今为止都并没有盈利,而同时又没有证据证明引入计算机视觉技术的视频分析能够帮助他们增加多少收入。
此外,尽管集群和并行计算技术发展迅速,然而理论上可行的视频分析,在面对海量视频的时候,还是需要消耗昂贵的计算资源成本。因此对于视频所有者来讲,由于很难估计采用计算机视觉技术来分析视频的净收益,因此对于加入视频内容分析就成了他们较低优先级、采取观望态度的任务,也缺乏消费的欲望。
最后谈谈用计算机视觉技术对某些垂直领域进行定性分析。这类需求非常多样:商家希望统计用户对商品的关注度,广告公司寻找目标人群,互联网或者媒体公司做战略决策时需要多媒体的统计信息,等等。
举一个多年前很多人就已经试图实现的点子:在商场装多个摄像头做人脸识别和跟踪,用以统计类似于在某些货架前停留时间比较长的人群属性,例如男女年龄段和表情等。另一个例子是带着摄像头的广告牌,可以自动识别牌子前的人性别年龄等并且呈现对应的广告,例如长得不好看的女生会看到整形医院的广告,貌似屌丝的文弱男生会看到壮阳药的广告等。想法非常 sexy,但迄今为止为什么还没有大红大紫的公司出现呢?
从商业的角度看,主要还是目标客户的购买欲望不强。例如商家统计数据的例子,买家可以有商店商家或者监控解决方案商,对店家来讲,也许去查商品生产商的财报或者行业报告比这小范围的统计信息更全面更准确,对监控解决方案商来讲,主营业务是安防和监控,其客户不会为了专门统计摄像头影像信息专门去购买一套昂贵的解决方案。
再看广告公司那个例子,取决于寻找他们的商户希望播放什么样的广告,不太可能对全范围的客户都能有对应的广告,因此即使广告牌检测到眼前是一个长得丑的女士,出来的广告也很可能不是整形医院,还可能是壮阳药,因为很可能根本没有整形医院找他们做广告。
最后一个 case 是互联网或者媒体公司,传统媒体往往谈判周期长,而且对内容的版权十分谨慎,通常从技术供应商起家的小公司,没等到合作就已经撑不下去了,如果自己爬内容的话,则会有面对版权诉讼的风险,而手握巨量数据的互联网巨头,基本会采取收购或者内置团队自主研发,不太倾向使用第三方的技术授权。
我们不能断言,在垂直领域中,任何领域都没有刚需,但至少在现阶段,以计算机视觉为本的技术公司,都还处在艰难的摸索阶段。
4. 计算机视觉技术领域的巨大空间不可否认
尽管目前计算机视觉技术对工业界的探索还处于刚起步的阶段,但仍不可否认该领域巨大空间的存在。就拿互联网的发展为例子,从零零星星、和孤岛一样相互存在的网页开始,到需要有一个方法整理这些数据,因此雅虎出现了;而当门户网站也已经装不下整个互联网时,Google 出现了。
图像和视频领域也如出一辙,当每年图像和视频总量都以数十倍的速度增长而人们到了一天再也无法整理和检索这些信息时,计算机视觉技术就会和当年搜索技术一样成为救世主。搜索引擎公司如 Google 百度,对此敏感也是因为他们逐渐意识到,当在移动端横行、乃至上传图片的媒介都已经从手机变化到手表眼镜时,文字就再也难以用来像以前一样标注图像。
这意味着将来有一天,也许按照传统方法开发的图片搜索就再也难以满足人们的要求,就像门户网站在科技发展的大潮中衰败下去一样。在每一个科技浪潮里都有弄潮儿的存在,计算机视觉这个领域无疑也不例外。在刚刚结束的 CES 中,Orbeus 与 AMD 联手推出新的视频图像管理系统,更发布了其基于深度学习(Deep Learning)的物体场景识别系统以及对应的 iPhone 手机演示应用程序,该系统能够识别多于 2000 类的物体和场景。
不难想象在不远的将来,你带着眼镜或智能手机行走在旅途中,边走边看时不再需要搜索,眼镜或手机就会告诉你眼前的庞贝古城是怎样形成的,会告诉你眼前的阿拉斯加大螃蟹或者波士顿龙虾怎么做会比较好吃,会告诉你眼前扎眼闺蜜的 LV 包是不是旧款、还在不在货架上,甚至于告诉你眼前这家其貌不扬的川菜馆有全北京最好吃的麻婆豆腐。相比之下,告诉你眼前哪个方向美女比较多可能是其中相对下里巴人的应用范畴。
这个世界上,仿佛有一个无所不知的大脑,每时每刻都在将其所知所学告诉给你。大到告诉你眼前的茂陵埋葬了一段多么气势磅礴的历史,小到告诉你面前千娇百媚的美女原来以前跟你念过同一所大学。你可以搜索照片中过去记忆里在夏威夷沙滩上
的美丽瞬间,也可以告知你朋友原来你有如此美丽的关于关岛的爱情记忆。武学之最高境界不过“无招胜有招”,搜索之最高境界不过“天下再无搜索,而搜索却无处不在”。
另外,在图像和视频领域里还有许多公司也推出了让人眼前一亮的应用和产品。
例如早先被 Facebook 收入囊中的 Face.com,其在被收购前就推出了一款当时被人称为“恐怖”的应用——Klik。这款应用能够根据手机所对应的位置,告诉你站在那里的人的姓名以及 Facebook 主页。假设这款应用不是因为收购案而被关闭,可以想象,在私人信息在互联网上大行其道的今天,我们通过这个应用,就能够轻易知道自己见到的任何一个人的身份,包括职业经历、爱好、甚至家庭。
除了直接面对消费端用户的应用外,还有一些公司专注于解决计算机视觉领域一些艰难的问题,以期推动业界的发展。
例如去年刚被雅虎收购的数据标注公司 IQEngine,这家公司的存在就是为了解决大量图片无法标注使用的问题,他们动用亚马逊的标注服务 Mechanical Turk,跟广告商收费,打通公司和 Mechanical Turk 的无缝接口,一方面提供标注识别服务,另一方面也获取训练数据。在 IQEngine 被收购前的最后几个月,这家公司也在自己平台上推出了基于机器学习算法的物体场景识别以及人脸识别。
此类公司还有旧金山创业公司Ersatz,主打降低深度学习应用的门槛。任何公司都可以使用他们的平台上传数据并且自动完成模型的训练。其解决的是计算机视觉领域的技术构架和流程整合问题,可以想象将来这家公司的发展方向,也许是向着类似 Cassandra 解决方案供应商 Datastax 的方向发展的机器学习解决方案供应商。
当计算机视觉技术在工业领域的一个个瓶颈都被这些公司解决,当人们整理图片视频数据的需求越来越热切,并且,当前硬件技术及并行计算技术已经到了可以支撑计算机视觉领域的转折点时,我们有理由相信,伴随着可穿戴设备的逐渐普及,必然会有以计算机视觉技术为本的公司在下一波互联网新贵中出现,让我们拭目以待