转自:https://zhuanlan.zhihu.com/p/24623380?utm_source=tuicool&utm_medium=referral
今年的NIPS大会上,Google不但作为铂金赞助商强势占位,而且携28篇论文亮相,不可不谓风头无二。 据悉Google搞深度学习的不下500人,也发布了TensorFlow等一系列有影响力的开源框架。
苹果则在深度学习领域似乎动作缓慢,人工智能界著名的大(peng)嘴(zi) ,Facebook人工智能实验室总监LeCun也怒喷苹果在人工智能学术圈根本没有一席之地。(当然被他喷过的人很多,以后有机会再八)
不过LeCun万万没想到,苹果却很可能走上了一条农村包围城市的道路,默默在憋大招,搞了一套叫Metal的深度学习框架,让所有程序员都可以轻轻松松的使用深度学习。深度学习有望在苹果的带领下发扬光大,让其他竞争对手陷入人民战争的汪洋大海中...
另外,文末有两个价值百万的idea!!!
先来看一个演示:
这是利用苹果的深度学习开发包Metal调用CNN做的图像识别的演示,可以看到它能在手机上实时的识别出笔记本,iPod,或者是遥控器。
注意,这里有两大亮点,第一就是输入是实时的视频流,第二就是无需联网在iPhone本机就可以做。
这个意义有多大呢?
2012年的时候,谷歌用了一万六千台机器集群,用一千万个Youtube视频,训练了很长时间才达到识别视频中猫的效果!
如今,你用一个不联网的iPhone就能做到了...
是不是觉得难以置信!
简单的说,苹果的深度学习开发包Metal能够让广大iOS开发者非常方便的调用Metal提供的API来输入数据,选择模型,以及设置并发,并通过Shader的封装直接控制GPU。
再直白点,只要你懂Swift,只需要一台最新的iPhone 7手机,你就能开发基于深度学习的应用!
这套Metal的框架,让你能够搭积木一样搭出一套深度学习的应用,并提供了一套接口让你直接操控GPU里的运算单元(得益于A10芯片是苹果自己做的)。
在程序员大致了解了各种神经网络的适用范围之后,拍脑袋或者实际测试自己适合的神经网络模式,然后就可以鼓捣深度学习的应用了,就像写Swift代码一样容易。
是的,童叟无欺,你可以做语音识别、图像识别、NLP等各种应用,文末我还会提供源代码!
比如利用Metal这个框架,你可以做语音识别!下面是个Demo:
你还可以调用CNN做图像识别,深度学习技能Get!
其他的图像聚类啊打标签啊,也是分分钟的事情啊!
嫌这个图像识别太简单?
第一个例子里,你能开发基于深度学习的实时图像识别,也就是直接用手机摄像头做实时的图像识别。
操作各种图片,聚类啊,打标签啊,滤镜什么的,那是分分钟的事情。
瞬间,你就成了会深度学习懂人工智能的高科技码农,想想是不是有点小激动啊?
不得不说,Metal对于iOS开发者,甚至是所有的程序员来说是意义极其重大的(可以想象其他厂商也许会跟随,不过壁垒在于苹果是自己开发的A10芯片才能够操作底层GPU):
这是一件“开发者的大事,大快所有人心的大好事”。
还不信么?
硅谷密探探长去采访了Polarr的CEO Borui Wang,他给我们展示了他们基于Metal的API做的一个相册应用Picky Album,中文叫“霹雳相册”。(App Store中搜索“霹雳相册”即可下载)
这个APP可以智能图片聚类,挑选最好的照片,并且能智能修图。 在霹雳相册里输入"cat",相册里所有猫的图片就出来了!(下次更新的时候会推出此功能) 输入"church",相册里所有教堂的图片都出来了!
对iOS开发者的意义
Borui Wang在采访中表示,Metal这个框架对于iOS开发者而言意义重大,苹果开发者等于拥有了直接在本地做深度学习的能力。
可以在本地做图像识别、语音识别、自然语言处理、图像聚类等各种功能,效率上会有极大的提升。
目前霹雳相册在iPhone本地用10分钟左右就能为几千张图片做索引,接近1秒处理10张图片,而传统的深度学习需要在云端计算,上传一张图片最快也要接近1秒钟,这已经是10倍以上的效率的提升。此外,Metal还在开发一个批处理功能,在未来几个月内,批处理的预计能提升5-10倍的效率。
霹雳相册除了使用深度学习进行图像处理,也利用深度学习做智能挑图,通过记录用户挑选最佳照片的行为,优化智能推荐引擎。
Metal这个框架对电商类应用,以及涉及到人脸识别、图像识别、自然语言处理的应用都会有量级的提升,此外,在iPhone上做深度学习,将摆脱对网络的依赖,解决了网络延迟的问题,也为用户节省了流量。
目前苹果官方还在改进Metal的性能,提高并发能力,预计明年一二月份会有最新的版本。
苹果的“Apple Brain”战略
Metal框架的推出,暗合了苹果“Apple Brain”的战略,是的,传说中的“Apple Brain”已经内置于你的iPhone中。
在这个战略下,Apple在2015年收购了人工智能初创公司Perceptio,后者主要是在手机本地做深度学习,同时与之配合的是硬件层面上iPhone 7采用了苹果自己设计的搭载6核GPU的A10 Fusion,计算能力大幅提升。
区别于谷歌等Google Brain都是在云端,苹果选择了把苹果大脑放在你的手机上!
苹果选择在本地做计算也有保护隐私的考量,这缓解了云端数据的安全隐患,也发挥了自己最大的优势,自己的设备大量被装在了用户的口袋里。
这个策略的选择一方面也是无奈之举,虽然4G网络不断发展,但是网络带宽和速度的问题一直没有得到解决。计算机科学家想象中的那种只需要一个客户端来访问,然后把计算都放到云端的美好想法一直举步维艰,网络基础设施依然步履缓慢,比如Google Fiber计划就困难重重。
Metal这套框架如果成功,以后很有可能Siri不需要网络也能运行,而当前Google Assistant和Amazon Echo等都是在云端运行。除了可以本地跑Siri,同样可用于识别陌生来电,自动显示附近标记的酒店等功能都可以做。
那么苹果手机也不再是一个简单的智能手机,而是一个无所不能的传感器,能感知你的位置你的温度你的环境,简直成了你大脑的自然延伸。
当然,Metal更重要的意义在广大开发者都拥有了深度学习的武器!
福利
此外,我们还提供两个价值百万的idea:
第一:开发和训练一套能够识别品牌商品的SDK,比如爱马仕或者奔驰什么的,在朋友圈或者微博等上面的商品图片识别后立马就能导购了,在合适的时间点卖给这些厂商或者电商网站,或者自己做导购电商。
第二:训练一套模型,通过你身体的姿势和动作等,来判断你是不是在开车(如何区分是在坐车还是开车,或者是步行),这是一个非常有用的模型,这个功能的重要性相信开发者都懂的,还是那句话,找到合适的时间点,一定能卖出去。
请告诉你身边的程序员朋友,他们说不定就成了百万富翁了!
p.s. 关注硅谷密探,公众号后台回复“Metal”,获取Metal开发文档和上面的实例代码。