百度首席科学家吴恩达:图像和音视频搜索将是新方向

百度首席科学家吴恩达:图像和音视频搜索将是新方向_第1张图片

演讲者:百度公司首席科学家吴恩达

Andrew Ng:在过去几年中,AI人工智能和深层次的学习不断转变技术,而且给公司创建了巨大的经济价值,也在更大改进人类和技术获得的方式。但是关于AI人工智能也有非常多的炒作,我今天要做的就是向大家传达两个信息,一个,我希望能够向大家介绍一下AI人工智能领域所发生的现象,我希望三十年之后,大家能够讲述什么是脚踏实地,什么是炒作。其次,如果你是组织的领导人,我希望30分钟之后你能够有战略性的思维,思考一下最近的历史和AI近期的未来,这样就能够更好的领导团队做出更好的关于AI和技术的决策,因为AI和互联网正在改变着我们的生活和我们的经济结构。

过去十五年间,我们现在都有一个关于人工智能正循环的理念,我们认为它能够带来一个很好的产品,服务很多的用户,有着很多的用户就能够收集很多的数据,用户数据、服务数据,有很多数据就能够使我们使用AI继续改善我们的产品。但是这张图的问题就在于,直到近期AI这一步其实做的都不好,传统来说,即便是你加大投入,但是它的性能也不会提高。我们现在对AI和深度学习的理解,只要你现在衡量AI的技术等等,他的AI性能会越来越高,这样就能够减少它的成本,提高它的性能,在大数据的时代这些深度学习的算法比传统AI算法要更好,因为他能够逐渐提高AI的性能,因此历史上第一次我们能够在这个图中完成AI的环节,得到数据,得到很好的产品,接触大量的用户。

大多数互联网信息都是基于文本的,通过移动互联网的兴起,我们认为这种交流方式同文本慢慢转向图像和视频,所以在百度我们看到越来越多的人搜索图像和语言,我认为通过AI我们就能够更好的了解这些文本和图像,以及语言之间的互动关系。我现在想给大家介绍一些例子,向大家解释一下AI是如何使用今天的互联网。

百度这样的公司在文本上做了很多工作,我们先从图像开始。七年前我问我斯坦福的学习,让他们写一个算法,在图像中找到杯子。七年前当时最好的算法,他们使用了最好的算法,这就是结果,在各个地方都找到了杯子,这是错误的。对于你和我来说,作为人类来说,很难理解计算机为什么无法识别出这个杯子,为什么计算机看不到我们能看到的东西?计算机很难做到这一点,我们详细的看一看,我们眼中看到的是杯子,但是计算机看到的是很多的像素,所以计算机的作用是看这些数字来考验你这些数字代表的是什么,代表的是这个杯子的口,看起来这是一个计算机的问题,六、七年前如果让机器来解决这些问题是非常困难的。

五年前发生了变化,兴起了深度学习神经网络的技术,我们当时受到了人类大脑运作的启发,开始创造软件,模拟这些神经元的工作方式。深度学习是什么意思?我们建立这些神经网络,深度模拟我们大脑中神经源信息传统的路径和方式。在AI中有很多炒作,这些炒作的原因之一,很多人说这句话,深度学习推动科技发展,这句简简单单的话,这句口号都对AI进行炒作。

在午餐的时候我跟饶毅进行交谈,他是北大的生命科学家,我们当时都感叹,今天我们其实都不了解人的大脑是如何工作的,所以我们的确无法来准确的模拟人类的大脑。我们深度学习的软件虽然模拟人类的大脑,但是他只是大脑,从特别特别浅的方面来模拟大脑运作方式,我们真的不了解大脑是如何运作的。我们通过不准确的模拟就已经启发了我们新技术的发展,我们使用计算机的视觉,我们给他输入了很多关于杯子的数据。我们在过去五年间发现这些算法,能够从数据中学习,学习这个杯子长的是什么样的,所以我们取得了很长久的进步。今天计算就很容易的识别杯子了。这只是在图像中找到被子,这是一个很简单的任务。我们的视觉系统能够做的比这多得多,我希望能够给大家展示这些图像,问大家您在这些图像中看到了什么,如果我想问您为这些图写说明,你左边可能会写一个黄车在路上行驶,后面是树林。右面你可以写是一个起居室,白色的沙发,蓝色的地毯,还有下午的斜阳照进了房间。之所以你能够写这些说明,你了解这些图像是什么意思,所以你才能够写说明。你能做的是详细的说明这些图像的信息,另一方面计算机只能识别杯子,这两者之间有巨大的差异。这些说明和字幕并不是人写的,过去几年中通过软件的发展,我们现在已经有软件对这些图像进行字幕的说明,有这样的技术对我们带来了新的机会,使我们软件通过深度的学习分析数据,使我们有更多的数据,使计算机视觉做到五年前无法做到的事情,在可预见的未来,这样的软件使我们能够更好的了解医学的图象。计算,自觉的识别可能是很难的,未来是我们的目标之一,百度眼睛产品是我们对未来的愿景而已。

为什么深度学习现在开始火了,现在开始越来越好了,我现在解释一下深度学习的功能,以及他能为我们带来什么样的价值,解释深度学习是怎样运作的,为什么越来越好?我现在要做一个比喻,如果你想象一下我们建造火箭,火箭有两个部分,第一部分是火箭发射机,是很大的发动机。第二个是燃料,如果发动机小,燃料很多是不可能的,如果发动机很小,燃料很少也不行,燃料烧着烧着就没了,所以火箭必须要有一个大发动机和很多的燃料。深度学习和这个差不多,我们现在神经网络就是我们发动机,它推动着AI的发展,燃料就是我们所用的数据,我们现在有这么多的数据,社会数据化给我们提供了大量的数据,这样输入到我们发动机中给我们作为燃料。在AI最近发展主要推动力,因为我们能够建很大的精神网络。另一方面,百度这样的公司能够收集很多的数据,为这些精神网络输入数据。我们有一个很大的技术网络,同时有很大的数据,这样当然深度学习可以越来越好了。

我今天提到的一件事,我们现在能够建造很大的神经网络,五年前,2010年的时候在学术界用的最大的神经网络有1000万的连接,于是模拟神经源之间的连接。四年前,2011年的时候我们在谷歌启动了一个工程,建造很大的精神网络,使用1000个谷歌的服务器,我们当时的团队建造神经网络差不多是原来的十倍大。后来我们发现我们当时的技术其实无法更大,后来我们在其他大学应用了其他的技术,你只用三个服务器就实现了100亿的连接,在百度我们使用GPU新的技术,现在可以建造非常非常大的精神网络。在AI和深度网络中做出很多的进步,都是因为我们能够建造巨大的机器,模拟精神网络,吸收这么多海量的数据,做出预测。

我再给大家举一个例子,语音,解释一下我刚才做的发动机核燃料的比喻。我现在和大家展示一个关于语音识别的例子。百度我们在语音识别方面投入了很多,很多人是使用语音的搜索,对于小孩和老年人,有时候可能打字比较困难,如果你能够让他们使用语音搜索,就能够让他们使用方便的信息产品和服务。对于我们普通人来说,使用语言识别和语言搜索也是越来越方便的,直到最近基本上所有语音识别都是很简单的软件实施,一个方块里是一个复杂的体系,我们最近决定让我们看一看产生语音识别的软件,把它扔掉,取而代之是神经网络,所以这也就是我们的发动机,因为百度在GPU早期投入了很多,所以我们能够建造很大的火箭发动机。燃料是什么?在语音识别方面,大部分学术人士他们都利用数据,有一些人他们有300个小时,最大的是2000个小时,最开始我们用了几个小时的语音数据,后来有几千个语音的数据,后来建立了合成的语音数据。后来我们一共达到了10万个语音的数据,按照语音识别的标准,实际上这是无法想象的数据量。在百度我们有着非常强大的工具,我们可以利用火箭燃料核火箭引擎,把它们放在一起,这样我们就有了语音识别更高的性能,而且也有很好开放的OPI进行发现。我们不到一个月之前有很好的结果,我觉得人工智能会改变用户技术的方式就是语音,我们有语音,因为我觉得这里有越来越多互联网的沟通走向语音的沟通,现在像百度的公司业非常多语音的产品,我们可以利用语音,我觉得整个互联网经济和互联网生态系统只是刚刚开始而已,整个的世界现在都在走向移动的设备,没有人现在还没有设计出一个非常好的移动设备输入的产品,正因为如此,我们现在花很多的时间在小的键盘上进行输字,如果说可以让语音识别运作非常好,在一个安静的环境下,它运作还是非常不错的。

现在出去你在开车,你的手机是放在旁边的座椅上,没有人会利用语音的环境,因为在嘈杂环境下语音识别是不行的,如果我们能设计很好的,在嘈杂环境下运作良好的语音技术,我们当然愿意利用语音技术。如果我在开车,我的手机放在旁边座椅上,我可以跟自己的手机进行沟通,我可以给我妻子发一个短信,我觉得如果有这样语音技术,这样会改变我们整个的世界,会改变我们和移动设备互动的方式,我想要重新设计大家的手机,围绕着一个语音识别的界面进行重新的设计,除了移动的设备之外,我觉得语音也在改变着物联网,包括很多家用电器、可穿戴设备等等。有一些人知道,现在在物联网上,在家用电器中有太多的界面,如果我们能够和我们的设备进行沟通,进行语音识别将会非常好。如果五年前我们说电视的遥控器能够使你和你的电视进行沟通调频道,人们觉得你疯了,我希望可能在我的孩子和孙子辈生命期之内有这样新的技术,也许有一天我的孙子,或者将来你孙子的孙子会告诉你,他们可以直接和电视进行沟通,调频。也许有一天你可以和你的微波炉沟通,微波炉会忽略你吗,它不跟你沟通真的太粗鲁,它不礼貌了。我们发现语音在改变着移动世界,也改变着物联网,而且现在有太多互联网的沟通,我们与技术的互动太多了,我们的互动都是围绕着文本的,还有很多的图像和语音。现在AI人工智能技术还有深入学习,语音技术已经成为最强大的技术,可以帮助我们了解和识别这些数据,我觉得人工智能是有着很大的潜力,能够改变我们和技术互动的方式,包括百度i和无人驾驶车等等,他有非常大的潜力,改变我们跟技术的互动。基于如此,我对这样的技术感到非常的兴奋,我在这个基础方面开展很多的工作。

当然,这方面也有很多的炒作,我觉得不幸的是,AI快速的发展现在促成了一些炒作,也许人们会想,某一天计算机会成为好的机器人,会掌控整个的世界,和我们创造一个很好的世界,也许它们不会成为邪恶的机器人,我们现在手机上还有非常多的代码,我个人看来不会出现炒作中出现的状况。我们可以利用这些技术进行预测,技术不断的改变,我们的生活就是围绕着技术,但是神经网络你知道是非常好的识别工具,还有预测的工具,当你输入数据的时候它们可以进行预测,但是我们在AI领域中工作的这些人,我们参加会议,我们发表论文,我们对未来的看法和其他一些有着胡思乱想的人之间有很大的区别,我们的看法不一样。我觉得如果我们能够远离炒作,AI发展是比较健康的,AI创造的挑战并不是机器会掌控世界,他很可能会帮助我们替代劳工,我们领导者必须要认真考虑技术,要让人工智能技术帮助我们替代那些繁杂的劳动。

谢谢,这就是我的介绍。


(陈恂,未来论坛创始理事。科技创业者和投资人,现任美国硅谷华人科技创业非盈利组织华源科技(HYSTA)的董事长,也在多家美国和中国上市或私有的科技公司担任董事。)

陈恂:非常感谢Andrew,非常感谢你给我们描绘了一个非常光明的未来,和人工智能所驱动的世界相比,我们现在所生活的世界真的是比较粗鲁的,没那么礼貌,我们将来人工智能驱动的世界将是非常礼貌的,我们时间只允许一个问题。

提问:非常感谢你介绍了人工智能,我是王涛,来自ICE公司,ICE是最大的中国媒体共享公司,在您发言中您介绍了谷歌和百度大脑,他们可以从网络中,文本和图像中学习获得智能。我们ICE研究了一些视频大脑,我们的目标就是让机器能够理解视频的内容,可以让人们玩儿视频,做视频,也可以把有意思的视频推荐给每一个人,我们觉得视频是非常复杂的,在数据方面非常的复杂,在数据库大小方面也是非常大的。我的问题是,在什么样的情况下,视频大脑这些材料会用在我们生活中?在行业中我们可以做些什么加速公司的发展?谢谢!

Andrew Ng:你知道我生活在美国,当我的妻子和我去看中国电影的时候,我们也会用ICE,我们创建了非常大的机器,它们处理数据,但是视频的挑战就是数据量太大了,正因为如此,深入学习在图像和视频方面取得了长足的进展。这里也有一个非常有意思的说法,比如人们知道怎么样利用时间数据和视频数据,可以了解人们现在做些什么,还有这些物体在做些什么,我觉得这是很有前景的展望,我希望将来在技术领域也可以实现这样的发展。

陈恂:我们的时间非常有限,我们再次感谢Andrew,谢谢!

注:本文是吴恩达于1月20日未来论坛创立大会上做的主旨演讲。

​未来论坛是一个承载人类科技梦想,用科技改变世界的公益平台;一个连接前沿科技,解读未来趋势的思想平台。

未来论坛将网罗全球最新技术和有洞见的人, 进行跨界、跨地域、跨年龄的交流与互动。它提供了一个入口,一个平台,让人们在基础逻辑的普适认知下,去获得方向感,去感知影响力,去踏进一片净土,去得到思想的孵化。

未来论坛由一批时下最有影响力的互联网界、投资界、科技界人士共同发起。其中有李彦宏、杨元庆、冯仑、徐小平、丁健、沈南鹏、张磊等工商界翘楚,也有施一公、饶毅、张首晟等蜚声中外的顶尖科学家。


百度首席科学家吴恩达:图像和音视频搜索将是新方向_第2张图片

关注我们

微信:未来论坛(ID:futureforum)

微博:@未来论坛FutureForum

官网:www.futureforum.org.cn

你可能感兴趣的:(百度首席科学家吴恩达:图像和音视频搜索将是新方向)