Google是如何用你的大脑来改良Android的

作者:Robert McMillan
原文:Wired
翻译:haru

人声的图像,来自AndroSpectro app。
摄影:Ariel Zambelich / Wired

当Google在开发它的Android移动操作系统的最新版本时,这位互联网巨人对操作系统识别你的语音控制的方式进行了一些较大的改动。它安装了一个基于所谓“神经网络”的语音识别系统。“神经网络”是一个会像人脑一样学习的计算系统。

Vincent Vanhoucke是Google的研究科学家,他参与了这项计划。他说,对许多用户来说,结果是戏剧性的。“很意外,我们只是改变了模型,出来的效果却好了很多。”

Vanhoucke说Android的名为Jelly Bean的最新版本的语音错误率比之前版本低了25%,这使得人们更愿意使用语音控制。“现在的人们在对手机说话的时候会使用更自然的语言。”也就是说,他们没有以前那么像在跟一个机器人说话了。“人们的使用方式真的改变了。”

这只是神经网络算法改变科技以及我们如何利用它的例子之一。19世纪80年代对这一领域的研究非常火热,然后陷入了冷藏,现在又回来了。微软、IBM和Google都在探究这一领域的实际应用。

当你对着Android的语音识别软件说话的时候,你的声谱会被切割然后送到八台位于全世界各地的Google的服务器基地的不同的电脑。接着声谱被由Vanhoucke和他的团队制作的神经网络模型处理。Google恰好非常擅长于解决这类大型计算任务并快速处理它。Google依靠Jeff Dean和它的工程师团队来研究解决方案。他的团队以重新发明现代数据中心的工作方式闻名于世。

神经网络让像Vanhoucke这样的学者可以分析许多许多种模型——对Jelly Bean来说,是对话的声谱——然后预测一个全新的模型的发展方式。这就跟生物学类似,身体中的神经细胞与其他细胞组成网络,让它们用特别的方式处理信号。Jelly Bean使用的那种神经网络,可能是Google设计了许多种语言发生的模型,例如通过分析多种现实世界的数据宽度来处理英语语音搜索请求。

“长久以外人们都认为你必须使用很多层特征来形成一个足够好的感知系统,大概是基于你在脑中看到的。”多伦多大学的计算机可续教授Geoffery Hinton说道,“但问题是你如何高效地掌握它们。”

Android给语音控制拍一张照片,然后Google使用神经网络模型来处理并计算出它说的是什么。

Google的软件首先试着挑选出语音中的独立部分——组成单词的不同类型的元音和辅音。这是神经网络的第一层。然后它用第一层信息来构建更复杂的猜测,这之间错综复杂的联系的每一层都促使它更清晰理解到底说的是什么。

神经网络算法也可以用用来分析图像。“你需要做的是找到像素结构的小碎片,比如图片的边缘。”Hinton说,“你或许会用一层特征探测器来探测像小边缘这样的东西。然后你会用另一层特征探测器来探测由边缘组成的小组合,比如角落。一旦你完成了,就会有另一层来了,以此类推。”

80年代的时候神经网络就试图完成以上这一切,但像Hinton所描述的那种用许多层来分析的方法其实非常困难。

到了2006年,两项重大的变化出现了。首先,Hinton和他的团队找到了一个更好的设计出更深神经网络的方法——拥有多层连结的网络。其次,廉价的图形处理单元出现了,让学者们使用很快更经济的方法来完成他们需要的上亿次计算工作。“真的是个巨大的进步因为速度快了30倍,”Hinton说。

Google的Jeff Dean改善了Android的语音识别系统。

摄影:Ariel Zambelich/Wired

现在,神经网络算法开始进入语音识别和图像软件领域,但Hinton认为它会被拥有任何需要做预测的地方。11月时,多伦多大学的一个团队使用神经网络预测了毒品分子在现实生活中会如何作用。

Jeff Dean称Google现正将神经网络算法用于许多不同的产品——某些是试验性的,但另一些并不是——但没有一个目前能做到像Jelly Bean的语音识别软件那么先进。“图像搜索里肯定也用到了,”他说。“你会想要使用图上的那些像素来识别图上的物体是什么东西。”Google街景搜索可以使用神经网络来识别他们拍摄的事物间的区别——比如一座房子和一个牌照。

不要以为这些不会影响普通人。去年,包括Dean在内的Google研究员们设计了一个神经网络程序,它自己教会了自己如何在YouTube上识别猫。

微软和IBM也在研究神经网络。10月,微软的首席研究官Rick Rashid在中国北京展示了基于微软的神经网络的语音处理软件。在演示中,Rashid用英语说话并在每一个词组后暂暂停。令观众惊讶的是,微软的软件同步翻译了他说的话并用中文告诉了观众。这款软件甚至调整了它的语调来显得更像Rashid的声音。

“在这个领域还有很多功课要做,”他说。“但这项技术非常有前景。我们希望在未来几年我们可以打破人们之间的语言壁垒。个人来讲,我认为这将会带来一个更好的世界。”

你可能感兴趣的:(Google是如何用你的大脑来改良Android的)