从“能听会说”到“能理解会思考”
-以语音和语言为入口的认知革命
胡郁
中国人工智能学会企业副理事长、科大讯飞轮值总裁
胡郁:我主要分享三个方面内容:关于人工智能、关于讯飞的人工智能、机器人和人工智能之间的联系。
人工智能这个词非常热,今年是人工智能六十周年,让我们再次向这些人工智能的先驱致敬。十年前五十周年,这些耄耋老人都成为图灵奖创始人和诺贝尔奖获得者,但是在五十年前,他们都是像我们一样的年轻的研究学家,美国在这方面的前瞻性,在六十周年这个时候,当时提出的所有人都去世了,但这是一个时代的结束,也是下一个新的时代的开始。
人工智能有几次浪潮,为什么有这些浪潮?因为人类的期望,每个新技术来的时候,都期望它能够取得非常快速的发展,但事实上没有大家想象那么好。为什么第三次浪潮能来?取决于几个因素:这些科学家持之以恒不停地探索。第三次浪潮是人工神经网络给我们带来的,因为包括以前很多专家持之以恒不放弃的努力,才有了今天。另外我们要看到整个人类信息工程体系的完善,因为有互联网、移动互联网,有连接、有云计算、大数据,当前深度学习网络的人工智能才有可能。
前两天在北京开世界人工智能大学,请到的一些人都是中科大的,怎么做人工智能的都是中科大的。做人工智能前几年很惨,聪明点的人看到这个势头不对都转行了,中科大的人比较蠢,觉得这个事情要做下去,就没转行。所以反应比较愚钝的人有时候也有好处,就看看你跨到那个周期了。
既然是研究人工智能,得研究脑,非常可惜的是脑值得研究,除了哲学、心理学,只能从定性上来研究以外,定量上无法研究,因为人脑太复杂。当前随着人脑科学技术的发展,现在我们有可能从脑里面去研究,我们可以把大脑皮层所有的神经元构造理论上画出来,功能也可以画出来。脑驱动人工智能的发展,当前在美国、欧洲、中国都启动了计划。工业界比较着急,现在就要结果,工业界利用大数据、深度神经网络,大数据人工智能成为另外一条重要的分支,五到十年,大家已经看到很多的结果了。
很多人有不同的观点,在过去两年中我们也讨论了很多,很多人认为如果把大脑搞清楚以后,可以做一个超级计算机,把人脑每一个思维都用超级计算机模拟,就像模拟核聚变一样,就可以得到一个真正像人脑一样的智能。但是有可能会同时得到自我意识,因为把脑子全模拟,脑子里面同时充斥着智能和意识的。我们不一定要把脑子里面每个东西模仿出来,可以找到里面智能的东西,创造出更好利用机器优势的神经网络。现在的神经网络跟人脑神经网络差距不是一个量级,还是有很大很大差别的,虽然在理论上有些接近的地方。
过去两年中,自从IBM提出认知计算以后,大家都脑洞大开。科大讯飞2014年发布会上提出的计算智能、感知智能和认知智能分类概念,非常荣幸得到了整个产业界认可,现在很多分析报告按照这个写,但写的是计算智能、感知智能和认知智能,后来李德毅院士说计算智能不能说,因为计算是一种智慧型工作,计算机里的运算和存储不能讲计算。
人工智能何时到来?德勤分析:2018年超过300万员工要向机器人老板报告。德勤分析里,把人类现在所有的职位,每个职位所需要的功能,全部对应分析了一下现在人工智能可以代替到什么程度。其实最担心的可能应该是在座各位,因为他们分析出来以后,发现CEO和老板只有20%的工作能够被代替,因为他们有大量工作是要创新,做综合性决策,机器代替不了。园丁和保姆的工作只有5%能够被代替。真正有威胁的是情报分析师、文员,包括今天有很多记者、翻译,我不是威胁大家,人工智能可能替代的比较快。
人工智能来自何方?现在讲人工智能太多了,大家都讲自己做人工智能,既然讲它的基点爆发,它的基点在什么地方?2015年3月份杨静的《静沙龙》里,我们有一群人研讨,大家觉得《人类简史》里提到人类在地球上有三四百万年历史,真正变聪明是在七万年到两万年之间。尤拉马上要写一本书叫《未来简史》,《人类简史》是从动物到上帝,将来人工智能如果突破以后,人类可能就完蛋了。我跟他观点一致,我们经常讲我们创造人工智能不一定会有自我意识,不会想到毁灭我们,但就算没有自我意识,人类也完蛋,因为所有事情它们都给你做好了,人类变成享受者,没有存在的意义,大家就会自杀。人类为什么能够变聪明,因为7万年到2万年前语言得到了把法,有语言可以八卦,组织更大的队伍,可以发明一些虚拟的概念。在7万到2万年前,人类经历了认知革命。
人类跟动物的区别,因为有语言,所以有知识、有逻辑推理,但机器离这一点有多远?它们要成为一个智慧的生物,必须越过这一关。从某个角度上来讲,讯飞现在提出讯飞超脑的设计,就是为了让机器能够实现认知革命。就是从能听会说道能理解会思考。能听会说就是感知方面,机器人都有这种能力,在这个过程中,基于人脑同样一些原理,如果把人脑最外部大脑皮层展开的话,有餐布这么大,有处理系视觉、听觉、触觉,会把这些东西会聚到处理概念和感知情况里,当我们看到一只猫或听到猫的叫声,摸到猫的皮毛时,其实我们大脑皮层某一个地方都有猫的概念的神经元在闪烁。讯飞超脑整个计划也是分成感知和认知两个层面,这些逻辑推理都依赖于深度学习的进展。
在前几天世界人工智能大会上,邓莉将神经深度网络一起应用于语音识别和图象识别,他们2010年到科大访问,我们就开始做人工智能深度神经网络东西,邓莉说:“讯飞是中国最早做深度神经网络的研究机构,并且是世界上最早把深度神经网络技术用于现实产品的。”在过去几年里了,我们不断把它用在合成、评测、语种识别、声纹识别、自然语言理解等很多方面。现在最新的按照一个语音识别技术的进展,原来大家认为语音是一维持续的波形,我们耳蜗自动把这种声音波形转为图片,耳蜗里有很多不同长度小的纤毛,声音不同频率会引起它们的共振,真正在神经里面看到一个鱼骨图,横坐标是时间、纵坐标是频率,有点像雷达的图象,不同频率结果是不一样的。当前最先进的系统是用卷集神经网络做语音识别,今年微软研究院于栋研究院,写了一篇文章,世界上今年在云识别领域最大的突破就是谷歌、微软和科大讯飞,同时提出用图象识别的方法做语音识别,整个语音识别进入读图的时代,从一个侧面验证一个脑神经里面,听觉和视觉神经工作原理类似。一个盲人的听力会特别发达,因为借用原来视神经元里的神经系统。
在认知智能方面,现在最新的是Attention,当我们看一幅图片时,注意力不是在整个图片上均匀分布,会集中在中间。左图跟自动驾驶有点关系,是男人开车时的关注点和女人开车时的关注点,利用这个技术,我们可以做一系列事情,在认知智能方面做了大量工作,一个最新成果就是Blizzard Challenge,世界上有一个暴风雪计算评测,从2006年我们参加这个评测,连续11年英文语音合成我们都是第一名,在今年7项主要指标中我们全是第一。今年谷歌发布一个新的语音合成技术,其实我们技术比谷歌的技术还要领先,但是我们保密,没有太多发布,我们毕竟没有谷歌声音大,但是今年科大讯飞在11月23号发布会上正式向大家披露,给大家带来惊喜,我们已经可以完全让每个人的声音惟妙惟肖在虚拟世界里面体现出来。2014、2015年主办方可能都觉得绝望了,我们每次都拿第一,后来主办方想出一招,把语言从英语变成了印第语,但是非常遗憾,我们还是第一,因此我们在印度也有团队合作,包括跟印度一流的学校都有合作。
今年还有一个非常重要的测试,如果讲人工智能的话,我们都绕不过图灵测试,图灵测试有一个非常重要的缺点,测试过程容易被欺骗,计算机总是给你回答一些模棱两可的事情,让你自己去猜。有一个笑话,让你猜一个数字,你想好了没有,我想好了,数字是多少?回答者说你猜我会回答多少数字。现在他们想出更好的是Win game,这个测试很简单,测你的常识,一个6岁的小孩都能答出来的问题,对机器来讲是一个登天的事。题目叫“爸爸没法举起他的儿子,因为他太重了。”问“谁重?”这样的问题对机器来说是巨大的挑战。上大学、上中学、小学对人类来讲是一个巨大的挑战,因为我们上学很痛苦,人类在0-6岁之前是天真灿烂地玩,我们学会了说话、推理,机器人是反过来的,0-6岁对机器是所有的智慧、智能、逻辑推理的形成期,机器一旦越过这个坎,就无所不能。现在在这个方面是我们更多的重点。
今年还有一个比赛叫CHiME,目标是放一个Pad,坐在第四排的人讲话都能识别出来。科大讯飞英文识别系统,我们在三个比赛中都全部是第一名,而且比去年成绩提高了百分之百。这个会议最后是在谷歌开的,我们没打算去开会,后来他们发了一封信,说你们成绩非常好,但为什么不派人来开会。后来我们赶紧派人去参加了一下。
人工智能与机器人。我认为人工智能和机器人是不同学科的专家从不同角度来分析一个人工智能系统所看的角度,两者一体两面,一个在虚拟世界,一个在物理世界。在这个过程中,我们需要利用到当前的互联网和移动互联网,特别是在物联网时代我们能够利用现在三个深度神经网络、大数据和涟漪效应,涟漪效应就是利用所有人在使用程序过程中,就像机器学习,越多人使用,机器人就越多学习,变得越来越聪明。
我们下来通过讯飞语音云向用户每天提供超过30万次服务,连接9亿设备。
AIUI,通过AIUI它可以很自然地和机器人和人工智能系统进行交互。
(演示)我们交互过程中不需要每次都唤醒,可以随时打入和插断,会判断对错,然后加以纠正。以后我们的交互在任何有屏幕的地方不用去触碰它,说就可以。
今天在底下的机器人已经有在用我们这个技术了,今年11月23号,今年讯飞年度发布会会有更多惊喜带给大家。谢谢!