最近cnBeta等多家网站报道:
“据HotHardware报道称,来自美国康奈尔大学一组研究人员对各大科技公司的人工智能型语音助手进行了横向比较。研究人员发现,谷歌助手拥有目前语音助手类中最高的平均智商,IQ值约为47.28,水准接近于人类六岁儿童。而苹果的Siri语音助手的平均智商则较低,约为23.9,考虑到Siri助手的诞生早于谷歌助手,谷歌近年来在AI研究领域的发展是非常令人印象深刻的,研究同时也提到了中国百度团队的AI也取得了长足的进步。”
这项研究的真实出处是中国科学院虚拟经济与数据科学研究中心,由计算机博士,互联网进化论作者刘锋,中国科学院虚拟经济与数据科学研究中心主任石勇教授,中国科学院经济管理学院刘颖副教授组成的研究团队完成,题目是“人工智能的智商评测与智能等级研究”(Intelligence Quotient and Intelligence Grade of Artificial Intelligence),研究论文发表在2017年Annals of Data Science期刊上。
10月初,这项研究成果受到包括CNBC,ZDNET,YAhoo等美国,德国,日本媒体的报道。如CNBC的报道内容如下:
美国科技媒体HotHardware网站把研究成果的出处从“中国科学院虚拟经济与数据科学研究中心“ 错误的写成"美国康内尔大学”.作为颇有影响力的美国科技媒体,HotHardware出现这种错误实属不该。
关于论文“人工智能智商和智能等级研究”的简要介绍
1.AI智商研究的背景和面临的问题
这篇论文的研究开始于2012,起源是解决2010年以来不断日益高涨的人工智能威胁论,当时的思路是能否通过对比研究人工智能系统的智商发展水平并与人类智商,为解决人工智能威胁论问题寻找定量的分析方法。研究者为中国科学院虚拟经济与数据科学研究中心刘锋,石勇和刘颖。
这个问题的解决面临的最大问题是"第一,人工智能系统目前没有形成统一的模型;第二,人工智能系统与以人类为代表的生命体之间目前没有形成统一的模型。",原有的人类智商测试也没有相应的理论基础可以直接使用到AI的智商评测上,这就需要我们首先解决人类和AI系统的模型统一问题。
2.建立标准智能模型
在参考了冯·诺伊曼结构、戴维·韦克斯勒人类智力模型、知识管理领域DIKW(Data, Information, Knowledge, Wisdom)模型体系等。分别在2014年和2015年发表论文提出建立“标准智能模型”,统一描述人工智能系统和人类的特征和属性。
这个模型把任何一个智能体看做一个具有“知识的获取,掌握,创新和反馈”的系统,区别在于每个智能体在这四个领域里能力不同,从而导致智商评价的不同。如下图所示。
3.2014年和2016年两次AI和人类智商测试
为了更好的分析AI,人类等智能体的智能水平,我们把“知识的获取,掌握,创新和反馈”又分成15个小分类,从更多维度评测AI,人类的智能。这15个小分类是“图像、文字、声音的识别和输出,常识、计算、翻译、排列,创作、挑选、猜测、发现等,”。根据这些分类在2014年对世界50个AI系统和3个不同年龄段人类进了测试。
2016年2月,研究团队开展了“2016年人工智能系统的智商测试”,目前已对谷歌、百度、搜狗等人工智能系统以及苹果Siri、微软小冰等进行了测试,工作还在进行中。不过从已完成的工作看,谷歌、百度等人工智能系统的性能比两年前已有大幅提高,但仍与6岁儿童有一定差距。
虽然人工智能系统,这两年得分增长很快。但在创造性这个大分类上,得分一直进展不大。而且这个分类的权重又比较高。从两次测试看,人工智能系统在知识的掌握方面得分比较高。在知识的获取和反馈方面有很大提高,但还有很多不足。到2018年我们做第三次测试时,大家基本上可以看到一个曲线。
4。标准智能系统数学模型和智能等级划分
2017年发表的论文也根据“标准智能模型”建立了数学模型,描述智能系统的特征。
基于这个模型也对人类,AI等智能系统进行了等级分类。
(I 知识信息接收,O知识信息输出,S,知识信息掌握或存储,C 知识信息创新创造)
1.对于人工智能系统的第0级系统,其基本特征在理论上存在,但现实中并不存在这样的人工智能系统。在扩展的冯·诺伊曼架构延伸出来的分级规则中,可以做一些组合,例如可以信息输入,但不能信息输出;或者可以信息输出,但不能信息输入;或者可以创新创造,但知识库不能增长。对于这些在现实中不能或无法找到对应系统范例的案例,我们将其统一划归到“人工智能系统的第0级系统”,也可以叫“人工智能系统的特异类系统”。
2.对于人工智能系统的第1级系统,其基本特征是无法与人类测试者进行信息交互。例如有一种被称为泛灵论的思想认为天下万物皆有灵魂或自然精神,一棵树和一块石头都和人类一样,具有同样的价值与权利。当然,这种观点从科学的角度看,只能算作猜想或哲学思考。从“能不能和测试者(人类)进行信息交互”的分级规则看,因为石头等物体不能与人类进行信息交互,也许它内部有知识库,能够创新知识,或者能够与其他石头进行信息交互,但对人类测试者来说则是黑箱,不能让人了解。因此不能与测试者(人类)进行信息交互的物体和系统可以定义为“人工智能系统的第1级系统”,符合第1级分类的范例有石头、木棍、铁块以及水滴等等不能与人类进行信息交互的物体或系统。
3.对于人工智能系统的第2级系统,其基本特征是能够与人类测试者进行交互,存在控制器和存储器,但系统内部知识库不能增长。因此很多家用电器被称作智能家电,如智能冰箱、智能电视、智能微波炉和智能扫地机。这些系统大多有一个特点,即虽然它们内部或多或少有控制程序信息,但一旦出厂,就无法再更新它们的控制程序,不能进行升级,更不会自动地学习或产生新的知识。譬如智能洗衣机,人们按什么键,洗衣机就启动什么功能。从购买到损坏,其功能都不会发生变化(故障除外)。这种系统能够与人类测试者和使用者进行信息交互,符合冯·诺伊曼架构描述的特征,而且它的控制程序或知识库从诞生时起就不再发生变化,这种系统可以定义为“人工智能系统的第2级系统”,范例包括日常见到的扫地机器人、老式的家用电冰箱、空调、洗衣机等等。
4.对于人工智能系统的第3级系统,其基本特征是除具备2级系统的特征外,其控制器、存储器中包含的程序或数据可不联网进行升级或增加。例如家用电脑和手机是我们常用的智能设备,它们的操作系统往往可以定期升级。例如,电脑的操作系统可从Windows1.0升级到Windows10.0,手机的操作系统可从Android1.0升级到Android5.0,这些设备的内部应用程序也可以根据不同的需要不断更新升级。这样,家用电脑、手机等设备的功能会变得越来越强大,可以应对的场景也越来越多。这一类系统明显比第2级智能系统适应性更强。这种系统能够与人类测试者、使用者进行信息交互,但不能与其他系统通过“云端”进行信息交互,其控制程序或知识库只能接受USB、光盘等外接设备进行程序或信息升级的系统,可以定义为“人工智能系统的第3级系统”,范例包括智能手机、家用电脑、单机版的办公软件等。
5.对于人工智能系统的第4级系统,其基本特征除了包含3级系统的特征外,最重要的是可以通过网络与其他智能系统共享信息和知识。2011年欧盟资助了一个叫作RoboEarth的项目,该项目旨在让机器人可以通过互联网分享知识。帮助机器人相互学习、共享知识,不仅能够降低成本,还会帮助机器人提高自学能力、适应能力,推动其更快、更大规模地普及。云机器人的这些能力提高了其对复杂环境的适应性。这类系统除了具备3级系统的功能,还多了一个重要的功能,即信息可以通过云端进行共享,因此这种系统能够与人类测试者、使用者进行信息交互,可以通过“云端”进行信息交互,进行程序或信息升级。但这类系统所有的信息都是直接从外部获得,其内部无法自主地、创新创造性地产生新的知识。这种系统可以定义为“人工智能系统的第4级系统”,范例包括谷歌大脑、百度大脑、RoboEarth云机器人、B/S(Browser/Server,浏览器/服务器)架构的网站等。
6.对于人工智能系统的第5级系统,最基本的特征就是能够创新创造,识别和鉴定创新创造对人类的价值,以及将创新创造产生的成果应用在人类的发展过程中。我们在扩展的冯·诺伊曼架构时,对原来的冯·诺伊曼架构增加了创新知识模块,就是试图把人纳入到扩展的人工智能系统概念中,人类可以看作是大自然构建的特殊“人工智能系统”。与前四个等级不同,人类等生命体最大的特征就是可以不断地创新创造,如发现万有引力、元素周期表,撰写出新小说,创造新的音乐、画作等等,然后通过文章、信件、电报,甚至互联网进行传播和分享。不断地进行创新创造,并能够识别创新创造对自身的用处,这让人类占据了地球生态环境下的智力制高点。因此,这种系统能够与人类测试者使用者进行信息交互,可以创新创造出新的知识,并可以通过文章、信件、电报甚至互联网这样的“云端”进行信息交互,这种系统可以定义为“人工智能系统的第5级系统”。人类是第5级人工智能系统最突出的范例。
7.对于人工智能系统的第6级系统,最基本的特征就是随着时间的向前推进,并趋向于无穷点时,不断创新创造产生新知识的智能系统其输入输出能力,知识的掌握和运用能力也将趋近于无穷大,按照基督教对于上帝的定义“全知和全能”,可以看出智能系统在不断创新创造和不断积累知识的情况下,在足够的时间里以人类为代表的智能系统将最终实现“全知全能”的状态,从这个角度看,无论是东方文化的”神“,或西方文化中的“上帝”概念,从智能系统发展的角度看,可以看作是智能系统(包括人类)在未来时间点的进化状态。
5.论文对谷歌AlphaGo属于智能的第几等级进行的探讨
因为AlphaGo可以与棋手进行比赛,具有庞大的运算系统和数据存储系统,因此具备第2级系统的条件。在谷歌的研发过程中,AlphaGo的策略训练模型版本通过不断进行大量数据训练而不断升级,从2016年1月与欧洲冠军对战,到2016年3月与韩国围棋世界冠军李世石比赛,AlphaGo的软硬件系统也获得很大提升,因此AlphaGo具备了第3级系统的条件。
从公开的资料看,AlphaGo虽然可以通过网络实现大量CPU和GPU协同工作,但由于保密性或阶段性问题,谷歌目前还没有在互联网上开放AlphaGo程序接受用户的在线挑战,因此AlphaGo不具备第4级智能系统条件。
关于AlphaGo是否具备创新创造性问题,我们认为它依然是依托人工支持的大数据训练形成的策略模型,同时在比赛中结合比赛对手的落点数据,根据其内部的运算规则,来不断形成自己的落点数据,这些落点数据最终形成比赛数据集合。AlphaGo根据围棋规则与对手的比赛数据集合进行计算和比较,判断输赢,整个过程完全在人类设定的规则下运行,无法体现其自身的创造性,如图4所示。
即使AlphaGo形成的落点数据集合很可能是人类历史上没有出现过的,也不能说明AlphaGo具备了独立的创新创造功能。例如,我们用计算机程序实现下述过程:从1万到100万的自然数中随机选取两个数进行相乘,记录相乘结果,重复此过程361次,即使得出的自然数集合很大,并且可能是人类历史上没有出现过的,我们也不能认定该计算机程序具有创新创造性。
如果AlphaGo在没有人类提供数据的情况下,能够主动获取棋谱,自动设计程序进行模拟对战,学习经验,并用于改变自己的训练模型,用于实战比赛,战胜对手,那么在这种情况下,我们才可能认为AlphaGo具备创新性。但从人工智能的发展过程看,AlphaGo还完全无法实现这一点。因此,综合来看,AlphaGo的智能等级被评定为3级,与人类相差两个级别。
6,论文提到的该项研究的工作意义和后续工作
对人工智能系统进行智商测试和智能等级分级,有助于我们更好地对这些智能系统进行分类和评判,同时为低等级智能系统的发展方向提供支持。
根据上述研究我们可以每年利用人工智能智商测试方法对相关智能系统进行测试,以此为基础分析不同测试对象的人工智能智商的发展状况,从而发现这些同类产品在人工智能领域的发展差异,测试数据对于这些产品研究竞争对手发展趋势将具有实用价值。另一方面,每年根据测试结果,选取智商最高的人工智能系统和人类测试者智商作为代表,标注在图6.1上。以此作为判断人工智能与人类智慧未来发展关系的基础,从而作为判断前文提到的两条人工智能发展曲线究竟那一条更符合客观事实。
第三次AI系统智商测试将在2018年开始,测试检验2018年
人工智能发展水平,并绘制曲线。本次论文的线上发布地址在DOI: 10.1007/s40745-017-0109-0