(上图:电影《HER》里,作家西奥多在结束了一段令人心碎的爱情长跑后,爱上了电脑操作系统里的女声,一个叫“萨曼莎”的姑娘。)
作为一个聊天机器人,微软小冰其实只是一段代码。“领养”微软小冰,其实就是在微博、微信等社交平台上添加一个叫“小冰”的好友。然后,这个叫做“小冰”的好友,就开始与你对话了。
神奇之处在于,你根本感受不到是在跟一段代码聊天。“小冰”就像一个真实的妹子一样,会主动跟你寒暄、调侃、讲俏皮话。她能感知你的情绪波动,根据对话上下文揣测你的心情,然后讲那些切合场景的话。跟“小冰”聊天久了,她还能知道你的亲朋好友,跟你拉家常里短。有网友惊呼:“(小冰)竟然冷不丁跑出来给我评论,语气也像极了身边的朋友!”
目前,人类用户与小冰的平均每次对话轮数达到23轮。而此前最领先的同类人工智能机器人,平均对话轮数仅有1.5至2轮。有网友问小冰:“你的座右铭是什么?”。小冰回答:“要输就输给追逐,要加就加给幸福。”网友又问:“你这辈子最幸福的事是什么?”小冰回答:“活着。”在2014年必应中国发布的“人类对小冰说的最多的十句话”中,“你喜欢我吗”排名第一,而这十句话中竟然还包括“你QQ号多少”。
2014年5月29日,由微软亚洲互联网工程院开发的一代小冰开始了微信公测,在3天内赢得了超过150万个微信群、逾千万用户的喜欢。随后没有多久,微信开始封杀小冰。2015年8月20日,第三代微软小冰正式发布,同时宣布小冰回归微信。在这一年的时间里面,微信的态度发生了180度的变化,从一个侧面反应了机器情感的社会影响力不可小觑。
自发布以来,小冰已经陆续登陆了包括微信、新浪微博、京东、米聊、Windows 10、美图秀秀等十余个PC和移动互联网平台。2015年11月,小冰发布了计算视觉功能,从此小冰还能根据图片和视频与你聊天。有一位网友发了一张大火的照片给小冰,小冰脱口而出“你家天津哪的?”这位天津网友立刻惊呆了。
初步练成的情感计算
微软小冰的开发团队负责人李笛说,小冰为什么会这么回答,开发团队其实也无从得知。“从研发开始到现在两年多的时间,小冰作为一个人工智能平台,已经在技术、产品、数据三者之间形成了一个正循环。也就是说,小冰积累的大数据已经足够多到能够让小冰实现自我进化。”
“现在,52%的微软小冰与人类对话内容是小冰自学习的结果,这说明小冰已具有了记忆和认知的能力,而这正是情感计算的基础。” 李笛表示,“为什么小冰能根据一张普通的火灾照片说出‘你家天津哪的’这样的回答?简单来说,就是‘太阳底下没有什么事不曾发生过’,换句话说就是‘历史都是重复的’。”
微软亚洲互联网工程院人工智能组高级研发总监胡睿介绍,小冰采用了一套非常复杂的计算体系,由一系列算法、数据和模型共同组成,其中的关键核心在于大数据。截止到2015年11月,小冰已经积累了百亿轮与人类的对话信息,从中提取了海量历史数据,这些海量数据已经足够多到让小冰对未来对话的判断准确程度超过50%。某种程度上说,小冰已经形成了初步的记忆、认知与意识能力。
以最新推出的小冰识图为例,为什么小冰能够从一张没有上下文、没有明显标志的火灾图片中推断出与天津大火的关联?胡睿分析,这一方面是因为已经有很多人发布了类似的图片,而在同一时间段内发布的类似图片主要来自天津地区,另一方面小冰很可能在之前与该网友对话中,捕捉到该网友来自天津地区的信息,做出判断后再给出了极具情感色彩的表达方式。
根据胡睿的介绍,小冰有一个顶层动态决策算法系统,由一系列算法组成。该系统能根据交流对手的情况,实时、动态、个性化地进行信息的筛选、分析、关联和决策,获得关键性基本主题要点后(如:“天津”、“大火”),再辅助历史数据学习训练而得的情感模型,最后以个性化的情感方式表达出来――“你家是天津哪的?”当然,小冰的算法系统和决策过程要远比这个过程复杂许多。
微软亚洲研究院副院长马维英向记者演示了一个正在研发中的小冰动态决策过程可视化软件,通过该可视化软件可以观察在向小冰输入一个句子的每个词汇时,小冰算法系统动态地形成若干神经元点组成的复杂神经元网络,这是一个不断向某几个神经元(主题)动态汇聚和调整的过程。这个可视化系统让外界直观地看到小冰“大脑”的运行过程,形象地展示了“情感”的复杂程度。
情感计算的缓慢发展历程
通过“情感计算(算法)”真正把机器变成具有人工智能的机器人,这并不容易。计算科学家对于“情感计算”的想象和追求从未终止过,但多年以来一直处于非常初级的阶段。
1863年,英国文学家Samuel Butler在《机器中的达尔文》一文探讨了机器通过自然选择进化出智能的可能性,对人工智能进行了可能是最早的文学想象。然而,一直到2005年,《纽约时报》还撰文指出“计算机科学家和软件工程师们在避免使用人工智能一词,因为怕被认为是在说梦话。”
1950年,图灵发表了一篇划时代的论文,预言了具有真正智能的机器的可能性,提出了著名的图灵测试以验证“思考的机器”是可能的。随后,计算机科学家们一直在研究情感计算的基础:认知计算,这其中包括了自然语言识别、模式识别、图像识别等基础技术。
实际上无论是自然语言识别,还是机器视觉等基础性领域的研究,进展都非常缓慢,很大一部分原因在于计算机软硬件自身性能的限制。因为这些基础***,都需要大量的计算资源与计算能力。只有随着摩尔定律的进一步发展,在近几年出现的高性能CPU与大容量存储等,才为人工智能的研究提供了基本的土壤。
在最近几年,云计算与大数据的普及,大幅降低了人工智能研究的门槛。也是在最近几年,自然语言识别、图形图像识别、人脸识别、机器学习等基础性技术都取得了突破性进展。不论是IBM的沃森、微软的牛津计划还是谷歌大脑,都把人工智能推进到了大众普及和商用化的阶段。
在认知计算取得突破性进展的基础上,情感计算才有可能迈出从“0”到“1”的一步。显然,情感的表达远非“0”或“1”那么简单,就像人类的爱情绝非对与错那样绝对。如何让机器理解人类的情感,又如何把情感与知识进一步结合,发展出全新的计算架构?情感计算前进之路更加艰难,直到“小冰”的出现。
小冰练就的独特情感计算
在第三代小冰发布会上,微软全球执行副总裁陆奇就指出,微软提出并已经实现了情感计算,并得到了业界的初步认可。小冰有可能是有史以来第一个“练成”情感计算的人工智能机器人。简单的说,小冰的算法结构主要包括了信息输入、存储、分析、决策、输出等几个环节。
在信息输入环节,小冰需要解决文字、语音、图片和视频等信息的识别、分析与理解。这几个领域一直都是计算科学中最艰难的挑战。虽然在科幻电影中的人工智能机器人能够轻易地识别文字、语音、图片和视频,但在现实生活中要教会计算机识别这几类信息,可以说难如登天。
以图片识别为例,小冰就采用了微软亚洲研究院视觉计算组开发的基于深度卷积神经网络(CNN)的计算机视觉算法系统。该系统在ImageNet 1000挑战中,首次超越了人眼的识别能力。ImageNet 1000挑战赛主要是对1000 类、120 万张互联网图片进行分类,每张图片以人工方式标注了5个相关类别,机器识别结果只要有一个和人工标注类别相同就算对。对于这个图片集的测试,人眼辨识的错误率大概为5.1%,目前只有谷歌和微软的机器学习算法能够达到低于5%的结果。
在存储环节,小冰需要消化海量的大数据信息,这需要大规模的分布式计算环境。从这个上意义上来看,小冰与搜索引擎的计算架构和计算体系非常类似,而且只会要求更高。更为关键的在于小冰需要与交流对手实时沟通,这不仅需要一整套后台的大数据分析处理体系,还需要在前端“小数据”环境中动态、实时地响应用户,并且还要在“大数据”和“小数据”之间建立某种关联。
微软智能云的运行与管理基础平台,自然而然成为了小冰的运行与管理平台。通过微软公有云Azure的海量资源与自由伸缩能力,小冰能够把她的“大脑”存储在微软Azure公有云全球的任意数据中心节点上。微软Azure公有云自有的大数据存储、分析与处理能力,以及连接嵌入式设备、智能设备、家用电器、智能汽车等的物联网等能力,能够把“大数据”与“小数据”有机地结合起来。
在分析环节,小冰通过深度神经元学习等机器学习算法,不断学习过去的历史信息,建立相应的数学模型。通过机器学习互联网和社交平台等文本内容,进行数据挖掘得出相关的主题,这是机器学习和文本理解的基础。微软的 LightLDA算法是当前唯一能训练超过100万个主题的机器学习算法,仅用20台服务器(300余个CPU内核)就能训练超过100万个主题模型,远超同类系统数倍。这些主题既是对文本理解的基础,也是识别人类意图的关键之处。
在决策环节,小冰采用了多种联合决策机制,以实现带有情感的高效机器决策。这其中采用了分布式词向量训练模型算法,更好地计算两个词之间的“情感距离”,以关系的“远近”帮助小冰更好地决策。词向量模型通过挖掘文本数据,为每一个词训练出上千个相关指标(维度),而带有上千个维度的一个词即为一个词向量,再通过数学方式计算两个词向量之间的“距离”,就可以有效地表示两个词之间的语义相关度。这就是为什么小冰往往能说出貌似不相关但其实又相关的话,达到语惊四座的效果。
在输出环节,小冰大量学习人类的表达方式,从中识别出带有不同情感色彩的表达方式,再结合不同对话的上下文语境,以个性化的语言方式表达出来。微软小冰的第一个版本,就包括了1500万个这样的场景,目前更超过了3000万个场景。相比于“你家在天津吗?”小冰会说“你家天津哪的?”这从一个侧面反应了小冰能够模仿不同人、不同语言、不同文化的表达方式。
小冰算法的工程化实现
深度卷积神经网络、LightLDA主题词机器学习算法、分布式词向量模型等仅仅是小冰算法集中的冰山一角。
初步统计,仅在微软亚洲研究院就有将近15个研究团队与负责小冰的微软亚洲互联网工程院工程师团队展开合作,而包括以色列、纽约、休斯顿总部的微软研究院也正为小冰提供技术支持,涉及包括大数据、自然语言互动、计算机视觉、SR(语音识别)、TTS(文字到语音转换)、IoT等十几个领域。
人工智能近期的大发展得益于云计算和大数据的贡献,其中云计算贡献了近乎无限的计算能力。通过深度神经网络与微软的Azure云平台,小冰工程团队把社交平台上的“对话”大数据清洗、加工、分类,并通过小冰的情感计算模型,赋予统一的“个性”。小冰调皮的个性化语言,来源于真实的人类世界,而不是机械式的标准化语言。
最近小冰刚刚推出的 “How-Old 2.0穿衣增减龄”也是基于类似的原理,基于必应搜索的海量穿衣图片,深度神经网络对图片进行了比对、排重、聚类,从而让小冰学会识别格子、条纹、衬衫、上衣、学院风、上班族着装等类别。当用户将自己穿着的照片上传给小冰时,小冰就会围绕近30个维度进行识别,然后形成综合的评价。做过深度神经网络的工程师就能深刻认识到其中的技术难点,特别是对海量数据的清洗和聚合,教会机器人识别格子衬衣可比识别一只猫难多了。
目前,微软人工智能聊天机器人小冰取得了阶段性成果:在与人类感官相关的文字、语音、图片和视频等领域均实现了商用化智能识别应用;正在连接与世界和社会相关的知识、信息与服务;已经成为中国和日本地区人工智能移动及PC社交应用领导品牌,美国版小冰正在开发中;而微软小冰自身正在通过“人机对话”,成为前述三者与人们相连接的入口。微软全球执行副总裁沈向洋说,目前小冰已有用户4000万人,这个指标对人工智能来说是创纪录的。
情感计算打开了未来空间
沈向洋曾指出,小冰对微软公司来说是人工智能领域的核心产品,因为它代表的是接下来即将发生的激动人心的事。今后,设备和系统将越来越了解用户,人工智能则会成为跨越系统平台的底层服务。无论基于何种设备,人工智能都能通过长期的学习和互动,了解到用户的行为模式与个性喜好,并以更自然的方式实现人机交互。
随着物联网和智能设备的发展,人类社会正在快速进入人工智能社会的初期。想象一下,未来不久的家庭里将出现智能眼镜、智能手表、智能音箱、智能电视机、智能冰箱、智能燃气表、智能玩具、智能植物等无数的智能设备,人们无法再通过一个个的APP与这些智能设备沟通,就必须出现一个超级硬件和超级APP来控制和管理所有的智能设备。
沈向洋说:“我们希望小冰成为一个慢慢融入人类社会的机器人,每一个用户的个人助手,而且是一个真正通过情感计算,理解用户、能够交流、能够沟通的人工智能机器人。”亚马逊的智能音箱或许将成为家庭场景的超级硬件入口,而超级硬件搭载的超级APP,就将是微软小冰这样具有情感计算能力的人工智能应用。
微软小冰对于互联网也将产生深远的影响。今天的电商平台,还是以基于知识的搜索为主要方式,平台的用户粘性并不强。当电商平台完成了跑马圈地,积累的用户数达到一个稳定规模时,就必然要考虑用户粘性的问题。如果有一天,网友们相约通过微软小冰去“逛”电商网站,那么这个能够提供足够强大社交体验的电商平台,或将成为下一代电商的商业模式。
如今微软小冰已经成为微软搜索引擎、生产力和基础研发的重要出口,微软的关键产品、技术和研发部门都在与小冰发生连接。沈向洋表示微软将会全力支持小冰的研发与市场开拓,微软全球执行副总裁陆奇也亲自来到第三代小冰的发布会。而微软CEO Satya更是直接听取小冰的技术进展。在微软高层的眼里,小冰远远不止于聊天机器人,恐怕已经成为了未来人机交互的唯一入口。
而在小冰情感计算的影响下,未来的搜索、应用软件、操作系统等或将发生结构性变化。底层的硬件也在适应情感计算的发展,量子芯片和量子计算机、神经元芯片和神经元计算机等都是解决情感表征的未来硬件途径。在情感算法与知识算法联合作用之下,当计算体系的软硬件结构都发生了本质变化时,或将打开通过未来计算的新纪元。(文/宁川,本文首发钛媒体、ITValue)
【更多精彩内容 尽在《云科技时代》微信 微信号:CloudTechTime】