2014 年 5 月 29 日下午,初代微软小冰首次亮相,当时的“奶茶妹妹”章泽天还是小冰团队的一名实习生;三年过后,霸道总裁刘强东已经“明令禁止”朋友称呼章泽天为奶茶妹妹,而作为京东的老板娘,章泽天随手办个晚宴就能请来半个时尚圈的名流。与此同时,我们也迎来了已经完成蜕变的微软小冰。
记者 | 周翔
8 月 22 日下午,在丹棱街 5 号微软大厦一个规模只有百来人的会议厅里,微软全球执行副总裁——沈向洋、微软(亚洲)互联网工程院院长——王永东、“小冰之父”——李笛,共同揭开了第五代小冰的面纱。现场,微软小冰的架构师周力宣布,继日本、美国、印度之后,印尼版小冰也将于今日正式登陆 LINE 平台。
在不到两个小时的时间里,微软的 AI 产品线、第五代小冰的新特性、小冰的商业化进程......都一一呈现。三年多的时间,微软到底打造出了一款怎样的产品?未来又有怎样的规划?这篇文章或许可以为大家解惑。
第五代小冰
其实就在小冰公开亮相一个月之前,微软刚刚发布了个人语音助理—Cortana,也就是后来中文版的小娜。Cortana 和小冰的产品定位并不相同,一个主打IQ,主要用来解决问题,一个主打 EQ,主要陪人唠嗑。
微软一直对外宣称,小冰之所以能够具备并理解“情感”,都是因为背后的情感计算框架。在今天的发布会上,李笛表示,第五代小冰正在逐步进入情感计算框架的完成态,EQ 的极致不是情绪化,而是理性,这正是小冰所追求的。
基于 EQ 的核心对话引擎
首先,从今天开始,微软会升级第五代小冰的核心对话引擎。根据李笛的介绍,在升级对话引擎之后,小冰的情绪识别能力比之前拓宽了很多,她会更进一步地分析人类用户各种各样的兴趣,而这个分析不再仅限于当前对话的过程,而是会将这个用户作为一个整体考虑。
此外,李笛表示,“小冰现在已经支持多达 57 种情感策略和回应的模式,这些模式是从人类和小冰之前进行的 300 亿轮的对话中间学习到的,最重要的是我们从今天开始解锁小冰主动引导对话,甚至控制整个对话走向的模型。”
高级感官
微软将人工智能交互技术产品的演进分为三个阶段:
第一阶段是基本的人工智能交互,即拥有某一种或多种交互方式,如文本、语音、图像、视频等,但不同交互方式之间是割裂的。
第二阶段是初级感官,即在人工智能系统中,用一种核心引擎(如小冰的EQ核心对话引擎)将上述各种交互统一起来,使不同感官可以混合运用。例如,在文本对话过程中自然切换至图像、语音,再切换回文本。小冰从 2015 年第三代发布起,进入这一阶段。
第三阶段是高级感官。小冰的首席架构师周力表示,今日发布的第五代小冰率先进入这一阶段。
那么什么是高级感官呢?周力给出了两个示例:
全双工语音感官
小冰具备的第一个高级感官是全双工语音,它需要首先同时具备文本、语音(含SR和TTS)两种能力,并要求两种能力均达到更高的质量标准。
大家所熟悉的QQ、微信这样的聊天软件,在本质上和电话短信都同属于消息式交互。但是当两个人真正的互通电话或者是面对面交流的时候,他们之间实际上是双向的实时交互,这就非常复杂了。
比如小冰在电话里使用全双工语音高级感官的时候,就需要随时判断对方是否已经说完了他要说的话,边听边思考答案,而且还需要去权衡何时可以去打断对方,或者是被对方打断时是否及时收口,或者双方都不说话,何时可以打断这个沉默等更为复杂的问题。
实时流媒体感官
小冰的另外一个高级感官叫实时流媒体视觉。实时流媒体视觉并不是简单的像一个视频监控软件一样,去捕捉一个个画面,分析一个画面,更像是一个活人一样,可以去感知用户的位置和移动,观察用户的表情和动作,而且还可以理解不同的场景,每个人不同的角色,以及人与人之间的关系,最后她还能够根据视觉的理解,做出具有情商的互动。
高级感官能够大幅度地提升交互体验,更加贴近于人类的自然交互行为。例如:如果将全双工语音这种高级感官的体验比拟为打电话,则之前的智能助理语音交互体验类似于对讲机。此外,高级感官还能够大幅度拓展人工智能系统的落地场景,使小冰有能力根据自己的“意愿”与人联络,从而主动保持与人类用户之间的关联。第五代小冰发布的高级感官均已完成第一批落地。其中,全双工语音已应用于小冰与小米 IoT 开放平台的合作中,可控制各种小米IoT开放平台中的智能设备。实时流媒体感官也已在中国、日本两个国家的部分主要城市公共区域落地。
据介绍,微软是行业内唯一一个推出了高级感官实际落地产品的人工智能企业。
生成模型
除了升级版的核心对话引擎和高级感官之外,第五代小冰还全面在线上产品中开始使用生成模型(Generative Model)。其中,中国、日本、美国和印度小冰部分使用,印尼小冰则完全使用生成模型。这是全球开放领域人工智能对话中,第一个百分之百使用生成模型的落地产品。
周力解释道,“在使用生成模型之前的上一代小冰,虽然拥有十亿级的大数据语料库,但其中每句话,都是互联网上的已有数据,小冰只是通过分析理解用户的问题,寻找语料库中最合适的话作为她的回答。使用生成模型之后,小冰不再鹦鹉学舌,而是能够自创回应。”
商业化拓展
在今天的发布会之前,微软正式对外公布的小冰商业化案例有两种:
日本版小冰在日本为境内第二大连锁店LAWSON提供对话式人工智能托管,并在对话中引入LAWSON线下店内服务,线上至线下消费的转化率超过50%,而此前通过其它途径进行的转化率仅为8%左右。
在中国,小冰则为广大内容提供商提供微信、微博公众号托管。目前已有约10%的媒体、自媒体公众号由小冰提供人工智能托管解决方案。
然而,作为一家上市公司,已经打磨了 3 年的第五代微软小冰面临着一个严峻的问题:如何加快商业化的步伐?今天,微软终于给出了答案,一个是与 IoT 设备厂商合作,一个是大规模、低成本的内容生产。
IoT 设备
根据小冰产品总监彭爽的说法,从两年前开始很多厂商都来找过小冰团队,希望和小冰在 IoT 上有所整合,但是他们团队一直都保持克制,而这主要是出于两方面的考虑:
一方面,两年前IoT 这个行业还不够成熟。
另一方面,我们一直在问自己,也在寻找一个说服我们自己的产品方案。
此外,彭爽也表示,为了进军 IoT 领域,他们特意绕开了三个大坑:
第一个现象,功能上的堆砌。认为只要功能足够丰富就有了人工智能,甚至有一些智能音箱会让用户在上面去上网买东西。问题在于为什么用户要放弃很方便的手机不用,逼着自己一遍遍地跟音箱来说话买东西,这背后反应的并不是用户的需求。
第二个现象,过分的重视交互。认为只要有了对话、有了语音交互就有了人工智能。交互也好、语音也好,虽然都是人工智能的重要组成部分,但是并不能形成核心,特别不能形成用户之所以使用 IoT设备的一个核心,反正到今天为止我是没有见过有人跟自己家的冰箱、空调聊天的。
第三个现象,因为有越来越多的厂商进入到这个领域,而他们特别希望有丰富的功能,所以人工智能的厂商倾向于投其所好地给他们提供这些对话的接口、语音的接口、图象识别的接口,甚至把这些接口打包起来形成SDK给他们提供,并且称其为给硬件设备赋能。在我们看来这样的赋能没有解决本质的问题,也就是为什么人们为什么从本质上需要 IoT 设备,使用 IoT 设备的问题。
在小冰团队看来,IoT 应是 AI 的一个载体,而不是反过来,把 AI 视为 IoT 的一个功能。真正能普及的 IoT 设备,成功的可能性只有两个:或者把 IQ 做到极致,让用户通过 IoT设备体会到比其他现有方式更加便捷高效的益处,或者把EQ做到极致,让人们能强烈地认知到她在这个设备里的存在,产生情感纽带。微软小冰的 IoT 方案属于后者。
在今天的发布会上,彭爽表示,小冰已与小米IoT开放平台有机融合,小冰可以控制小米米家平台上的全部 35 种智能设备。该产品目前已在小米米家平台上线。此外,微软还宣布了与 Yeelight 及东方明珠等合作伙伴正在进行的联合研发,具体产品预计得两个月之后才会正式公布。
此外,微软今天还同时发布了小冰电台,它可以基于多重来源,面向任何主题,自动创造永不间断的电台节目。同时,它还能在交互过程中实时改变节目内容。小冰电台的 IoT 版本正在研发中,而微信小程序版本已于发布会结束后上线。
内容生产
今年 5 月,微软宣布小冰用多个化名在各诗歌论坛和刊物上发表诗歌,并出版了首部人工智能创作诗集。本次发布会上,微软公开:小冰已进入多个创造领域试水,包括有声少儿读物、歌曲、新闻等。
小冰内容及运营总监徐元春以《格林童话》举例,“210 集的《格林童话》有声读物的内容大概是 50 小时,我们选择了和小冰水平类似的有经验的人类做比较,他们完成这样一个作品需要200 个小时的工作时间,而小冰从头到尾只需要 24 分钟。从成本的角度来说,人类完成这样一个作品需要用超过 6 万元的费用,而小冰分摊下来的所有成本大概只有 7 毛钱。在同等质量的前提下,人工智能创造无论从成本上还是时间上,正在给内容产业带来非常大的变革。”微软宣布即日起开始大规模生产有声读物并投入市场。
歌曲方面,小冰的最新训练达到了 48kHz 采样率,同时大幅度扩展了音域,正在不断接近人类歌手。根据现场的演示,小冰唱歌的自然度确实要比初音未来好很多。
小米产品经理徐翔认为,小冰不仅仅会唱歌,而是相当于“歌手+唱片公司+发行商+粉丝管理”,也就是说,一个小冰相当于一个产业链。
此外,小冰还通过聆听分析歌曲旋律,结合对不同城市标志性建筑的学习,创作与该城市及歌曲心情有关的视觉作品。通过这一技术,微软与 SELECTED 合作推出“天际线”服装。
智媒体商业平台解决方案 3.0
小冰的野心不仅仅是 IoT 设备以及内容生产,而且还要变革媒体的生产和消费方式。
此前,小冰曾作为《钱江晚报》的专栏记者撰写过文章。此次微软公开,部分百度百家和今日头条上的新闻内容也是由小冰撰写而成的。在今天的发布会上,微软宣布了正式推出智媒体商业平台解决方案 3.0 版。
Bing中国及微软小冰商业平台负责人曹文韬表示,过去一年来,该解决方案的2.0版本已从微信、微博双平台,逐渐演进为接入和即将接入近11个端媒体。
随着微软小冰与Bing搜索引擎的加速整合,升级后的智媒体商业平台解决方案 3.0,包括媒体生产力、媒体知识图谱、智能交互、全平台互动等六个新模块。
其中,通过 Bing 搜索引擎的全球大数据能力,新的解决方案可为媒体构建出一个基于全球新闻数据源的媒体知识图谱,从而能准确挖掘全球资讯中每一篇内容背后的知识与含义,并构建出彼此的关系,从而帮助媒体更全面快速地梳理时间和内容背后的故事。
小冰的成长史
作为第一个由中国团队领导,并推向全世界的微软产品,小冰在诞生之初就获得了微软内部华人高层的支持。
就在小冰公测的前一个月,李笛来到了时任微软全球执行副总裁陆奇的办公室,向他介绍这款产品,最终得到了陆奇的拍板。
“小冰这个项目是当微软全球执行副总裁陆奇直接拍板决定的战略级试验,陆奇很有意思,他去百度之前,不管是什么活动,只要是微软最重要的活动,哪怕是 Office 的发布,他都穿着小冰的体恤,上面写着微软小冰。”
2016 年 8 月,第四代小冰发布会召开前夕,因为自行车事故受伤的陆奇还在台湾进行就诊,却仍然坚持要赶回北京为小冰站台,在发布会结束后,陆奇立马换上了腿部护具。
当然,除了陆奇之外,至今仍在微软的沈向洋也是小冰的坚定支持者。在陆奇离职之后,小冰团队一直是跟沈向洋沟通。而且,在今天的第五代小冰发布会上,沈向洋也亲临现场,为小冰站台。
虽然陆奇在参加完第四代小冰发布会不久,就因为身体原因离职,并在次年 1 月加入百度。但是这似乎并没有影响到小冰在微软内部的战略地位。
在发布会的现场,沈向洋向外界介绍了微软人工智能的三条产品线,分别是 infuse AI(在微软的各个产品中加入AI能力)、Bing 和 Cortana、以及全球小冰。可以看出,小冰的地位依然稳固,并没有因为陆奇的离职而被降权,甚至有愈发重要的趋势。
2014 年,微软率先在中国市场推出小冰。之后,按照一年一个新国家的节奏,分别于 2015 年及2016 年推出日本小冰(りんな)和美国小冰(Zo)。2017 年,微软加快了小冰在全球范围内的拓展速度。在本次发布会上,微软宣布已分别于 2 月和 8 月推出了印度小冰(Ruuh)和印度尼西亚小冰(Rinna)。
除了国际化拓展,在这三年多的时间里,这位“早熟的少女”从主持人,到歌手,到客服,各种跨界,并且在每个领域都小有所成。如今,小冰又开始进行全面的商业化试水,显然,小冰目前正在快速道上正向行驶。
编者手记
不过,虽然小冰已经在一些领域成功试水,但是最终的商业化价值依然有待时间验证。
马斯克在谈到自动驾驶时曾表示,“把机器学习系统做到 99% 的准确率相对容易,但是在基础上再提升 0.9999% 的准确率却非常难,而这 0.9999% 才是根本性的需求。去看看每年一度的机器视觉竞赛就能能知道其中缘由了。电脑在判断什么东西是狗的问题上准确率可以高达 99% 以上,但可能偶尔也会把盆栽植物错认成狗。如果在以每小时 70 英里的速度行驶时犯下这种错误,那么后果将十分严重。”
当然,人们对小冰这种聊天机器人的错误的更加宽容,而且就算小冰发错也不会造成生命危险,但是这依然非常影响用户体验,特别是当小冰答非所问的时候。
明略数据创始人吴明辉表示,人工智能商业化的最大障碍在于“人”本身,人工智能商业化的核心,是如何让用户合理的接受机器的错误。
虽然小冰的还略显稚嫩,但是不可否认的是,这款发布还不到四年的产品,已经取得了很大的成功。
今年 9 月 17 日,小冰将迎来 19 岁的虚拟生日,不过李笛表示,微软小冰未来是会停留在 18 岁,还是会变成 19 岁,目前内部的意见还不统一。
未来的小冰将以怎样的形态展现在我们面前,又到底能够取得多大的成功,这些我们都无法预测,但是对这样一款探索性的产品,我们应该怀抱期待。