本文介绍了微软语言交互产品——Cortana的发展历程以及逐渐消弭背后,微软的傲慢与偏见。
今天用语音唤醒智能助手,已经不再像以前那样是一件颇有耻感的事情了。“音箱大战”的澎湃之力,已经让偏远至村镇的群体都AI了起来,智能语音早已下沉得不能再下沉了。语音交互的习惯逐渐培养起来,接下来就是做文章、讲故事的好日子了。在这样的大好局面中,微软语音助手Cortana小娜却传出了要“脱团单飞”的消息,即将终止在iOS和安卓两大移动应用平台上提供服务,这无疑是自绝于人民群众的自杀式行为。
小娜的失败给语音交互领域留下了哪些“遗产”,而它的创造者在失去移动端制霸权后,又将告别智能语音助手这一关键入口,接下来的航线又指向何处?
今天语音交互的主流人群,可能都没有来得及能跟小娜在手机端产生一次对话。而在PC端偶尔召唤出来,最大的可能也是因为操作失误。但这并不代表这位以FPS 游戏 Halo 中的 AI 角色命名的Cortana ,水平真的如此泯然众人矣。
准确来说,在AI黑科技方面,微软并不输给谷歌、苹果这些高光实验室。而小娜背后的微软亚洲研究院(人工智能-语音识别方向)更是产业界的“黄埔军校”。有着如此背景的小娜,问世时可比答非所问的Siri聪明多了。
在一则视频中,用户通过搜索引擎向Google Now、小娜、Siri提问“埃菲尔铁塔有多高?小娜在数年前就将知识图谱与AI相结合的方式来呈现答案,跳过引擎抓取的大量无用信息,直接告诉对方答案——铁塔的高度。
更关键的是,小娜所依托的微软亚洲研究院有着大量的中文语音识别、语义分析成果积累,当时Siri还是一个中文听不懂、回答颠三倒四,最大的作用就是讲笑话的搞笑型选手。除了历史沉淀,小娜之所以聪慧,也源于其在微软“云为先,移动为先”核心战略中的关键地位。
当时,小娜与Bing、Azure等产品正在逐步取代Office和Windows,成为微软在移动时代的新业务核心。为此,微软在对小娜的打磨上也十分用心。
小娜的定位是“智能助理”,当时已经可以处理复杂的口语指令,来帮用户打开第三方应用、查找文件、收发邮件等等。2016年,小娜的语音识别率就已经超越了人类。2018年早些时候,为了让小娜的表达听起来更人性化,微软还收购了一家名为“语义机器”的人工智能初创公司。可以说绝对是亲生的待遇了。
小娜所担负的理想,即使在今天看来,也极具前瞻意义。在技术愿景上,小娜被设计为云端驱动(cloud-driven),许多智能计算都是在云端完成的,设备终端只做轻量级的整合。这使其跨平台统一服务成为了可能。
所以在应用场景上,微软工程师们提出了“Cortana Everywhere”(小娜无处不在)的想法。即让小娜在各种不同配置、不同版本、不同操作系统的终端设备上都能够被调用,并提供一致性的用户体验。只要智能终端具备一定的计算能力,可以运行小娜的客户端堆栈(Client Stack),就能够运行。
当时设想的足够运行小娜的最小设备是智能手环,在微软的Microsoft Band 上,小娜可以识别语音并以文字形式呈现出来。
当时的产品负责人在谈到小娜的理想化未来时,描绘了这样一个场景“一件衣服里内置了麦克风,它可以听到我说话,将信息传达给我口袋里的手机,然后手机和云端进行通讯。整个过程用户都不需要从口袋里掏出手机,佩戴耳机就可以听到小娜的回复。”
耳不耳熟?云+AI+泛终端,这个今天普遍出现在各种行业前沿技术峰会PPT上的智能交互画卷,几年前就被微软描画了出来。
(Microsoft Band 上的小娜效果)
可惜,凡事总有但是。
小娜最终还是走上了“美强惨”的道路。最后那个令人意难平的“惨”字,源于不久前它的彻底失败。
微软正式宣布战略性收缩小娜业务,将在2020年1月31日退出iOS和Android平台,这是一封来自官方的死刑宣判书。
其实早在今年1月份的时候,微软CEO纳德拉就宣布不再将Cortana视为Alexa、Google Assistant的竞争对手。但走到彻底放弃移动端应用市场这一步,也不由令人唏嘘——小娜明明应该是主角的剧本,最终却沦落成了炮灰,一切究竟是怎么发生的?
尽管有点马后炮的嫌疑,但今天我们回望微软在语音消费级市场的大溃败,或许能对当下还在场内的玩家有一个更为清晰的认识。总体来说,小娜的“生不逢时”,主要体现在三个节点上:
智能语音助手的第一要义,除了在技术上要能实现足够高精准度的识别理解能力之外,最核心的一点是要有任务属性,即能够帮助人解决特定需求。也意味着,它必须能够获取其他设备和应用的控制权,才能够达到这样的要求。
但小娜除了在微软体系内拥有足够多的权限,比如调用和理解邮件、处理365office等等。而且大部分是发生在PC环境中,语音交互相比鼠标要位居其次。在更广大的移动场景中,受限于Windows Phone可怜的市场占有率,小娜很难做到像Siri、echo与google assistant那样,与自家硬件无缝整合。
比如在打开应用时,使用“Hey Cortana” 语音唤醒;亦或是始终保持语音待命,以低耗电状态运行等,这些必要的能力小娜都很难在竞争对手的设备上实现。
而缺少了来自终端用户行为的数据滋养,小娜在脑力进化、内容理解等能力上也逐步与对手们拉开了差距。微软在消费级移动终端上的失利,最终转化为小娜的败北。
尽管微软在小娜应用开始,为其设计了非常具象的应用场景,比如用户可以通过输入文本或语音与小娜交流,可以语音搜索互联网内容,或者是直接询问关于影视剧集、天气、附近商户、交通路线、航班、音乐、百科等信息。和微软账户绑定以后,小娜还能在不同平台间同步邮件、待办事项、短信等个人信息。
但回顾小娜推出时的整体环境,不仅对用户来说,语音交互是一件有些尴尬的事,常常需要跟春节与不熟的亲戚寒暄一样,需要搜肠刮肚地想话题;即使在今天,跟音箱里的语音助手聊两句就任由其落灰的也不少见。
更悲催的是,小娜出现的时候终端计算能力还并没有现在这么GPUCPU集体发功的强大,移动网络服务也不像现在这么高速、普及、稳定,当时如果遇上网络状况不好,小娜的语音识别就很慢,有些情况下甚至用不了。
而今天用户使用语音对话方式发出指令的不适感几乎消除了,小娜却已经身处强敌环伺的森林法则中,难以再翻身。
今天凡是拥有智能语音助手的厂商,早已达成共识,无论是行为数据的累积,还是交互习惯的培养,都需要尽可能多的与用户发生联系。开放,合作,是一切的前提。而微软闭关造城的霸主思想,或许是小娜注定失败的注脚。
2014年,被今日智能助手广泛致敬的“亚马逊Alexa+echo”模式,还只是个实验雏形。为了让任何人都愿意用,亚马逊成立一个新的部门Alexa Voice Services,敞开了招呼大家加入来开放能够用Alexa交流的软硬件,吊灯、冰箱、燃气灶、汽车……很多虽然今天依然看起来很傻,但今天Alexa成为全球应用最广泛的语音助手,拥有1.5万种以上的技能,与这种开放形态不无关系。
也是在同一年,时任微软Windows Phone项目高管Marcus Ash在被媒体问到小娜是否会登陆其他应用平台时,表示“微软只会在Windows Phone版Cortana彻底成熟之后才可能考虑其他平台,也不会考虑为iOS和Android的深度整合而开发底层访问功能”。直到2015年,WP系统眼见着市场惨淡,无法为小娜提供有竞争力的发展空间,当时微软才宣布转战安卓和iOS。就连这样的平台开放也是非常有限的,因为是“中美特供”,当时只针对中国和美国市场提供服务。
而同一年,百度已经召开了“度秘”的发布会,将其打造成了一个集微软小冰(聊天机器人)+微软小娜(语音助手)+bing必应(搜索引擎)+垂类O2O的语音交互产品。随后,“小度”的能力伴随着DuerOS平台被开放给了众多软硬件开放者。
对于开放生态的“傲慢与偏见”,使小娜错过了向消费层生长出根须并持续进化的机会。
2018年的时候,微软也曾试图将小娜的重心继续加码安卓和iOS,对它进行了大规模的改进,包括更新的UI,支持在蓝牙上播放音乐,启动速度提升了20%,并与微软其他服务进行了更深层的整合,比如可以加入Skype会议。
尽管如此,无论是面对中国市场BAT等巨头的中文语音助手,还是在海外市场与谷歌、亚马逊和苹果等正面交锋,微软小娜无论是硬件基础规模,还是平台化的延展能力,都无法再逆风翻盘。在微软的Build 2018中,通过Cortana与Alexa的互操作性展示,微软也只好承认了小娜本身的功能,已经不足以满足当下用户对语音助手的诉求了。次年1月,以小娜为核心的智能扬声器计划被宣告终止。
就连如今的退出,都在惨淡的成绩面前显得不那么悲情了。根据Sensor Tower的最新数据, Cortana应用在App Store上的“生产力”类别中仅排名第254,在Google Play中仅排名第145。好像退出也并没有损失很大的样子。
小娜原本有着最抢眼的开场,却在坚守着Windows和Office的微软脚步下,走向了移动的终局。
小娜虽然可以说是从移动端消弭了,但语音交互这个未来入口却不能轻言放弃。从微软透露的信息我们知道,小娜还将作为微软唯一的语音助理工具存在,在微软所有的Windows产品中嵌入,包括Xbox游戏平台,再博一次。
小娜是否还有希望重回大众视野视野还未可知,但从微软的“滑铁卢”不难看到,语音作为AI引发的交互革命,赛事的焦灼点却往往在技术之外。
在“千箱大战”的热身过后,泛智能终端的语音交互战局才刚刚拉开帷幕,未来所有机器、智能硬件,比如汽车、家居、办公等都可能被这场浪潮席卷冲刷。在这个过程中,胜利者的成功也许无法复制,但失败者的教训却值得反复咀嚼。
语音交互巨作为对信息生态和生活方式的重构,涉及了非常复杂的社会链条,庞大如微软也难免步步踩坑。目前看来,可以确定的是,建立产业链上下游合作生态将是第一奥义。
语音底层技术突破已经逼近天花板,大家都是在90%以上的极限成绩上反复拼小数点,通过产业伙伴的助力,打通语音交互软硬件的上下游产业链关系,在5G+AIoT的泛智能终端生态中占据先发位置,对未来的市场主导权争夺有着重要意义。
其次,国际化竞争态势日趋激烈,而中国厂商的本土产品优势会被持续放大。来自Google Assistant的数据显示,已经由此超过70%的互联网请求是自然语言、对话方式发出的。其中各个技术厂商包括创业者都有着各自的优势,但归根结底,用户体验才是抢夺市场的最高法则。在这一方面,中国科技厂商谁能最先完成下沉市场的使用时间收割,以贴近最广大用户群体的姿态完成心智占领,就等于率先在“语音+万物”的赛场上做完了准备工作。
可以预料的是,除了在智能音箱外形上不断做新文章之外,未来的中国语音交互战场还会有新的硬件形态通过厮杀,来完成消费市场的真正变革。
总之,小娜的失败,留给我们最大的反思或许是:不要让强者的傲慢与偏见,让AI的生命力在封闭中走向凋零。