作者 | 阿司匹林
出品 | AI科技大本营(公众号ID:rgznai100)
语音助手大战已经进入到白热化的阶段了,除了苹果、亚马逊、Google、微软等国际玩家,国内的百度、阿里、腾讯、天猫也已经纷纷在这个赛道上加快布局,好不热闹。
不论你承认与否,现阶段的语音助手都还处在探索阶段。苹果的 Siri 作为元老,已经很多年没有带给我们惊喜了,而亚马逊虽然 Alexa 风头正盛,但是他们其实也在焦虑,没人敢断定,现在的 Alexa 就一定是语音助手的终极形态。
与此同时,微软却通过小冰向大家展示了另外一种可能性——基于 Session-oriented 基础框架的对话 AI 系统。
▌什么是 Session-oriented?
小冰负责人李笛表示,对话式 AI 基础框架的理念之争正在发生变化。目前,以苹果 Siri 为代表的语音助手都是基于 Turn-oriented 框架,只有微软小冰是采用的 Session-oriented 框架。
如何理解这两个框架?
Turn-oriented:这种框架主要是面向单个任务,每一次对话就像是一个“十字路口”,它的中心就像是这个路口中间指挥交通的“民警”。每当你发出一个指令,他就会把你迅速引导到目的地,当这个任务完成之后,他会把你拉回这个十字路口的中心,一切归零,再循环上述的过程。如果他没有办法把你引导到目的地,那么就会通过搜索引擎提供搜索协助。这个框架已经发展 20 年了,虽然可以在某些场景下迅速完成某个任务,但是却没有办法进行很好的对话。
Session-oriented:这个框架主要是面向对话全程。基于这个框架的对话就像“河流”一样,从一个 turn 往下一个 turn 走,这个 turn 可能跟任务有关,但是这个任务之后可能会进入到进一步的交流,而进一步的交流有可能引发出新的任务,然后再随着新的任务引发一些知识的了解,然后这样流转下去。当我们关注整个 Session 的时候,那么整个 Session 的质量高低都要优于任何一个单一任务完成的质量高低。
▌全双工语音交互
虽然李笛宣称 Session-oriented 有很大的优势,但是口说无凭,用户体验才是最重要的。
去年下半年,微软开始与小米生态链企业 Yeelight 合作,将小冰内置在了 Yeelight 的智能音箱之上。与此同时,在微软内部打磨了一年半的全双工语音技术也首次出现在大众视野。具体的体验视频可以参考AI科技大本营此前的评测文章:
而这个全双工语音交互感官就是 Session-oriented 框架的最后一环,在此之前的所有感官,都是 Turn-oriented 的。李笛称,目前国内的对话式 AI 系统都不能算是全双工,最多算半双工。
什么全双工语音交互?
一次唤醒就可以连续对话,不用每次对话都要唤醒词,这是普通用户最直接的感知,它可以理解为流式交互、连续交互、实时交互、双向交互,是 EQ 和 IQ 的结合。不过,它与目前的多轮交互、持续聆听、免唤醒词有着本质上的不同。
近日,微软小冰的首席架构师周力就首度公开了全双工语音交互背后几大技术支撑。
边听边想:通过预测模型,小冰不会再等到一句话说完,再进行语音识别,然后再处理如何回复,而是没有、听到一个字,就会提前预测用户的完整意思,提前开始“思考”回应;此外,小冰还会根据预估的思考时间、复杂任务的完成时间,有选择地将回答拆解为多段,而不再是用户输入一条,系统回答一条,这样可以减少用户感知的等待时间。
通过预测模型,我们可以让回答更加迅速,而且会有不一样的互动,因为在全双工中,不再拘泥于我要回消息,系统就可以使用更好的策略,让对话变得更加流畅。
节奏控制器:在全双工的对话中,节奏就会变得非常的重要。用户每一句话的重要性并不一样,因此需要采取不同的策略,与自己协调,与人类协调,甚至与其他语音助手协调,来判断是继续倾听,还是回复,甚至抛出新话题等等。
声音场景的理解:在全双工语音交互中,环境的处理同样重要。传统意义上的语音识别是通过其中一段语言识别其中对应的文字,但全双工场景实现的理解不止如此,它包括了分类器、环境处理、对象判断。
其中分类器主要用来识别用户的身份和情绪,以及环境中的音乐,而环境处理则主要涉及背景噪声识别、回声消除、动态音量识别与调整等等,至于对象判断则主要是用来进行声纹识别,针对不同用户,提供不同的服务,不过目前声纹识别还在内测中。
自然语言理解与生成模型:与微信小冰用的检索模型不同,全双工版的小冰用的是生成模型,通俗的解释就是,后者的每一句话都是自创的。利用这种技术,系统可以实现更好的容错性,并且可以基于时间、整个对话的内容、以及用户的意图,来动态决定是否主动结束整个 Session。
周力表示,生成模型本身本身更适于一种引流性交互的模式。因为第一个词出来的时候,系统已经开始生成对应的语音音频了。而且生成的模型也可以帮助对整个场景的理解,而且还可以去判断什么时候这个对话应该结束了,这个如果是用传统的形式,或者用搜索的技术,很难达到这样的效果,也很难作出这样的判断。
▌Siri 们和小冰的未来
李笛表示,国内人工智能整体的发展更像在堆积木,而没有特别多探索到底层框架的设计。从全球的范围来看,大家已经开始逐渐向 Session-oriented 的方向再转,为什么?
“Turn-oriented 的上限决定了语音助手未来的发展空间。”
在李笛看来,现在的 AI Speaker(AI 音箱),相当于原来用遥控器去遥控的 Siri,现在改为用语音交互命令去遥控她,并没有完成更多的增值,也没有给人工智能留下多大的空间。因为框架决定了,她在未来的拓展性比较低。
李笛称,苹果最近也在考虑是不是要把 Siri 原来的框架废止掉,然后切换到一个新的框架上。“如果我们仅仅是针对一两个功能、技能,或者是一些知识图谱去做调整的话,不需要废掉原来的框架,这实际上是技术底层框架发生很大的改变。”
虽然这么说,但是 Alexa 凭借着上万种 Skills(技能)引发了效仿的热潮。虽然小冰在 Yeelight中没内置如此多的技能,不过周力表示,他们并不担心。
“真正重要的并不是说有 100 个、1000 个功能,而是我用起来到底费劲不费劲,如果费劲的话,你有再多的功能,我可能尝试一下之后,也不太会经常用。但如果你的交互变得很自然,哪怕功能很少,我可能也会经常去用,每天都会去用,甚至像我们天天用手机一样。”
而就在去年下半年,亚马逊为 Alexa 举办了一场竞赛,赛题是:建立一个社交机器人,这台机器人要能够与人类进行交流,并对热门话题持续讨论 20 分钟。
李笛认为,这是亚马逊在探索从 Turn-oriented 转向 Session-oriented 标志。
据悉,微软还会为小冰增加视觉交互的功能,与全双工语音交互一起形成完整的 Session-oriented 框架。但是这个框架是不是就是对话式 AI 系统的终极框架呢?李笛并没有盲目乐观。
“实际上,我们也一直是在类似纠结的过程中。我们在一个领域里领先的时候,我们很害怕,因为底层框架或者一些技术严重滞后的原因,突然出现一种新的框架,它的发展空间比我们的发展空间高,那我们就没有办法再追了,这是很重要的一件事情。”
招聘
AI科技大本营现招聘AI记者和资深编译,有意者请将简历投至:[email protected],期待你的加入!
AI科技大本营读者群(计算机视觉、机器学习、深度学习、NLP、Python、AI硬件、AI+金融、AI+PM方向)正在招募中,和你志同道合的小伙伴也在这里!关注AI科技大本营微信公众号,后台回复:读者群,添加营长请务必备注姓名,研究方向。
AI科技大本营 公众号ID:rgznai100☟☟☟点击 | 阅读原文 | 查看更多精彩内容