两年前的今天,AI流行下围棋;今天,AI流行打电话……
这个潮流的最近一次上演,是几天前的百度AI开发者大会上,李彦宏现场播放了百度AI客服邀请开发者的真实电话录音。
当时我就在现场,第一通电话里那位开发者方言比较重,到底说了什么我基本没听懂。但百度的AI却应对自如,在电话中回答了各种问题。
第二通电话更神了,那位女开发者发现了小度的AI身份,直接问百度给ta发钱吗,结果被小度用一句“百度给我免费充电”,巧妙的“回撩”了过去。
在众人的惊叹中,我们很容易发现让AI打电话已经成为了“兵家必争”之地。前不久谷歌I/O大会上Google Assistant演示AI打电话订餐厅,一句“嗯哼”也安排得明明白白。几天之后微软的AI大会上马上反击,不仅上演电话秀,还高调Diss谷歌,表示微软小冰已经打过60多万次电话了。
打电话这件事就这么重要吗?引三大AI巨头都不惜电话费也要硬杠一下?
事实上,在这个AI跟陌生人直接进行有效沟通的场景里,隐藏着两个AI语音与NLP技术的核心关卡,足够给今天AI公司的军备竞赛提供完美肌肉秀。而AI打电话同时也指向另一个问题:AI到底能干什么,是不是在很多领域已经可以完全代替真实的产业劳动?
打个call的功夫,这些复杂的竞争与技术炫技就都显露了出来。
一颦一笑都有来历:
为什么已经听不出AI还是真人?
AI打电话第一关:怎么让AI声音听起来不别扭?
我们知道,人和人之间的交流,其实绝大部分依靠的是简单的词汇量+大量复杂的情感词、语气词、助动词。如果我们把日常说话直接转化为文字,会发现文档里80%的话都是“无效信息”。
但怎么让AI学会这些东西,像真人一样有感情、有顿挫,有语气词,甚至有呼吸节奏地与人交流,是一门巨大的技术挑战。
百度AI开发者大会前,百度AI客服给大量开发者打了电话,其中很多开发者一开始压根没有发现这是位AI小姐姐。而这其实是建立在它没有刻意修饰机器音的基础上。
如何让AI听起来像人一样,这需要在语音合成与语序修饰上下一番功夫。而这也是各家展现本领的时刻。
根据资料,谷歌I/O大会上的打电话AI,使用了生成式 TTS 引擎。能根据不同的情境控制语音的语调,并生成一些语气词。当然,这背后还有DeepMind的WaveNet自然语音合成算法作为支撑。
虽然谷歌的操作已经十分风骚。但在中文领域想要复制英文的词汇运算以及助词生成却完全无法进行。百度这次展示的语音合成方案,据称是基于中文识别与语义理解技术,创新结合WaveNet加上拼接技术,打造出了满足中文需求,并适合大规模应用的自然语言合成算法。
所以我们在听百度AI客服打电话的时候,会在机器音之外听到自然的语序,合理的语气词使用,甚至模仿出的呼吸声,迈过了AI与人类傻傻分不清楚的第一道门槛。
当然了,只是说话好听是没用的,重点是能听懂,能聊下去。在理解层面,AI的挑战就更大了。
一言一语都是学问:
AI如何跟陌生人聊下去
直到今天,很多媒体和看客还在嘲笑AI聊天是“人工智障”。这种声音就像嘲笑最开始跑不过马车的汽车,当有一天大家发现在嘲笑的是什么,已经连汽车尾气都看不见了。
为了能在聊天时不“智障”,无数巧妙到毫厘的技术解决方案正在加紧研发与应用。AI能够真正与人聊天,而不是单纯的一问一答,需要的是AI能够快速识别人类问题,并快速给出回复。这个过程不能卡顿和延迟——没有人想跟慢半拍的机器聊天。
为了解决这个问题,各家高招跌出。比如第五代小冰采用了全双工语音技术,让预测模型和生成模型同步传输数据,达到预测聊天的效果。但可惜的是小冰似乎还没有脱离传统AI对话的窠臼,在流畅度以及“超纲”问题的应答上依旧不够灵敏。
对比谷歌和百度的打电话技术,会发现更好的解决方案,可能是结合自然声音合成技术同步生成高效预测,让AI和真人具有一样的沟通语言习惯。但谷歌的方案一出,马上收到了一些怀疑,比如他们的声音被多家媒体怀疑是录制声音作弊。
另一方面,相较百度的AI客服展示,谷歌语音助手是订餐。换言之谷歌语音助手只用给出信息,并听懂对方的回复就行了。而百度的AI客服却要回答对方可能出现的各种问题。甚至巧妙回答完全超乎一般人机语音对话中的问题——比如“百度给你发工资吗?”
百度的绝招,在于这次强调百度大脑升级的多模态深度语义理解技术,其中语音语义一体化技术,可以有效解决语音识别与语义理解中间的环节迟慢和环节误差问题,达到真正的与人随说所理解。
百度另一个值得注意的核心技术突破,是Deep peak2技术,其识别方案利用音素组合建模,可以忽略上下文影响,极快速准确识别语音语义,在亮相之处就跟华少的语速PK了一把。通过Deep peak2,小度不仅能识别开发者大会上那位老铁让我没听懂的方言,还可以准确识别中英文混合建模。让百度AI的识别错误率,比市面上主流AI语音硬件下降20%,且能应对中英文混着说这个“老大难问题”。
结合知识图谱技术作为基础,新锐语音识别解决方案作为驱动,语音语义一体化技术作为核心,AI客服才能主动与人类聊下去,回答各种问题。可以说在这个技术应用方案上,中国百度已经明显与谷歌、微软拉开差距。
一行一动都是未来:
AI客服的大革命
简单来说,打电话这件事的复杂程度和挑战性,让他成为了今天顶尖AI公司必须完成的军备竞赛。
但这项技术的目的当然不仅是为了炫技,用谷歌I/O大会之后美国科技媒体的评价:AI打电话这件事,正在把人工智能技术史无前例地与真实世界联系到一起。
客服投诉、企业管理、调查回访、联系沟通,我们有太多工作是依靠打电话这件事来完成的。假如AI可以胜任这项工作的核心领域,甚至达到以假乱真的地步,那么大量简单重复的语言工作将不再浪费人类的宝贵工作时间。
更重要的是,给陌生人打电话意味着机器与人全方位的沟通。尤其是百度客服电话在AI身份被试穿之后的调侃,完全可以应对大量需要及时处理、协调,给出咨询方案的沟通。甚至可以说,很多人类客服做的不会有它应对的这么好。
这个层面上看,打电话这事可以说是AI现实应用的练兵场。开放的应用层,会带给产业世界无穷的想象。举个例子来说,假如打电话的AI沟通能力,跟精准的机器翻译相结合。那么用AI主动与歪果仁进行跨语种聊天,然后把获取信息反馈回来不就成为了可能?那么市面上那些大张旗鼓的“翻译机”产品,不就失去了基本的存在价值?这就是技术突破后的降维打击。
目前来看,小冰还是无法摆脱语料库的尴尬;而谷歌还需要在更多应用场景证明自己打电话的能力真实性。百度已经领先了一个身位,给中国AI的打call打个call,在今天看来并不过分。