语音交互被视为人工智能时代的重要入口,而家庭又是一个噪音较少、网络稳定、需求明确而有限的场景,所以各大厂商都想抢占这一入口。今年以来各大智能音箱促销大战此起彼伏,促销力度一浪接着一浪,从小爱mini的99元,到天猫精灵方糖的89元,到叮咚mini的79元。低价新奇的智能音箱销量可观,教育了大众,更多的人也实实在在的接触到了人工智能。
本文从旅游场景用户需求出发,畅想一下人工智能在这一场景下的应用。
一、旅游场景
传统的旅游人群去景区主要是看房子,看看树,看看山,看看景。
自然景区无可厚非,游客就是领略自然风光,看看名山大川;但是到了人文景区,比如故宫、天坛,绝大多数人都只有一个大概的认识,知道这是古代皇帝住的地方,这是古代皇帝祭祀的地方。转了一会,发现房子到处都一样,逐渐的失去了新鲜感,失去了兴趣。旅游不过也就是我去过那里了,打过卡了。
人们去人文景区的意义在哪?
大家都会说感受传统文化,感受革命精神,感受历史的气息。那这种感受到底是什么?如何感受?
这里的核心是意义感。
如果游客知道他站的那个地方在几百年前发生了什么事,这些事为什么会发生,甚至这件事或者事里的人他还知道,那这种感觉就更强烈了。游客可以想象在这个地方发生这件事的景象,而自己在旁观,这时,游客就感受到了强烈的历史感,可能还多了些梦幻。
所以,让游客在旅游过程中有意义感,真正感受到历史,可能唯一的方式,就是及时了解相关故事,而且故事细节越多越好,展示方式越形象越好。其实景区一直都知道这个问题的存在,也一直在着手解决这个问题。
景区的方案
为论述方便,先定义下本文中的景区和景点,下文会经常出现:
景区:具备相应的旅游设施并提供相应的旅游服务的独立管理区。比如故宫,颐和园,天坛都是景区。
景点:景区内的一处景观。比如故宫中的太和殿,武英殿、坤宁宫、御花园都是一个个景点。一个景区内包含多个景点。
一般景区,在入口处会有介绍整个景区的石板,里面的每个景点旁,有介绍每个景点的石板。上面有名称以及简介,告诉你历史由来、相关的人和事,可你要多加了解就要站在那耐着性子读完。真实的场景是,游客已经走得很累了,晒得或冻得不行了,你还要让他在一个看不清字的石板上看故事,用户体验可想而知。
更先进的方案是自动导览工具,近年来才开始在景区普及。大多为手机APP,可以根据地理位置判断你走到了哪个景点,一旦检测到你进了某个景点的触发范围,就可以自动触发语音讲解。这种方式能让游客将了解文化/故事这一需求通过听的方式满足,眼睛就集中在观赏上,两个感官得到的信息互相对照,比在石板上看故事好了很多。
但是,问题依然明显:
1.所触发的讲解基本上就是直接读出石板上的字。
2.你不能对这种方式触发的讲解明确加以控制。你得明确的到某个景点的触发范围,但你又不知道具体的触发范围在哪,你又不知道一个景点会不会有语音导览(除非你掏出手机或讲解器看一下)。
3.定位准确度还有待提升。
4.它每次触发就是从头到尾念一遍,根本不管你是不是正在和别人说话,如果哪里没听明白或是想重听,那就还要掏出手机,重新播放,或者去百度。在旅游中碰到不懂的地方再去动手查资料,想想就很烦。
5.手机开着自动导览,超级费电(主要是因为定位)!
除了更了解景点本身,另一个在景区里的高频需求是找卫生间和买水的地方。传统方式就是放眼四处看、问工作人员、找牌子。当然,现在导览APP中都有相关的标注,甚至有些APP还提供导航功能,方便了不少。
总结一下,游客在景区内的主要需求:
1.了解某个景点的具体故事
2.知道该如何游览景区(路线规划)
3.找服务设施(卫生间、卖水和食物的地方、休息处等)
4.娱乐(聊天、小游戏等)
这些问题,如果可以在一个移动智能设备上解决,这个设备,目前看来,可能是智能耳机。
智能耳机
智能耳机就是把耳机加入人工智能,通过这个设备,你能用语言和外界自由的交换信息。
为什么是语音交互?
Mary Meeker在2016年互联网趋势报告中分析指出(如下图),语音交互有下面几个核心价值:
1.解放双手
2.更快得到结果
3.有趣/酷
4.避免某些设备输入困难和让人眼花缭乱的菜单
预计应用场景为:
1.随身场景(19%),相关载体为手机、手表、手环、耳机等
2.汽车场景(36%),相关载体为整车系统、后视镜、行车记录仪等
3.家庭场景(43%),相关载体为电视、音箱、空调、台灯等
4.办公场景(2%),不知道会不会是锤子TNT……
海银资本王煜泉认为:
语言是人类拥有的一项伟大的进化产物,使得我们协作的效率和复杂程度大大提升。在机器不能达到人类智力水平的时候,我们只好迁就机器,用机器能懂的方式和它交流。但是当机器逐渐具备了理解人类的能力时,我们就应该回归到对自己来说最有效,也最自然的沟通方式,就是语音。
总之,语音交互更自然、效率更高,在旅游场景下的应用就是随身场景的一种,在这一场景下,最好的载体就是耳机。
戴着智能耳机去旅行
1.展开想象的翅膀
基于上面的种种需求(加粗部分),我们如果不考虑技术实现,只是想象的话,那电影《她》(Her,导演:Spike Jonze)里面的机器人一定是最佳选项了。
她是一个同时具有人类情感,并且能瞬间获取信息并给出反馈的AI,如果你在旅游的时候带着她(其实就是戴着耳机),她可以给你讲解,给你指路,对你嘘寒问暖,同时你们也可以闲聊,把你的看法和感受告诉她,反正她一定是你喜欢的样子。
甚至造出来生活中你最乐意相处的人(见《黑镜》第二季第一集),让一个完全真实的“人”来陪你,可这样要不要多买门票呢?
2.现实一点
抛开科幻不谈,在可预见的未来,结合上面加粗部分需求我们或许能得到这些体验:
(1)用户灵活提问,让智能耳机充当导游(了解某个景点的具体故事)
这是在景区内最核心的需求,让用户通过介绍和故事得到意义感。比如在故宫,用户走到太和殿前,直接就可以和智能耳机说:
用户:介绍一下太和殿
耳机:……明清两朝,太和殿均是用来举行各种典礼的场所,如皇帝登基、册立皇后、命将出征出征等。清初,太和殿还是举行殿试的场所,乾隆四十五年后改在保和殿……
用户:皇帝怎么登基啊?
耳机:……先要由礼部的官员分别到天坛、先农坛、太庙告知祖先。“至时,鸣钟鼓,皇帝衮服御奉天门。”明朝的皇帝只有在特别盛大的仪式中才穿黄色的衮服,他们日常所穿的是黑色绣龙形的常服……
还可以基于用户定位,比如用户站在太和殿前:
用户:牌匾上写的是什么字啊?
耳机:牌匾上是建极绥猷四个字,寓意为:天子承担上对皇天、下对庶民的双重神圣使命,既须承天而建立法则,又要抚民而顺应大道。
用户:那对联呢?
……
用户可以开放性的问自己想知道的问题,在耳机回答的过程中,用户还可以根据自己感兴趣的点,继续追问下去。
难点:开放性问题,AI要在场景中以非常快的速度找到足够合适的答案,这在目前看来还是很难的。
因为同一个问题在不同的场景下用户想要的答案会很不同,比如上面那个“皇帝怎么登基啊?”,如果是一个学历史的学生问这个问题,那他是想得到一个详细的答案,可能包括详细的流程,细化到穿什么衣服,什么人要做什么事,为什么要做这些事,等等(当然要耳机提供这种答案是很扯的了,还是对一台TNT说靠谱)。
有的人,可能就是想知道每一步做什么,三言两语就说清楚了。在旅游的这个场景下,可能用户想要的是一个一两分钟的简短介绍。这种一两分钟的介绍怎么找,如果没有现成的要怎么办?
我们是不断提高人工智能快速检索信息,然后再造出适合当下场景回复的能力?或者,有一个公司把每个部分(包括历史典故、构建经历、文化等)都编成适合旅游这个场景下的高质量讲解,这些讲解组成了一个信息源,人工智能只要检索相关数据库就可以了。这,可能会成为旅游场景下的得到。
(2)帮助规划线路
通过对用户本人的了解,通过简单的询问和交流,可以规划出合适的旅游路线。同时,在游玩途中,可以记住用户行走的路线,并根据关门时间、旅游计划、景区内人流分布等,规划后续的最佳路线。
(3)帮用户找服务设施
比如用户想找卫生间:
用户:这周围哪里有卫生间?
耳机:最近的卫生间距您500米,您要现在出发吗?
用户:现在就去
耳机:好的,您右拐一直走……左拐……
难点:是否可以在耳机中放置传感器,让智能耳机知道用户面向哪个方位。
(4)娱乐
在景区内,可以有语音版的贴吧、留言墙、弹幕墙,游客们可以抒发感想、说出游览趣事、吐槽,这些内容可以基于关键词或位置,其他人通过说出关键词,或走到相关位置,收听相关内容、语音点赞。
其他比如歌曲、相声、有声书等内容,现在就可以满足。
(5)其它体验
出门时,查到用户计划去的景区是否卖水和食物,甚至提前警告景区内的相关商品价格,让用户提前做好准备。
旅行中不可避免的翻译问题。
3.再现实一点
开放域问题的解答对AI来说很难,短期内,我们可以做一个个skill,相当于手机上的APP,来满足旅游场景下的主要需求。这个skill可以专门针对旅游这一场景,把功能限制在四个主要的需求上,这样就可以把语言理解限制在有限的几个意图中,同样,每个意图下的关键词和话术的组合是有限的。
通过穷尽这些组合,我们可以得到旅游场景下的有限域问答系统,这样,就可以较出色完成任务。
这个领域短期内可能会呈现如下几种模式:
1.一个skill内有所有的景区内容,智能耳机收到相关问题,并判断用户是在旅游场景下(可以根据地理位置和问题关键词判断),就会调用这个skill,去查找相关的回答。相当于你对小爱音箱说“红豆”,它会自动认为你想听这首歌,然后打开QQ音乐,为你播放这首歌。这种模式下,公司可以自己做内容,也可以做成平台,让用户或者第三方产生内容,问题是,怎么让平台上的内容生产者有动力持续输出优质内容。
2.或者,每个景区只专注于做自己的skill,只满足自己景区的需求。游客每去一个景点,都可以在门前的牌子上看到唤醒这个景区skill的唤醒词,说了这个唤醒词,在这个景区旅游的过程中都可以调用相关能力。
4.基础性问题
(1)续航问题:
如果把计算和数据传输都放到耳机上,续航可想而知。
1.一种较好的方案是耳机只负责数据传输,将语音识别、处理、生成回答、合成语音等都放到其他设备上,比如手机。《她》中的解决方案类似这种。
2.也可以将智能耳机的电池仓放入芯片,作为智能中枢,这样可以每次使用一个耳机,另一个耳机在充电,同时可以有不间断的智能体验。
(2)反馈时间:
反馈时间会对语音交互体验造成很大影响。你问人工智能一句话,等了半天没有反应,过了好长时间突然说了句话,很是吓人。反馈时间受数据传输速度和计算速度影响。
1.数据传输速度:即将到来的5G会让数据传输速度上一个新台阶。
2.计算速度:是更严重的问题,要在较短时间内将语音识别、处理、生成回答、合成语音都搞定。就使用小爱同学的体验来看,在多次语音交互后,有明显的发热,说明这些处理过程还是很耗内存的。如果说了几句话,耳机或者手机变得特别烫,那还怎么用。
(3)区分说话对象:
用户独自旅游的时候智能耳机最好一直处在这个skill中,这样能快速而准确的应答用户需求,而不是用户每问一个问题就要说一句唤醒词。
但如果几个人结伴同行,互相聊天时智能耳机总是在搭茬,而且还都是它听不懂你在说啥,这时,每次单独唤醒会有更好的体验。那是否这个skill要有两种模式呢?
总结
旅游场景下应用人工智能有美好的前景,同时也有很多问题亟待解决。目前情况下,下个APP还是较好的解决方案。
喜欢旅游的朋友可以去App Store或者应用宝下个大雁导游体验下,就酱~~~<