语音交互被视为人工智能时代的重要入口，而家庭又是一个噪音较少、网络稳定、需求明确而有限的场景，所以各大厂商都想抢占这一入口。今年以来各大智能音箱促销大战此起彼伏，促销力度一浪接着一浪，从小爱mini的99元，到天猫精灵方糖的89元，到叮咚mini的79元。低价新奇的智能音箱销量可观，教育了大众，更多的人也实实在在的接触到了人工智能。

本文从旅游场景用户需求出发，畅想一下人工智能在这一场景下的应用。

一、旅游场景

传统的旅游人群去景区主要是看房子，看看树，看看山，看看景。

自然景区无可厚非，游客就是领略自然风光，看看名山大川；但是到了人文景区，比如故宫、天坛，绝大多数人都只有一个大概的认识，知道这是古代皇帝住的地方，这是古代皇帝祭祀的地方。转了一会，发现房子到处都一样，逐渐的失去了新鲜感，失去了兴趣。旅游不过也就是我去过那里了，打过卡了。

人们去人文景区的意义在哪？

大家都会说感受传统文化，感受革命精神，感受历史的气息。那这种感受到底是什么？如何感受？

这里的核心是意义感。

如果游客知道他站的那个地方在几百年前发生了什么事，这些事为什么会发生，甚至这件事或者事里的人他还知道，那这种感觉就更强烈了。游客可以想象在这个地方发生这件事的景象，而自己在旁观，这时，游客就感受到了强烈的历史感，可能还多了些梦幻。

所以，让游客在旅游过程中有意义感，真正感受到历史，可能唯一的方式，就是及时了解相关故事，而且故事细节越多越好，展示方式越形象越好。其实景区一直都知道这个问题的存在，也一直在着手解决这个问题。

告诉你康熙在武英殿智擒鳌拜这个故事让你产生联想（上图），比仅仅让你看武英殿这个建筑（下图）要有意义得多

景区的方案

为论述方便，先定义下本文中的景区和景点，下文会经常出现：

景区：具备相应的旅游设施并提供相应的旅游服务的独立管理区。比如故宫，颐和园，天坛都是景区。

景点：景区内的一处景观。比如故宫中的太和殿，武英殿、坤宁宫、御花园都是一个个景点。一个景区内包含多个景点。

一般景区，在入口处会有介绍整个景区的石板，里面的每个景点旁，有介绍每个景点的石板。上面有名称以及简介，告诉你历史由来、相关的人和事，可你要多加了解就要站在那耐着性子读完。真实的场景是，游客已经走得很累了，晒得或冻得不行了，你还要让他在一个看不清字的石板上看故事，用户体验可想而知。

更先进的方案是自动导览工具，近年来才开始在景区普及。大多为手机APP，可以根据地理位置判断你走到了哪个景点，一旦检测到你进了某个景点的触发范围，就可以自动触发语音讲解。这种方式能让游客将了解文化/故事这一需求通过听的方式满足，眼睛就集中在观赏上，两个感官得到的信息互相对照，比在石板上看故事好了很多。

但是，问题依然明显：

1.所触发的讲解基本上就是直接读出石板上的字。

2.你不能对这种方式触发的讲解明确加以控制。你得明确的到某个景点的触发范围，但你又不知道具体的触发范围在哪，你又不知道一个景点会不会有语音导览（除非你掏出手机或讲解器看一下）。

3.定位准确度还有待提升。

4.它每次触发就是从头到尾念一遍，根本不管你是不是正在和别人说话，如果哪里没听明白或是想重听，那就还要掏出手机，重新播放，或者去百度。在旅游中碰到不懂的地方再去动手查资料，想想就很烦。

5.手机开着自动导览，超级费电（主要是因为定位）！

上图是一个典型的自动导览APP界面

除了更了解景点本身，另一个在景区里的高频需求是找卫生间和买水的地方。传统方式就是放眼四处看、问工作人员、找牌子。当然，现在导览APP中都有相关的标注，甚至有些APP还提供导航功能，方便了不少。

总结一下，游客在景区内的主要需求：

1.了解某个景点的具体故事

2.知道该如何游览景区（路线规划）

3.找服务设施（卫生间、卖水和食物的地方、休息处等）

4.娱乐（聊天、小游戏等）

这些问题，如果可以在一个移动智能设备上解决，这个设备，目前看来，可能是智能耳机。

智能耳机

智能耳机就是把耳机加入人工智能，通过这个设备，你能用语言和外界自由的交换信息。

为什么是语音交互？

Mary Meeker在2016年互联网趋势报告中分析指出（如下图），语音交互有下面几个核心价值：

1.解放双手

2.更快得到结果

3.有趣/酷

4.避免某些设备输入困难和让人眼花缭乱的菜单

预计应用场景为：

1.随身场景（19%），相关载体为手机、手表、手环、耳机等

2.汽车场景（36%），相关载体为整车系统、后视镜、行车记录仪等

3.家庭场景（43%），相关载体为电视、音箱、空调、台灯等

4.办公场景（2%），不知道会不会是锤子TNT……

海银资本王煜泉认为：

语言是人类拥有的一项伟大的进化产物，使得我们协作的效率和复杂程度大大提升。在机器不能达到人类智力水平的时候，我们只好迁就机器，用机器能懂的方式和它交流。但是当机器逐渐具备了理解人类的能力时，我们就应该回归到对自己来说最有效，也最自然的沟通方式，就是语音。

总之，语音交互更自然、效率更高，在旅游场景下的应用就是随身场景的一种，在这一场景下，最好的载体就是耳机。

戴着智能耳机去旅行

1.展开想象的翅膀

基于上面的种种需求（加粗部分），我们如果不考虑技术实现，只是想象的话，那电影《她》（Her，导演：Spike Jonze）里面的机器人一定是最佳选项了。

她是一个同时具有人类情感，并且能瞬间获取信息并给出反馈的AI，如果你在旅游的时候带着她（其实就是戴着耳机），她可以给你讲解，给你指路，对你嘘寒问暖，同时你们也可以闲聊，把你的看法和感受告诉她，反正她一定是你喜欢的样子。

《她》剧照（右耳智能耳机）

甚至造出来生活中你最乐意相处的人（见《黑镜》第二季第一集），让一个完全真实的“人”来陪你，可这样要不要多买门票呢？

2.现实一点

抛开科幻不谈，在可预见的未来，结合上面加粗部分需求我们或许能得到这些体验：

（1）用户灵活提问，让智能耳机充当导游（了解某个景点的具体故事）

这是在景区内最核心的需求，让用户通过介绍和故事得到意义感。比如在故宫，用户走到太和殿前，直接就可以和智能耳机说：

用户：介绍一下太和殿

耳机：……明清两朝，太和殿均是用来举行各种典礼的场所，如皇帝登基、册立皇后、命将出征出征等。清初，太和殿还是举行殿试的场所，乾隆四十五年后改在保和殿……

用户：皇帝怎么登基啊？

耳机：……先要由礼部的官员分别到天坛、先农坛、太庙告知祖先。“至时，鸣钟鼓，皇帝衮服御奉天门。”明朝的皇帝只有在特别盛大的仪式中才穿黄色的衮服，他们日常所穿的是黑色绣龙形的常服……

还可以基于用户定位，比如用户站在太和殿前：

用户：牌匾上写的是什么字啊？

耳机：牌匾上是建极绥猷四个字，寓意为：天子承担上对皇天、下对庶民的双重神圣使命，既须承天而建立法则，又要抚民而顺应大道。

用户：那对联呢？

……

用户可以开放性的问自己想知道的问题，在耳机回答的过程中，用户还可以根据自己感兴趣的点，继续追问下去。

难点：开放性问题，AI要在场景中以非常快的速度找到足够合适的答案，这在目前看来还是很难的。

因为同一个问题在不同的场景下用户想要的答案会很不同，比如上面那个“皇帝怎么登基啊？”，如果是一个学历史的学生问这个问题，那他是想得到一个详细的答案，可能包括详细的流程，细化到穿什么衣服，什么人要做什么事，为什么要做这些事，等等（当然要耳机提供这种答案是很扯的了，还是对一台TNT说靠谱）。

有的人，可能就是想知道每一步做什么，三言两语就说清楚了。在旅游的这个场景下，可能用户想要的是一个一两分钟的简短介绍。这种一两分钟的介绍怎么找，如果没有现成的要怎么办？

我们是不断提高人工智能快速检索信息，然后再造出适合当下场景回复的能力？或者，有一个公司把每个部分（包括历史典故、构建经历、文化等）都编成适合旅游这个场景下的高质量讲解，这些讲解组成了一个信息源，人工智能只要检索相关数据库就可以了。这，可能会成为旅游场景下的得到。

（2）帮助规划线路

通过对用户本人的了解，通过简单的询问和交流，可以规划出合适的旅游路线。同时，在游玩途中，可以记住用户行走的路线，并根据关门时间、旅游计划、景区内人流分布等，规划后续的最佳路线。

（3）帮用户找服务设施

比如用户想找卫生间：

用户：这周围哪里有卫生间？

耳机：最近的卫生间距您500米，您要现在出发吗？

用户：现在就去

耳机：好的，您右拐一直走……左拐……

难点：是否可以在耳机中放置传感器，让智能耳机知道用户面向哪个方位。

（4）娱乐

在景区内，可以有语音版的贴吧、留言墙、弹幕墙，游客们可以抒发感想、说出游览趣事、吐槽，这些内容可以基于关键词或位置，其他人通过说出关键词，或走到相关位置，收听相关内容、语音点赞。

其他比如歌曲、相声、有声书等内容，现在就可以满足。

（5）其它体验

出门时，查到用户计划去的景区是否卖水和食物，甚至提前警告景区内的相关商品价格，让用户提前做好准备。

旅行中不可避免的翻译问题。

3.再现实一点

开放域问题的解答对AI来说很难，短期内，我们可以做一个个skill，相当于手机上的APP，来满足旅游场景下的主要需求。这个skill可以专门针对旅游这一场景，把功能限制在四个主要的需求上，这样就可以把语言理解限制在有限的几个意图中，同样，每个意图下的关键词和话术的组合是有限的。

通过穷尽这些组合，我们可以得到旅游场景下的有限域问答系统，这样，就可以较出色完成任务。

这个领域短期内可能会呈现如下几种模式：

1.一个skill内有所有的景区内容，智能耳机收到相关问题，并判断用户是在旅游场景下（可以根据地理位置和问题关键词判断），就会调用这个skill，去查找相关的回答。相当于你对小爱音箱说“红豆”，它会自动认为你想听这首歌，然后打开QQ音乐，为你播放这首歌。这种模式下，公司可以自己做内容，也可以做成平台，让用户或者第三方产生内容，问题是，怎么让平台上的内容生产者有动力持续输出优质内容。

2.或者，每个景区只专注于做自己的skill，只满足自己景区的需求。游客每去一个景点，都可以在门前的牌子上看到唤醒这个景区skill的唤醒词，说了这个唤醒词，在这个景区旅游的过程中都可以调用相关能力。

4.基础性问题

（1）续航问题：

如果把计算和数据传输都放到耳机上，续航可想而知。

1.一种较好的方案是耳机只负责数据传输，将语音识别、处理、生成回答、合成语音等都放到其他设备上，比如手机。《她》中的解决方案类似这种。

2.也可以将智能耳机的电池仓放入芯片，作为智能中枢，这样可以每次使用一个耳机，另一个耳机在充电，同时可以有不间断的智能体验。

Apple AirPods

（2）反馈时间：

反馈时间会对语音交互体验造成很大影响。你问人工智能一句话，等了半天没有反应，过了好长时间突然说了句话，很是吓人。反馈时间受数据传输速度和计算速度影响。

1.数据传输速度：即将到来的5G会让数据传输速度上一个新台阶。

2.计算速度：是更严重的问题，要在较短时间内将语音识别、处理、生成回答、合成语音都搞定。就使用小爱同学的体验来看，在多次语音交互后，有明显的发热，说明这些处理过程还是很耗内存的。如果说了几句话，耳机或者手机变得特别烫，那还怎么用。

（3）区分说话对象：

用户独自旅游的时候智能耳机最好一直处在这个skill中，这样能快速而准确的应答用户需求，而不是用户每问一个问题就要说一句唤醒词。

但如果几个人结伴同行，互相聊天时智能耳机总是在搭茬，而且还都是它听不懂你在说啥，这时，每次单独唤醒会有更好的体验。那是否这个skill要有两种模式呢？

总结

旅游场景下应用人工智能有美好的前景，同时也有很多问题亟待解决。目前情况下，下个APP还是较好的解决方案。

喜欢旅游的朋友可以去App Store或者应用宝下个大雁导游体验下，就酱~~~<

人工智能在旅游场景中的应用