Part 3 人类对话的本质：思维

“ 对话的最终目的是为了同步思维 ”

你是一位30出头的职场人士，每天上午9点半，都要过办公楼的旋转门，进大堂的，然后刷工牌进电梯，去到28楼，你的办公室。今天是1月6日，平淡无奇的一天。你刚进电梯，电梯里只有你一个人，正要关门的时候，有一个人匆忙挤进来。

进来的快递小哥，他进电梯时看到只有你们两人，就说了一声“你好”，然后又低头找楼层按钮了。

你很自然的回复：“你好”，然后目光转向一边。

两边都没什么话好讲——实际上，是对话双方认为彼此没有什么情况需要同步的。

人们用语言来对话，其最终的目的是为了让双方对当前场景模型（Situation model）保持同步。（大家先了解到这个概念就够了。更感兴趣的，详情请见 Toward a neural basis of interactive alignment in conversation）。

The interactive-alignment model (based on Pickering and Garrod, 2004)

上图中，A和B两人之间发展出来所有对话，都是为了让红框中的两个“Situation model” 保持同步。Situation model 在这里可以简单理解为对事件的各方面的理解，包括Context。

不少做对话系统的朋友会认为Context是仅指“对话中的上下文”，我想要指出的是，除此以外，Context还应该包含了对话发生时人们所处的场景。这个场景模型涵盖了对话那一刻，除了明文以外的所有已被感知的信息。比如对话发生时的天气情况，只要被人感知到了，也会被放入Context中，并影响对话内容的发展。

A: “你对这个事情怎么看？”

B: “这天看着要下雨了，咱们进去说吧”——尽管本来对话内容并没有涉及到天气。

对同一件事情，不同的人在脑海里构建的场景模型是不一样的。 (想要了解更多，可以看 Situation models in language comprehension and memory. Zwaan, R. A., & Radvansky, G. A. (1998). )

所以，如果匆忙进电梯来的是你的项目老板，而且假设他和你（多半都是他啦）都很关注最近的新项目进展，那么你们要开展的对话就很多了。

在电梯里，你跟他打招呼：“张总，早！”，他会回你 “早啊，对了昨天那个…”

不待他问完，优秀如你就能猜到“张总” 大概后面要聊的内容是关于新项目的，这是因为你认为张总对这个“新项目”的理解和你不同，有同步的必要。甚至，你可以通过昨天他不在办公室，大概漏掉了这个项目的哪些部分，来推理你这个时候应该回复他关于这个项目的具体什么方面的问题。

“昨天你不在，别担心，客户那边都处理好了。打款的事情也沟通好了，30天之内搞定。” ——你看，不待张总问完，你都能很棒的回答上。这多亏了你对他的模型的判断是正确的。

一旦你对对方的情景模型判断失误，那么可能完全“没打中点上”。

“我知道，昨天晚上我回了趟公司，小李跟我说过了。我是要说昨天晚上我回来办公室的时候，你怎么没有在加班呀？小王，你这样下去可不行啊…”

所以，人们在进行对话的过程中，并不是仅靠对方上一句话说了什么（对话中明文所包含的信息）就来决定回复什么。而这和当前的对话系统的回复机制非常不同。

“ 对话是思想从高维度向低维的投影 ”

我们假设，在另一个平行宇宙里，还是你到了办公楼。

今天还是1月6日，但2年前的今天，你与交往了5年的女友分手了，之后一直对她念念不忘，也没有交往新人。

你和往日一样，进电梯的，刚要关门的时候，匆忙进来的一个人，要关的门又打开了。就是你2年前分手的那位前女友。她进门时看到只有你们两，她抬头看了一下你，然后又低头找楼层电梯了，这时她说：“你好”。

请问你这时脑袋里是不是有很多信息汹涌而过？这时该回答什么？是不是类似“一时不知道该如何开口”的感觉？

这个感觉来自（你认为）你和她之间的情景模型有太多的不同（分手2年了），甚至你都无法判断缺少哪些信息。有太多的信息想要同步了，却被贫瘠的语言困住了。

在信息丰富的程度上，语言是贫瘠的，而思想则要丰富很多 “Language is sketchy, thought is rich” (New perspectives on language and thought，Lila Gleitman, The Oxford Handbook of Thinking and Reasoning；更多相关讨论请看, Fisher & Gleitman, 2002; Papafragou, 2007)

有人做了一个比喻：语言和思维的丰富程度相比，是冰山的一角。我认为远远不止如此：对话是思想在低维的投影。

如果是冰山，你还可以从水面上露出来的部分反推水下大概还有多大。属于维度相同，但是量不同。但是语言的问题在，只用听到文字信息，来反推讲话的人的思想，失真的情况会非常严重。

为了方便理解这个维度差异，在这儿用3D和2D来举例：思维是高维度（立体3D的形状），对话是低维度（2D的平面上的阴影）。如果咱们要从平面上的阴影的形状，来反推，上面悬着的是什么物体，就很困难了。两个阴影的形状一模一样，但是上面的3D物体，可能完全不同。

对于语言而言，阴影就像是两个 “你好”在字面上是一模一样的，但是思想里的内容却完全不同。在见面的那一瞬间，这个差异是非常大的：

你在想（圆柱）：一年多不见了，她还好么？

前女友在想（球）：这个人好眼熟，好像认识…

“ 挑战：用低维表达高维 ”

要用语言来描述思维有多困难？这就好比，当你试图给另一位不在现场的朋友，解释一件刚刚发生过的事情的时候，你可以做到哪种程度的还原呢？

试试用语言来描述你今天的早晨是怎么过的。

当你用文字完整描述后，我一定能找到一个事物或者某个具体的细节，它在你文字描述以外，但是却确实存在在你今天早晨那个时空里。

Source:The Challenger

比如，你可能会跟朋友提到，早饭吃了一碗面；但你一定不会具体去描述面里一共有哪些调料。传递信息时，缺少了这些细节(信息)，会让听众听到那碗面时，在脑海里呈现的一定不是你早上吃的“那碗面”的样子。

这就好比让你用平面上（2D）阴影的样子，来反推3D的形状。你能做的，只是尽可能的增加描述的视角，尽可能给听众提供不同的2D的素材，来尽量还原3D的效果。

为了解释脑中“语言”和“思想”之间的关系（与读者的情景模型进行同步），我画了上面那张对比图，来帮助传递信息。如果要直接用文字来精确描述，还要尽量保全信息不丢失，那么我不得不用多得多的文字来描述细节。（比如上面的描述中，尚未提及阴影的面积的具体大小、颜色等等细节）。

这还只是对客观事物的描述。当人在试图描述更情绪化的主观感受时，则更难用具体的文字来表达。

比如，当你看到Angelina Jordan这样的小女生，却能唱出I put a spell on you这样的歌的时候，请尝试用语言精确描述你的主观感受。是不是很难？能讲出来话，都是类似“鹅妹子嘤”这类的？这些文字能代表你脑中的感受的多少部分？1%？

希望此时，你能更理解所谓 “语言是贫瘠的，而思维则要丰富很多”。

那么，既然语言在传递信息时丢失了那么多信息，人们为什么理解起来，好像没有遇到太大的问题？

“ 为什么人们的对话是轻松的？”

假设有一种方式，可以把此刻你脑中的感受，以完全不失真的效果传递给另一个人。这种信息的传递和上面用文字进行描述相比，丰富程度会有多大差异？

可惜，我们没有这种工具。我们最主要的交流工具，就是语言，靠着对话，来试图让对方了解自己的处境。

那么，既然语言这么不精准，又充满逻辑上的漏洞，信息量又不够，那么人怎么能理解，还以此为基础，建立起来了整个文明？

比如，在一个餐厅里，当服务员说 “火腿三明治要买单了”，我们都能知道这和“20号桌要买单了”指代的是同样的事情 (Nuberg,1978)。是什么让字面上那么大差异的表达，也能有效传递信息？

人能通过对话，有效理解语言，靠的是解读能力——更具体的点，靠的是对话双方的共识和基于共识的推理能力。

当人接收到低维的语言之后，会结合引用常识、自身的世界模型（后详），来重新构建一个思维中的模型，对应这个语言所代表的含义。这并不是什么新观点，大家熟悉的开复老师，在1991年在苹果搞语音识别的时候，就在采访里科普，“人类利用常识来帮助理解语音”。

当对话的双方认为对一件事情的理解是一样的，或者非常接近的时候，他们就不用再讲。需要沟通的，是那些（彼此认为）不一样的部分。

当你听到“苹果”两个字的时候，你过去建立过的苹果这个模型的各个维度，就被引用出来，包括可能是绿或红色的、味道的甜、大概拳头大小等等。如果你听到对方说“蓝色的苹果”时，这和你过去建立的关于苹果的模型不同（颜色）。思维就会产生一个提醒，促使你想要去同步或者更新这个模型，“苹果为什么是蓝色的？”

还记得，在Part 2 里我们提到的那个测试指代关系的Winograd Schema Challenge么？这个测试的名字是根据Terry Winograd的一个例子而来的。

“议员们拒绝给抗议者颁发许可证，因为他们 [害怕/提倡] 暴力。”

当 [害怕] 出现在句子当中的时候，“他们”指的应该是议员们；当[提倡]出现在句子当中的时候，“他们”则指的是“抗议者”。

1. 人们能够根据具体情况，作出判断，是因为根据常识做出了推理，“议员害怕暴力；抗议者提倡暴力。”

2. 说这句话的人，认为这个常识对于听众应该是共识，就直接把它省略掉了。

同理，之前（Part 2）我们举例时提到的那个常识（“四川火锅是辣的；日料不是辣的”），也在表达中被省略掉了。常识（往往也是大多数人的共识）的总量是不计其数，而且总体上还会随着人类社会发展的演进而不断新增。

例子1，如果你的世界模型里已经包含了“华农兄弟” （你看过并了解他们的故事），你会发现我在Part 2最开始的例子，藏了一个梗（做成叫花鸡）。但因为“华农兄弟”并不是大多数人都知道的常识，而是我与特定人群的共识，所以你看到这句话时，获得的信息就比其人多。而不了解这个梗的人，看到那里时就不会接收到这个额外的信息，反而会觉得这个表达好像有点点奇怪。

例子2，创投圈的朋友应该都有听说过 Elevator pitch，就是30秒，把你要做什么事情讲清楚。通常的案例诸如：“我们是餐饮界的Uber”，或者说“我们是办公室版的Airbnb”。这个典型结构是“XX版的YY”，要让这句话起到效果，前提条件是XX和YY两个概念在发生对话之前，已经纳入到听众的模型里面去了。如果我给别人说，我是“对话智能行业的麦肯锡”，要能让对方理解，对方就得既了解对话智能是什么，又了解麦肯锡是什么。

“基于世界模型的推理 ”

场景模型是基于某一次对话的，对话不同，场景模型也不同；而世界模型则是基于一个人的，相对而言长期不变。

对世界的感知，包括声音、视觉、嗅觉、触觉等感官反馈，有助于人们对世界建立起一个物理上的认识。对常识的理解，包括各种现象和规律的感知，在帮助人们生成一个更完整的模型：世界模型。

无论精准、或者对错，每一个人的世界模型都不完全一样，有可能是观察到的信息不同，也有可能是推理能力不一样。世界模型影响的是人的思维本身，继而影响思维在低维的投影：对话。

让我们从一个例子开始：假设现在咱们一起来做一个不那么智障的助理。我们希望这个助理能够推荐餐厅酒吧什么的，来应付下面这样的需求：

当用户说：“我想喝点东西”的时候，系统该怎么回答这句话？经过Part 2，我相信大家都了解，我们可以把它训练成为一个意图“找喝东西的店”，然后把周围的店检索出来，然后回复这句话给他：“在你附近找到这些选择”。

恭喜，咱们已经达到Siri的水平啦！

但是，刚刚我们开头就说了，要做不那么智障的助理。这个“喝东西的店”是奶茶点还是咖啡店？还是全部都给他？

嗯，这就涉及到了推理。我们来手动模拟一个。假设我们有用户的Profile数据，把这个用上：如果他的偏好中最爱的饮品是咖啡，就给他推荐咖啡店。

这样一来，我们就可以更“个性化”的给他回复了：“在你附近找到这些咖啡店”。

这个时候，咱们的AI已经达到了不少“智能系统”最喜欢鼓吹的个性化概念——“千人千面”啦！

然后我们来看这个概念有多蠢。

一个人喜欢喝咖啡，那么他一辈子的任意时候就都要喝咖啡么？人是怎么处理这个问题的呢？如果用户是在下午1点这么问，这么回他还好；如果是在晚上11点呢？我们还要给他推荐咖啡店么？还是应该给他推荐一个酒吧？

或者，除此之外，如果今天是他的生日，那么我们是不是该给他点不同的东西？或者，今天是圣诞节，该不该给他推荐热巧克力？

你看，时间是一个维度，在这个维度上的不同值都在影响给用户回复什么不同的话。

时间和用户的Profile不同的是：

1. 时间这个维度上的值有无限多；

2. 每个刻度还都不一样。比如虽然生日是同一个日期，但是过生日的次数却不重复；

除了时间这个维度以外，还有空间。

于是我们把空间这个维度叠加（到时间）上去。你会发现，如果用户在周末的家里问这个问题（可能想叫奶茶外卖到家？），和他在上班时间的办公室里问这个问题（可能想出去走走换换思路），咱们给他的回复也应该不同。

光是时空这两个维度，就有无穷多的组合，用"if then"的逻辑也没法全部手动写完。我们造机器人的工具，到这个需求，就开始捉襟见肘了。

何况时间和空间，只是世界模型当中最显而易见的两个维度。还有更多的，更抽象的维度存在，并且直接影响与用户的对话。比如，人物之间的关系；人物的经历；天气的变化；人和地理位置的关系（是经常来出差、是当地土著、是第一次来旅游）等等等等。咱们聊到这里，感觉还在聊对话系统么？是不是感觉有点像在聊推荐系统？

要想效果更好，这些维度的因素都要叠加在一起进行因果推理，然后把结果给用户。

至此，影响人们对话的，光是信息（还不含推理）至少就有这三部分：明文（含上下文）+ 场景模型（Context）+ 世界模型。

普通人都能毫不费力地完成这个工作。但是深度学习只能处理基于明文的信息。对于场景模型和世界模型的感知、生成、基于模型的推理，深度学习统统无能为力。

这就是为什么现在炙手可热的深度学习无法实现真正的智能（AGI）的本质原因：不能进行因果推理。

根据世界模型进行推理的效果，不仅仅体现上在对话上，还能应用在所有现在成为AI的项目上，比如自动驾驶。

经过大量训练的自动驾驶汽车，在遇到偶发状况时，就没有足够的训练素材了。比如，突然出现在路上的婴儿车和突然滚到路上的垃圾桶，都会被视为障碍物，但是刹不住车的情况下，一定要撞一个的时候，撞哪一个？

又比如，对侯世达(Douglas Hofstardler )而言，“驾驶”意味着当要赶着去一个地方的时候，要选择超速还是不超速；要从堵车的高速下来，还是在高速上慢慢跟着车流走...这些决策都是驾驶的一部分。他说：“世界上各方面的事情都在影响着“驾驶”这件事的本质 ”。

“ 人脑有两套系统：系统1 和系统2 ”

关于 “系统1和系统2”的详情，请阅读 Thinking, Fast and Slow, by Daniel Kahneman，一本非常好的书，对人的认知工作是如何展开的进行了深入的分析。在这儿，我给还不了解的朋友介绍一下，以辅助本文前后的观点。

心理学家认为，人思考和认知工作分成了两个系统来处理：

系统1是快思考：无意识、快速、不怎么费脑力、无需推理

系统2是慢思考：需要调动注意力、过程更慢、费脑力、需要推理

系统1先上，遇到搞不定的事情，系统2会出面解决。

系统1做的事情包括: 判断两个物体的远近、追溯声音的来源、完形填空 ( "我爱北京天安 " )等等。

顺带一提，下象棋的时候，一眼看出这是一步好棋，这个行为也是系统1实现的——前提是你是一位优秀的玩家。

对于中国学生而言，你突然问他：“7乘以7”，他会不假思索的说：“49！”这是系统1在工作，因为我们在小学都会背99乘法表。这个49并非来自计算结果，而是背下来的（反复重复）。

相应的，如果你问：“3287 x 2234等于多少？”，这个时候人就需要调用世界模型中的乘法规则，加以应用（计算）。这就是系统2的工作。

另外，在系统1所设定的世界里，猫不会像狗一样汪汪叫。若事物违反了系统1所设定的世界模型，系统2也会被激活。

在语言方面，Yoshua Bengio 认为系统1不做与语言有关的工作；系统2才负责语言工作。对于深度学习而言，它更适合去完成系统1的工作，实际上它根本没有系统2的功能。

关于这两个系统，值得一提的是，人是可以通过训练，把部分系统2才能做的事情，变成系统1来完成的。比如中国学生得经过“痛苦的记忆过程”才能熟练掌握99乘法表，而不是随着出生到长大的自然经验，慢慢学会的。

但是这里有2个有意思的特征：

1. 变成系统1来处理问题的时候，可以节约能量。人们偏向相信自己的经验，是因为脑力对能量的消耗很大，这是一个节能的做法。

2. 变成系统1的时候，会牺牲辩证能力，因为系统1对于逻辑相关的问题一无所知。“我做这个事情已经几十年了”这种经验主义思维就是典型案例。

想想自己长期积累的案例是如何在影响自己做判断的？

“ 单靠深度学习搞不定语言，现在不行，将来也不行 ”

在人工智能行业里，你经常会听到有人这么说 “尽管当前技术还实现不了理想中的人工智能，但是技术是会不断演进的，随着数据积累的越来越多，终将会实现让人满意的人工智能。”

如果这个说法，是指寄希望于仅靠深度学习，不断积累数据量，就能翻盘——那就大错特错了。

无论你怎么优化“马车”的核心技术（比如更壮、更多的马），都无法以此造出汽车(下图右)。

对于大众而言，技术的可演进性，是以宏观的视角看人类和技术的关系。但是发动机的演化和马车的关键技术没有半点关系。

深度学习领域的3大牛，都认为单靠深度学习这条路（不能最终通向AGI）。感兴趣的朋友可以沿着这个方向去研究:

Geoffrey Hinton的怀疑：“我的观点是都扔掉重来吧”

Yoshua Bengio的观点：“如果你对于这个每天都在接触的世界，有一个好的因果模型，你甚至可以对不熟悉的情况进行抽象。这很关键......机器不能，因为机器没有这些因果模型。我们可以手工制作这些模型，但是这远不足够。我们需要能发现因果模型的机器。”

Yann LeCun的观点：“A learning predictive world model is what we’re missing today, and in my opinion is the biggest obstacle to significant progress in AI.”

至于深度学习在将来真正的智能上扮演的角色，在这儿我引用Gary Marcus的说法：“I don’t think that deep learning won’t play a role in natural understanding, only that deep learning can’t succeed on its own.”

“ 解释人工智障产品 ”

现在，我们了解了人们对话的本质是思维的交换，而远不只是明文上的识别和基于识别的回复。而当前的人工智能产品则完全无法实现这个效果。那么当用户带着人类的世界模型和推理能力来跟机器，用自然语言交互时，就很容易看到破绽。

Sophia是一个技术上的骗局（凡是鼓吹Sophia是真AI的，要么是不懂，要么是忽悠）；

现在的AI，都不会有真正的智能（推理能力什么的不存在的，包括Alpha go在内）；

只要是深度学习还是主流，就不用担心AI统治人类；

对话产品感觉用起来智障，都是因为想跳过思维，直接模拟对话（而现在也只能这样）；

“用的越多，数据越多，智能会越强，产品就会越好，使用就会越多”——对于任务类对话产品，这是一个看上去很酷，实际上不靠谱的观点；

一个AI agent，能对话多少轮，毫无意义；

to C的助理产品做不好，是因为解决不了“如何获得用户的世界模型数据，并加以利用”这个问题；

to B的对话智能公司为何很难规模化？（因为场景模型是手动生成的）

先有智能，后有语言：要做到真正意义上的自然语言对话，至少要实现基于常识和世界模型的推理能力。而这一点如果能实现，那么我们作为人类，就可能真的需要开始担心前文提到的智能了。

不要用NLP评价一个对话智能产品：年底了，有些媒体开始出各种AI公司榜单，其中有不少把做对话的公司分在NLP下面。这就好比，不要用触摸屏来衡量一款智能手机。在这儿我不是说触摸屏或者NLP不重要(Essential)，反而因为太重要了，这个环节成为了每一家的标配，以至于在这方面基本已经做到头了，差异不过1%。

对于一个对话类产品而言，NLU尽管重要，但只应占个整体配件的5-10%左右。更进一步来说，甚至意图识别和实体提取的部分用大厂的，产品间差异也远小于对话管理部分的差距。真正决定产品的是剩下的90%的系统。

到此，是不是有一种绝望的感觉？这些学界和行业的大牛都没有解决方案，或者说连有把握的思路都没有。是不是做对话智能这类的产品就没戏了？上限就是这样了么？

不是。对于一项技术而言，可能确实触底了；但是对于应用和产品设计而言，并不是由一个技术决定的，而是很多技术的结合，这里还有很大的空间。

作为产品经理，让我来换一个角度。我们来研究一下，既然手中的工具是这些，我们能用他们来做点什么？

关于作者

作者Mingke，正在从事对话智能方面的创业，为世界一百强企业提供对话智能应用的咨询和解决方案。上次《为什么现在的人工智能助理都像人工智障》一文发出来之后，认识结交了不少行业内的朋友。希望这次，把过去一段时间的思考与大家分享，能给行业内的新老朋友们一些启发，有兴趣沟通和碰撞的也欢迎与我联系。

欢迎行业里的新老朋友勾搭吐槽，微信：mingke27 （请注明称呼+所在机构）

人工智障 2：你所看到的AI和智能无关（中）

Part 3

人类对话的本质：思维

你可能感兴趣的:(人工智障 2：你所看到的AI和智能无关（中）)